-
题名基于字典匹配和支持向量机的中文科技论文元数据抽取
被引量:3
- 1
-
-
作者
刘宇
钱跃
-
机构
大连理工大学软件学院
-
出处
《工程数学学报》
CSCD
北大核心
2012年第4期586-592,共7页
-
基金
国家自然科学基金(60803074)
中央高校基本科研业务费专项资金(DUT10JR06)~~
-
文摘
针对中文PDF格式论文元数据抽取问题,对大量中文科技论文进行分析归纳,总结出中文论文元数据的互不包含性、排它性、重复性、顺序性和部分确定性,并据此定义简单元数据和复杂元数据的概念,应用字典匹配和支持向量机模型抽取中文科技论文元数据.实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型.
-
关键词
元数据抽取
抽取模型
字典匹配
支持向量机
中文科技论文
-
Keywords
metadata extraction
extraction model
dictionary matching
support vector machine
Chinese papers
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名中文科技论文中顿号的使用问题
被引量:2
- 2
-
-
作者
田美娥
贺元旦
-
机构
<西安石油大学学报(自然科学版)>编辑部
-
出处
《出版科学》
CSSCI
2008年第4期38-39,共2页
-
文摘
在科技编辑界,并列的阿拉伯数字之间和并列的外文字符之间的停顿用逗号而不用顿号,已成为一种约定俗成的规则。但这种用法可能引起3个问题:不符合中文标点符号使用规则,句子层次混乱甚至造成歧义,句中对应成分标点符号不对应。
-
关键词
中文科技论文
顿号
阿拉伯数字
外文字符
-
Keywords
Chinese sci-tech thesis Slight-pause mark Arabic numerals Foreign character
-
分类号
G232
[文化科学]
-
-
题名高校自然科学学报论文表格的加工
- 3
-
-
作者
忻汝平
-
机构
北京师范大学学报自然科学版编辑部
-
出处
《现代出版》
1995年第3期36-37,44,共3页
-
文摘
高校自然科学学报论文表格的加工忻汝平科技论文的内容决定其文字表达要科学、严谨和富于逻辑性,而表格所具有的高度逻辑性、准确性和可比性,使其成为科技论文中不可缺少的表述手段。精心地设计表格,不仅能充分体现研究结果的对比效果,而且使论文篇幅紧凑、论述精炼、...
-
关键词
高校自然科学学报
表格
量符号
国家标准
中文科技论文
编辑加工
自明性
栏目设置
北京师范大学
读者服务
-
分类号
G232
[文化科学]
-