-
题名基于贝叶斯分类的中文物种描述文本的语义标注研究
被引量:3
- 1
-
-
作者
段宇锋
黑珍珍
鞠菲
崔红
-
机构
华东师范大学商学院信息学系
美国亚利桑那大学图书馆学与信息资源学院
-
出处
《情报学报》
CSSCI
北大核心
2012年第8期805-812,共8页
-
基金
本文为教育部人文社会科学青年项目“基于深度语义标注的网络中文学术信息抽取研究”(10YJC870004)的阶段性成果.
-
文摘
本研究从《中国植物志》中随机采集1000个文档作为数据集,采用基于先导词的朴素贝叶斯算法实现中文物种描述文本的自动语义标注。通过实验性研究,实验数据表明,先导词能够有效提升朴素贝叶斯的标注效率。采用先导词后,F平均值提高0.048~0.107,尤以Fr为2时效果最好,整体标注性能F平均值高达0.902。各元素的标注性能也较为理想。Fr分别取1、2、3时,大部分元素的F值为0.730~0.964。
-
关键词
朴素贝叶斯
先导词
物种描述文本
语义标注
-
Keywords
Naive Bayes, leading words, species description text, semantic annotation
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于机器学习的生物多样性英文文档语义标注研究
被引量:2
- 2
-
-
作者
崔红
段宇锋
郦芳
-
机构
美国亚利桑那大学图书馆学与信息资源学院
华东师范大学商学院信息学系
-
出处
《图书情报知识》
CSSCI
北大核心
2011年第2期73-77,共5页
-
文摘
针对现有语义标注系统通用性差的问题,本研究设计了基于先导词算法的MARTT语义标注系统。MARTT利用有监督的机器学习方法从文本中提取领域规则,以适应不同的数据集。为了检验算法的效率,研究以中国植物志和北美植物志数据为样本,运用十折交叉论证方法与NB、SVM的标注性能进行了比较。结果表明,先导词算法在准确率、召回率及计算成本上均优于其它两种算法。而且,在两个不同的数据集上都获得了理想的结果,证实MARTT所具有的良好适应性。
-
关键词
语义标注
MARTT
机器学习
生物多样性
-
Keywords
Semantic annotation MARTT Machine learning Biodiversity
-
分类号
G354
[文化科学—情报学]
-