-
题名《知网》在命名实体识别中的应用研究
被引量:11
- 1
-
-
作者
郑逢强
林磊
刘秉权
孙承杰
-
机构
哈尔滨工业大学智能技术与自然语言处理实验室计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期97-101,共5页
-
基金
国家自然科学基金资助项目(60435020
60673019)
+2 种基金
国家863计划资助项目(2006AA01Z197
2007AA01Z172)
黑龙江省自然科学基金资助项目(E200635)
-
文摘
命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。
-
关键词
计算机应用
中文信息处理
名实体识别
概念相似度
《知网》
最大熵模型
-
Keywords
computer application
Chinese information processing
named entity recognition
concept similarity
HowNet
maximum entropy model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名使用“分裂-合并'策略改进文本聚类集成算法的研究
被引量:1
- 2
-
-
作者
卢志茂
徐森
刘远超
顾国昌
-
机构
哈尔滨工程大学模式识别与自然计算研究室
盐城工学院计算机工程系
哈尔滨工业大学智能技术与自然语言处理实验室
-
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第7期714-718,共5页
-
基金
863计划(2007AA01Z172)
国家自然科学基金(60975042
+1 种基金
60603092)
高等学校博士学科点专项科研基金(20070217043)资助项目
-
文摘
探讨了'分裂-合并'(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了4.6和7.9个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。
-
关键词
聚类集成
谱聚类
文本聚类
分裂-合并(DM)
标准化互信息(NMI)
-
Keywords
cluster ensemble, spectral clustering, document clustering, divide and merge (DM), normalized mutual information (NMI)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-