-
题名基于信息熵与词语活跃度的领域词抽取
被引量:1
- 1
-
-
作者
王成
吕学强
王弘蔚
王涛
-
机构
北京信息科技大学中文信息处理研究中心
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第5期49-52,58,共5页
-
基金
核高基项目(2010ZX01042-002-002)
国家自然科学基金项目(60872133)
北京市自然科学基金项目(4092015)
-
文摘
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。
-
关键词
领域词抽取
领域词过滤
信息熵
词语活跃度
知识获取
自然语言处理
-
Keywords
domain terms extraction
terms filtration
entropy
word activity
knowledge acquisition
natural language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于层叠隐马尔可夫模型的中文命名实体识别
被引量:163
- 2
-
-
作者
俞鸿魁
张华平
刘群
吕学强
施水才
-
机构
中国科学院计算技术研究所
北京信息科技大学中文信息处理研究中心
-
出处
《通信学报》
EI
CSCD
北大核心
2006年第2期87-94,共8页
-
基金
国家重点基础研究发展计划("973"计划)基金资助项目(G1998030507-4
G1998030510)
+2 种基金
计算所领域前沿青年基金资助项目(20026180-23)
国家自然科学基金资助项目(60272084)
北京市教育委员会科技发展计划重点项目(KZ200310772013)~~
-
文摘
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
-
关键词
命名实体识别
角色标注
ICTCLAS
-
Keywords
namedentityidentification
role tagging
ICTCLAS
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于MapReduce的术语权重计算方法研究
被引量:1
- 3
-
-
作者
王锴
施水才
王涛
吕学强
-
机构
北京信息科技大学中文信息处理研究中心
北京拓尔思信息技术股份有限公司
-
出处
《电信科学》
北大核心
2011年第11期62-65,共4页
-
基金
国家自然科学基金资助项目(No.60872133)
北京市自然科学基金资助项目(No.4092015)
北京市教委科技发展计划资助项目(No.KM201010772023)
-
文摘
术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。
-
关键词
术语权重
TF-IDF
MAPREDUCE
分布式
-
Keywords
term weight
TF-IDF
MapReduce
distributed
-
分类号
TP393.03
[自动化与计算机技术—计算机应用技术]
-
-
题名基于字同现频率的关键词自动抽取
被引量:4
- 4
-
-
作者
都云程
周伟
韩艳铧
吕学强
-
机构
北京信息科技大学中文信息处理研究中心
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第6期35-38,共4页
-
基金
国家自然科学基金项目(60872133)
北京市自然科学基金项目(4092015)
+1 种基金
北京市教委科技发展计划项目(KM201110772021)
国家科技支撑计划课题(2011BAH11B03)
-
文摘
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。
-
关键词
关键词自动抽取
字同现
TF/IDF
信息量
-
Keywords
keyword automatic extraction
word co-occurrence
TF/IDF
word information
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名外观设计专利审查中的图像检索关键技术
被引量:2
- 5
-
-
作者
施水才
程涛
-
机构
北京信息科技大学中文信息处理研究中心
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第2期1-5,共5页
-
基金
国家自然科学基金项目(60772081
60872133)
-
文摘
针对庞大而复杂的外观专利数据给外观专利设计带来的审查问题,对基于内容的图像检索、自动分类和自学习等关键技术进行了分析,同时对图像检索系统的性能评价指标体系进行了阐述。
-
关键词
外观设计专利
图像检索
性能指标
-
Keywords
appearance design patent
image retrieval
performance index
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于新闻语料的流行语量化分析
- 6
-
-
作者
施水才
吕学强
俞鸿魁
王霞
李渝勤
-
机构
北京信息科技大学中文信息处理研究中心
抚顺市第十五中学
-
出处
《现代电子技术》
2007年第2期154-156,共3页
-
基金
国家自然基金(60272084)
北京市教育委员会科技发展计划重点项目(K2200310772013)
+1 种基金
北京市教委项目(M200510772008
KM200610772008)
-
文摘
通过对1947~2002年,共计56年的《人民日报》新闻语料进行统计分析,按照流行语的时间属性,将流行语分为新流行语、持续流行语、历史流行语以度周期流行语,分析了新词语、流行语与高频有意义串的异同,列举《人民日报》中的实例,定性定量地分析了流行语的特点。
-
关键词
流行语
新词
统计
新闻语料
-
Keywords
catchword
new word
statistic
news corpus
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-