检索结果-维普期刊中文期刊服务平台

基于信息熵与词语活跃度的领域词抽取被引量：1: 1; 作者王成吕学强 +1 位作者王弘蔚王涛《北京信息科技大学学报（自然科学版）》 2011年第5期49-52,58,共5页; 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语... 展开更多; 关键词领域词抽取领域词过滤信息熵词语活跃度知识获取自然语言处理; 在线阅读下载PDF 职称材料

基于层叠隐马尔可夫模型的中文命名实体识别被引量：163: 2; 作者俞鸿魁张华平 +2 位作者刘群吕学强施水才《通信学报》 EI CSCD 北大核心 2006年第2期87-94,共8页; 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名... 展开更多; 关键词命名实体识别角色标注 ICTCLAS; 在线阅读下载PDF 职称材料

基于MapReduce的术语权重计算方法研究被引量：1: 3; 作者王锴施水才 +1 位作者王涛吕学强《电信科学》北大核心 2011年第11期62-65,共4页; 术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Had... 展开更多; 关键词术语权重 TF-IDF MAPREDUCE 分布式; 在线阅读下载PDF 职称材料

基于字同现频率的关键词自动抽取被引量：4: 4; 作者都云程周伟 +1 位作者韩艳铧吕学强《北京信息科技大学学报（自然科学版）》 2011年第6期35-38,共4页; 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设... 展开更多; 关键词关键词自动抽取字同现 TF/IDF 信息量; 在线阅读下载PDF 职称材料

外观设计专利审查中的图像检索关键技术被引量：2: 5; 作者施水才程涛《北京信息科技大学学报（自然科学版）》 2011年第2期1-5,共5页; 针对庞大而复杂的外观专利数据给外观专利设计带来的审查问题,对基于内容的图像检索、自动分类和自学习等关键技术进行了分析,同时对图像检索系统的性能评价指标体系进行了阐述。; 关键词外观设计专利图像检索性能指标; 在线阅读下载PDF 职称材料

基于新闻语料的流行语量化分析: 6; 作者施水才吕学强 +2 位作者俞鸿魁王霞李渝勤《现代电子技术》 2007年第2期154-156,共3页; 通过对1947～2002年，共计56年的《人民日报》新闻语料进行统计分析，按照流行语的时间属性，将流行语分为新流行语、持续流行语、历史流行语以度周期流行语，分析了新词语、流行语与高频有意义串的异同，列举《人民日报》中的实例，定... 展开更多; 关键词流行语新词统计新闻语料; 在线阅读下载PDF 职称材料

题名基于信息熵与词语活跃度的领域词抽取被引量：1: 1; 作者王成吕学强王弘蔚王涛; 机构北京信息科技大学中文信息处理研究中心; 出处《北京信息科技大学学报（自然科学版）》 2011年第5期49-52,58,共5页; 基金核高基项目(2010ZX01042-002-002) 国家自然科学基金项目(60872133) 北京市自然科学基金项目(4092015); 文摘提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。; 关键词领域词抽取领域词过滤信息熵词语活跃度知识获取自然语言处理; Keywords domain terms extraction terms filtration entropy word activity knowledge acquisition natural language processing; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于层叠隐马尔可夫模型的中文命名实体识别被引量：163: 2; 作者俞鸿魁张华平刘群吕学强施水才; 机构中国科学院计算技术研究所北京信息科技大学中文信息处理研究中心; 出处《通信学报》 EI CSCD 北大核心 2006年第2期87-94,共8页; 基金国家重点基础研究发展计划("973"计划)基金资助项目(G1998030507-4 G1998030510) +2 种基金北京市教育委员会科技发展计划重点项目(KZ200310772013)~~; 文摘提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。; 关键词命名实体识别角色标注 ICTCLAS; Keywords namedentityidentification role tagging ICTCLAS; 分类号 TP391.2 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于MapReduce的术语权重计算方法研究被引量：1: 3; 作者王锴施水才王涛吕学强; 机构北京信息科技大学中文信息处理研究中心北京拓尔思信息技术股份有限公司; 出处《电信科学》北大核心 2011年第11期62-65,共4页; 基金国家自然科学基金资助项目(No.60872133) 北京市自然科学基金资助项目(No.4092015) 北京市教委科技发展计划资助项目(No.KM201010772023); 文摘术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。; 关键词术语权重 TF-IDF MAPREDUCE 分布式; Keywords term weight TF-IDF MapReduce distributed; 分类号 TP393.03 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于字同现频率的关键词自动抽取被引量：4: 4; 作者都云程周伟韩艳铧吕学强; 机构北京信息科技大学中文信息处理研究中心; 出处《北京信息科技大学学报（自然科学版）》 2011年第6期35-38,共4页; 基金国家自然科学基金项目(60872133) 北京市自然科学基金项目(4092015) +1 种基金国家科技支撑计划课题(2011BAH11B03); 文摘为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。; 关键词关键词自动抽取字同现 TF/IDF 信息量; Keywords keyword automatic extraction word co-occurrence TF/IDF word information; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名外观设计专利审查中的图像检索关键技术被引量：2: 5; 作者施水才程涛; 机构北京信息科技大学中文信息处理研究中心; 出处《北京信息科技大学学报（自然科学版）》 2011年第2期1-5,共5页; 基金国家自然科学基金项目(60772081 60872133); 文摘针对庞大而复杂的外观专利数据给外观专利设计带来的审查问题,对基于内容的图像检索、自动分类和自学习等关键技术进行了分析,同时对图像检索系统的性能评价指标体系进行了阐述。; 关键词外观设计专利图像检索性能指标; Keywords appearance design patent image retrieval performance index; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于新闻语料的流行语量化分析: 6; 作者施水才吕学强俞鸿魁王霞李渝勤; 机构北京信息科技大学中文信息处理研究中心抚顺市第十五中学; 出处《现代电子技术》 2007年第2期154-156,共3页; 基金国家自然基金(60272084) 北京市教育委员会科技发展计划重点项目(K2200310772013) +1 种基金北京市教委项目(M200510772008 KM200610772008); 文摘通过对1947～2002年，共计56年的《人民日报》新闻语料进行统计分析，按照流行语的时间属性，将流行语分为新流行语、持续流行语、历史流行语以度周期流行语，分析了新词语、流行语与高频有意义串的异同，列举《人民日报》中的实例，定性定量地分析了流行语的特点。; 关键词流行语新词统计新闻语料; Keywords catchword new word statistic news corpus; 分类号 TP391.2 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于信息熵与词语活跃度的领域词抽取	王成吕学强王弘蔚王涛	《北京信息科技大学学报（自然科学版）》	2011	1	在线阅读下载PDF 职称材料
2	基于层叠隐马尔可夫模型的中文命名实体识别	俞鸿魁张华平刘群吕学强施水才	《通信学报》 EI CSCD 北大核心	2006	163	在线阅读下载PDF 职称材料
3	基于MapReduce的术语权重计算方法研究	王锴施水才王涛吕学强	《电信科学》北大核心	2011	1	在线阅读下载PDF 职称材料
4	基于字同现频率的关键词自动抽取	都云程周伟韩艳铧吕学强	《北京信息科技大学学报（自然科学版）》	2011	4	在线阅读下载PDF 职称材料
5	外观设计专利审查中的图像检索关键技术	施水才程涛	《北京信息科技大学学报（自然科学版）》	2011	2	在线阅读下载PDF 职称材料
6	基于新闻语料的流行语量化分析	施水才吕学强俞鸿魁王霞李渝勤	《现代电子技术》	2007	0	在线阅读下载PDF 职称材料