期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于信息熵与词语活跃度的领域词抽取 被引量:1
1
作者 王成 吕学强 +1 位作者 王弘蔚 王涛 《北京信息科技大学学报(自然科学版)》 2011年第5期49-52,58,共5页
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语... 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。 展开更多
关键词 领域词抽取 领域词过滤 信息熵 词语活跃度 知识获取 自然语言处理
在线阅读 下载PDF
基于层叠隐马尔可夫模型的中文命名实体识别 被引量:163
2
作者 俞鸿魁 张华平 +2 位作者 刘群 吕学强 施水才 《通信学报》 EI CSCD 北大核心 2006年第2期87-94,共8页
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名... 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。 展开更多
关键词 命名实体识别 角色标注 ICTCLAS
在线阅读 下载PDF
基于MapReduce的术语权重计算方法研究 被引量:1
3
作者 王锴 施水才 +1 位作者 王涛 吕学强 《电信科学》 北大核心 2011年第11期62-65,共4页
术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Had... 术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。 展开更多
关键词 术语权重 TF-IDF MAPREDUCE 分布式
在线阅读 下载PDF
基于字同现频率的关键词自动抽取 被引量:4
4
作者 都云程 周伟 +1 位作者 韩艳铧 吕学强 《北京信息科技大学学报(自然科学版)》 2011年第6期35-38,共4页
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设... 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。 展开更多
关键词 关键词自动抽取 字同现 TF/IDF 信息量
在线阅读 下载PDF
外观设计专利审查中的图像检索关键技术 被引量:2
5
作者 施水才 程涛 《北京信息科技大学学报(自然科学版)》 2011年第2期1-5,共5页
针对庞大而复杂的外观专利数据给外观专利设计带来的审查问题,对基于内容的图像检索、自动分类和自学习等关键技术进行了分析,同时对图像检索系统的性能评价指标体系进行了阐述。
关键词 外观设计专利 图像检索 性能指标
在线阅读 下载PDF
基于新闻语料的流行语量化分析
6
作者 施水才 吕学强 +2 位作者 俞鸿魁 王霞 李渝勤 《现代电子技术》 2007年第2期154-156,共3页
通过对1947~2002年,共计56年的《人民日报》新闻语料进行统计分析,按照流行语的时间属性,将流行语分为新流行语、持续流行语、历史流行语以度周期流行语,分析了新词语、流行语与高频有意义串的异同,列举《人民日报》中的实例,定... 通过对1947~2002年,共计56年的《人民日报》新闻语料进行统计分析,按照流行语的时间属性,将流行语分为新流行语、持续流行语、历史流行语以度周期流行语,分析了新词语、流行语与高频有意义串的异同,列举《人民日报》中的实例,定性定量地分析了流行语的特点。 展开更多
关键词 流行语 新词 统计 新闻语料
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部