期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Spark的中文新词提取 被引量:1
1
作者 丁祥武 张东辉 《计算机工程与设计》 北大核心 2017年第11期3185-3191,共7页
为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特... 为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特征值如互信息、上下文信息熵、时间频率函数值等,建立巨大的领域及时间相关的结构化数据库,通过阈值及背景词库的过滤实现新词提取,将提取的新词添加到背景词中。实验结果表明,该算法具有较高的准确率,在大规模语料库处理效率上相比传统方法有了大幅提升。 展开更多
关键词 新词识别 互信息 上下文熵 时间频率函数 阈值
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部