期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Spark的中文新词提取 被引量:1
1
作者 丁祥武 张东辉 《计算机工程与设计》 北大核心 2017年第11期3185-3191,共7页
为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特... 为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特征值如互信息、上下文信息熵、时间频率函数值等,建立巨大的领域及时间相关的结构化数据库,通过阈值及背景词库的过滤实现新词提取,将提取的新词添加到背景词中。实验结果表明,该算法具有较高的准确率,在大规模语料库处理效率上相比传统方法有了大幅提升。 展开更多
关键词 新词识别 互信息 上下文熵 时间频率函数 阈值
在线阅读 下载PDF
基于边界增强的中文直播弹幕新词发现 被引量:1
2
作者 王雪瑞 刘渊 《传感器与微系统》 CSCD 2018年第7期142-146,150,共6页
针对中文直播语料具有长度简短、用语不规范、字母数字混杂等特点,使得通常的新词发现方法效果不佳的问题,在现有基于词内部结合度与边界自由度的无监督新词发现算法基础上,引入了边界增强上下文熵的概念,使其适用于通常出现于句子片段... 针对中文直播语料具有长度简短、用语不规范、字母数字混杂等特点,使得通常的新词发现方法效果不佳的问题,在现有基于词内部结合度与边界自由度的无监督新词发现算法基础上,引入了边界增强上下文熵的概念,使其适用于通常出现于句子片段边界位置的词语。在某知名直播平台的弹幕语料上进行了实验,结果表明:方法模型简洁,可有效提取新词,并能够通过调整参数适应不同规模的语料输入,且时空复杂度与执行性能良好。 展开更多
关键词 直播弹幕 新词发现 内部结合度 互信息 边界自由度 边界增强上下文熵
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部