-
题名基于Spark的中文新词提取
被引量:1
- 1
-
-
作者
丁祥武
张东辉
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2017年第11期3185-3191,共7页
-
基金
上海市科技行动计划基金项目(15511106900)
上海市智慧城市建设基金项目(2015年1月至2016年12月)
上海市信息化发展资金基金项目(XX-XXFZ-05-16-0139)
-
文摘
为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特征值如互信息、上下文信息熵、时间频率函数值等,建立巨大的领域及时间相关的结构化数据库,通过阈值及背景词库的过滤实现新词提取,将提取的新词添加到背景词中。实验结果表明,该算法具有较高的准确率,在大规模语料库处理效率上相比传统方法有了大幅提升。
-
关键词
新词识别
互信息
上下文熵
时间频率函数
阈值
-
Keywords
new word detection
mutual information
context entropy
time frequency function
threshold
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于边界增强的中文直播弹幕新词发现
被引量:1
- 2
-
-
作者
王雪瑞
刘渊
-
机构
江南大学数字媒体学院
-
出处
《传感器与微系统》
CSCD
2018年第7期142-146,150,共6页
-
基金
国家科技支撑计划资助项目(2015BAH54F00)
国家自然科学基金资助项目(61672264)
国家重点研发计划资助项目(2016YFB0800305)
-
文摘
针对中文直播语料具有长度简短、用语不规范、字母数字混杂等特点,使得通常的新词发现方法效果不佳的问题,在现有基于词内部结合度与边界自由度的无监督新词发现算法基础上,引入了边界增强上下文熵的概念,使其适用于通常出现于句子片段边界位置的词语。在某知名直播平台的弹幕语料上进行了实验,结果表明:方法模型简洁,可有效提取新词,并能够通过调整参数适应不同规模的语料输入,且时空复杂度与执行性能良好。
-
关键词
直播弹幕
新词发现
内部结合度
互信息
边界自由度
边界增强上下文熵
-
Keywords
live-streaming danmaku
new word detection
internal cohesion
mutual information
boundary freedom
boundary-boosted context entropy
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-