期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于上下文感知的中文新词识别算法 被引量:6
1
作者 李钝 屠卫 +1 位作者 石磊 陶永才 《计算机工程与设计》 CSCD 北大核心 2012年第10期4022-4027,共6页
为提高中文信息处理中的新词识别效率,提出一种基于上下文感知的新词识别算法。首先基于网络新词的特点,对网络文本进行N元(N-Gram)切分预处理,然后利用局部匹配预测(PPM)算法对中文新词进行识别,最后采用LRU替换算法对识别出的新词进... 为提高中文信息处理中的新词识别效率,提出一种基于上下文感知的新词识别算法。首先基于网络新词的特点,对网络文本进行N元(N-Gram)切分预处理,然后利用局部匹配预测(PPM)算法对中文新词进行识别,最后采用LRU替换算法对识别出的新词进行入库处理。实验表明,较之当今几个主流的分词机制,该算法具有较高的识别率和召回率。 展开更多
关键词 中文信息处理 中文新词识别 局部匹配预测算法 上下文感知 N元算法 语料库
在线阅读 下载PDF
一种基于主动学习的中文新词识别算法 被引量:3
2
作者 王博 代翔 +1 位作者 时聪 刘洋 《电讯技术》 北大核心 2020年第11期1265-1270,共6页
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新... 分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。 展开更多
关键词 中文自然语言处理 中文新词识别 主动学习 深度神经网络 人工规则
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部