-
题名基于上下文感知的中文新词识别算法
被引量:6
- 1
-
-
作者
李钝
屠卫
石磊
陶永才
-
机构
郑州大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2012年第10期4022-4027,共6页
-
基金
河南自然科学基金项目(2010A520039
2010B520035)
-
文摘
为提高中文信息处理中的新词识别效率,提出一种基于上下文感知的新词识别算法。首先基于网络新词的特点,对网络文本进行N元(N-Gram)切分预处理,然后利用局部匹配预测(PPM)算法对中文新词进行识别,最后采用LRU替换算法对识别出的新词进行入库处理。实验表明,较之当今几个主流的分词机制,该算法具有较高的识别率和召回率。
-
关键词
中文信息处理
中文新词识别
局部匹配预测算法
上下文感知
N元算法
语料库
-
Keywords
Key words: Chinese information processing
Chinese new word identification
PPM algorithm
context aware
N-Gram algo- rithm
corpus
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于主动学习的中文新词识别算法
被引量:3
- 2
-
-
作者
王博
代翔
时聪
刘洋
-
机构
北京市信息技术研究所
中国西南电子技术研究所
-
出处
《电讯技术》
北大核心
2020年第11期1265-1270,共6页
-
基金
国家自然科学基金资助项目(U19A2078)
四川省科技计划重点研发项目(2020YFG0009)。
-
文摘
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。
-
关键词
中文自然语言处理
中文新词识别
主动学习
深度神经网络
人工规则
-
Keywords
Chinese natural language processing
Chinese new word identification
active learning
deep neural network
artificial rules
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-