期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于拼音相似度的中文谐音新词发现方法 被引量:3
1
作者 李瀚臣 张顺香 +1 位作者 朱广丽 王腾科 《计算机应用》 CSCD 北大核心 2023年第9期2715-2720,共6页
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新... 新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新词发现方法,引入新旧词拼音比较来提高谐音新词识别的准确率。首先,对文本进行预处理,计算平均互信息(AMI)以判定候选词的内部结合度,并使用改进邻接熵确定候选新词的边界;然后,将保留下的词转换成发音相近的汉语拼音与中文词典中的旧词拼音进行相似度比较,并保留最相似的比较结果;最后,若比较结果超过阈值,则将结果中的新词作为谐音新词,对应的旧词即为谐音新词的原有词。在自建的微博数据集上的实验结果表明,与BNshCNs(Blended Numeric and symbolic homophony Chinese Neologisms)、依存句法与语义信息结合的相似性计算模型(DSSCNN)相比,所提方法的准确率、召回率和F1分数分别提高了0.51和5.27个百分点、2.91和6.31个百分点以及1.75和5.81个百分点。可见所提方法具有更好的中文谐音新词识别效果。 展开更多
关键词 谐音新词 新词识别 拼音相似度 平均互信息 邻接熵
在线阅读 下载PDF
基于字词融合和多头注意力的专利实体识别 被引量:3
2
作者 王腾科 朱广丽 +2 位作者 李瀚臣 刘云朵 张顺香 《计算机工程与设计》 北大核心 2023年第12期3778-3783,共6页
为解决面向专利文本的命名实体识别因难以利用技术词信息导致识别准确率偏低的问题,提出一种基于字词融合和多头注意力的专利实体识别模型CWMA。依据字符在词中位置进行字词融合,获得文本特征向量;通过双向门控循环单元BiGRU从特征向量... 为解决面向专利文本的命名实体识别因难以利用技术词信息导致识别准确率偏低的问题,提出一种基于字词融合和多头注意力的专利实体识别模型CWMA。依据字符在词中位置进行字词融合,获得文本特征向量;通过双向门控循环单元BiGRU从特征向量中学习上下文信息,使用多头注意力增强字符之间的依赖关系;应用条件随机场CRF进行实体识别。在Resume和专利数据集上的实验结果表明,提出模型能够显著提高专利实体识别的准确率。 展开更多
关键词 命名实体识别 专利文本 技术词 字词融合 多头注意力 双向门控循环单元 专利数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部