期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于多模态信息融合的中文拼写纠错算法
1
作者 张庆 杨凡 方宇涵 《计算机应用》 北大核心 2025年第5期1528-1534,共7页
中文拼写纠错(CSC)的目标是检测和修正用户输入中文文本中的字或词级别的错误,这些错误通常是由于汉字之间的语义、字音或字形相似而导致的误用。然而,现有模型通常忽略了局部信息,无法充分捕捉不同汉字之间的字音和字形相似性,也无法... 中文拼写纠错(CSC)的目标是检测和修正用户输入中文文本中的字或词级别的错误,这些错误通常是由于汉字之间的语义、字音或字形相似而导致的误用。然而,现有模型通常忽略了局部信息,无法充分捕捉不同汉字之间的字音和字形相似性,也无法有效地将这些信息与语义信息结合起来。为了解决这些问题,提出一种基于多模态信息融合的CSC算法PWSpell。该算法利用卷积注意力机制关注局部语义信息,利用拼音编码捕捉汉字之间的字音相似关系,并首次将五笔编码引入CSC领域,用于捕捉汉字之间的字形相似关系。此外,将这2种相似关系与经过BERT(Bidirectional Encoder Representation from Transformers)处理的语义信息进行选择性融合。实验结果表明,PWSpell在SIGHAN 2015测试集的检测级指标上准确率、精确率、F1值以及校正级指标精确率、F1值上均有提升,其中校正级的精确率至少提升了1个百分点;消融实验结果也验证了算法中各个模块的设计都能有效提升模型的性能。 展开更多
关键词 中文自然语言处理 中文拼写纠错 BERT 多模态信息融合 局部信息
在线阅读 下载PDF
中文词语内部层次结构标注语料库的建立 被引量:5
2
作者 林倩 文华婷 +4 位作者 杨静 刘鑫 林欢 王鸿吉 苏劲松 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期225-230,共6页
针对现有中文自然语言处理研究多以词或者字符为单位,忽视了中文词的内部层次结构的问题,提出一种新的中文词内部层次结构定义标准.该标准定义了内部结构的节点类型和节点内部关系.在此基础上,进一步提出了中文词内部层次结构的标注规范... 针对现有中文自然语言处理研究多以词或者字符为单位,忽视了中文词的内部层次结构的问题,提出一种新的中文词内部层次结构定义标准.该标准定义了内部结构的节点类型和节点内部关系.在此基础上,进一步提出了中文词内部层次结构的标注规范,并且人工标注了含有带内部层次结构的53918个中文词的词料库.该研究有望为后续的细粒度中文自然语言处理提供新思路. 展开更多
关键词 中文自然语言处理 标注规范 语料库
在线阅读 下载PDF
一种基于主动学习的中文新词识别算法 被引量:3
3
作者 王博 代翔 +1 位作者 时聪 刘洋 《电讯技术》 北大核心 2020年第11期1265-1270,共6页
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新... 分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。 展开更多
关键词 中文自然语言处理 中文新词识别 主动学习 深度神经网络 人工规则
在线阅读 下载PDF
基于概念预测和关系预测的AMR解析与对齐方法
4
作者 陈亮 高博飞 +1 位作者 常宝宝 张亦驰 《中文信息学报》 CSCD 北大核心 2024年第7期18-30,共13页
抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的... 抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。 展开更多
关键词 语义解析 抽象语义表示 中文自然语言处理
在线阅读 下载PDF
基于角色标注的中国人名自动识别研究 被引量:104
5
作者 张华平 刘群 《计算机学报》 EI CSCD 北大核心 2004年第1期85-91,共7页
该文提出了一种基于角色标注的中国人名自动识别方法 .其基本思想是 :根据在人名识别中的作用 ,采取Viterbi算法对切词结果进行角色标注 ,在角色序列的基础上 ,进行模式最大匹配 ,最终实现中国人名的识别 .识别过程中只需要将某个词作... 该文提出了一种基于角色标注的中国人名自动识别方法 .其基本思想是 :根据在人名识别中的作用 ,采取Viterbi算法对切词结果进行角色标注 ,在角色序列的基础上 ,进行模式最大匹配 ,最终实现中国人名的识别 .识别过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率 .该方法的实用性还在于 :这些角色信息完全可以从真实语料库中自动抽取得到 .通过对 16M字节真实语料库的封闭与开放测试 ,该方法取得了接近 98%的召回率 .文中介绍了计算所汉语词法分析系统ICTCLAS ,集成人名识别算法之后 ,词法分析的准确率提高了 1.4 1% ,同时人名识别的综合指标F 1值达到了 95 .4 0 % .不同实验从各个角度表明 展开更多
关键词 中文自然语言处理 词法分析 角色标注 自动识别 角色序列 VITERBI算法 中国人名
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部