期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于预训练语言模型的维吾尔语事件抽取 被引量:4
1
作者 张朋捷 王磊 +3 位作者 马博 杨雅婷 董瑞 艾孜麦提·艾瓦尼尔 《计算机工程与设计》 北大核心 2023年第5期1487-1494,共8页
以往的维吾尔语事件抽取研究多采用静态词向量加长短时记忆神经网络的分析方式,无法有效处理一词多义和上下文语义表示问题。针对目标语言,训练两种维吾尔语预训练语言模型,提出一种结合BiGRU的联合问答模型事件抽取方法。利用预训练语... 以往的维吾尔语事件抽取研究多采用静态词向量加长短时记忆神经网络的分析方式,无法有效处理一词多义和上下文语义表示问题。针对目标语言,训练两种维吾尔语预训练语言模型,提出一种结合BiGRU的联合问答模型事件抽取方法。利用预训练语言模型获取文本的动态语义向量,融合类别表征信息,运用BiGRU进一步提取文本特征。实验结果表明,在事件识别任务上F1值达到77.96%,在事件主体抽取任务上F1值达到74.89%。相比基线模型NER方法,所提方法的F1值提高了14.08%。 展开更多
关键词 预训练语言模型 维吾尔语 事件抽取 联合问答模型 双向门控循环单元 类型识别 主体抽取
在线阅读 下载PDF
一种针对维汉的跨语言远程监督方法
2
作者 杨振宇 王磊 +4 位作者 马博 杨雅婷 董瑞 艾孜麦提·艾瓦尼尔 王震 《计算机工程》 CAS CSCD 北大核心 2023年第2期271-278,共8页
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉... 远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法F1值达到73.05%,并且成功构造了包含97949条维语句子的关系抽取伪标注数据集。 展开更多
关键词 关系抽取 语义相似度 语义编码 远程监督 跨语言
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部