期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
面向机器阅读理解的医学域数据集MedicalQA
1
作者 马宁 吕文蓉 郭泽晨 《中国科学数据(中英文网络版)》 CSCD 2024年第1期356-365,共10页
机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集Medica... 机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集MedicalQA。本数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,包含19502个段落、问题和答案,内容涉及内科、外科、妇产科等9大科室。数据集形式为excel文件,由5列组成,第一列为段落ID,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案。本数据集的构建,有利于机器阅读理解模型的鲁棒性研究以及医学问答系统的构建,也能促进机器阅读理解领域的医学数据集共享。 展开更多
关键词 机器阅读理解 医学域 数据集
在线阅读 下载PDF
TIP-LAS:一个开源的藏文分词词性标注系统 被引量:34
2
作者 李亚超 江静 +1 位作者 加羊吉 于洪志 《中文信息学报》 CSCD 北大核心 2015年第6期203-207,共5页
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注... TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。 展开更多
关键词 藏文 分词 词性标注 条件随机场 最大熵
在线阅读 下载PDF
一种实用的资源稀缺条件下的分词方法 被引量:4
3
作者 马宁 李亚超 +1 位作者 何向真 于洪志 《计算机应用研究》 CSCD 北大核心 2016年第1期68-70,97,共4页
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料... 在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。 展开更多
关键词 分词 无监督分词 最大匹配 VE算法 间隔标注 资源
在线阅读 下载PDF
融合多层次特征的中文语义角色标注 被引量:5
4
作者 王一成 万福成 马宁 《智能系统学报》 CSCD 北大核心 2020年第1期107-113,共7页
随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程... 随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程度依赖较大,因而标注准确率受限较大,已无法满足当前需求。针对上述问题,对基于Bi-LSTM的中文语义角色标注基础模型进行了改进研究,在模型后处理阶段结合了Max pooling技术,训练时融入了词法和句式等多层次的语言学特征,以实现对原有标注模型的深入改进。通过多组实验论证,结合语言学辅助分析,提出针对性的改进方法从而使模型标注准确率得到了显著提升,证明了结合Max pooling技术的Bi-LSTM语义角色标注模型中融入相关语言学特征能够改进模型标注效果。 展开更多
关键词 自然语言处理 语义角色标注 深度学习 Bi-LSTM 语言学特征 后处理层 Max pooling
在线阅读 下载PDF
结合注意力机制的多策略汉语语义角色标注 被引量:1
5
作者 朱傲 万福成 +1 位作者 马宁 车郭怡 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第6期1019-1023,共5页
语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注... 语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注发展缓慢.针对上述情况,采取基于双向长短时记忆(BiLSTM)网络-注意力机制(attention)-条件随机场(CRF)模型进行汉语语义角色标注,同时尝试针对性引入其他资源优化模型性能.在训练阶段,将词性、依存句法特征以及短语结构句法特征组成的多线索特征组共同送入模型.经过多组对照实验论证,相比于BiLSTM-CRF模型,融合注意力机制的模型性能显著提升,并且引入的多线索特征组可以进一步提升模型性能. 展开更多
关键词 汉语语义角色标注 双向长短时记忆 条件随机场 注意力机制 依存句法分析 短语结构句法分析
在线阅读 下载PDF
融合事件特征及语义角色标注的藏文信息抽取技术
6
作者 万福成 马宁 何向真 《广西师范大学学报(自然科学版)》 CAS 北大核心 2018年第2期18-23,共6页
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮... 本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。 展开更多
关键词 功能语义 语义角色标注 藏文信息抽取
在线阅读 下载PDF
藏汉神经网络机器翻译研究
7
作者 李亚超 熊德意 +3 位作者 张民 江静 马宁 殷建民 《中文信息学报》 CSCD 北大核心 2017年第6期103-109,共7页
神经网络机器翻译是最近几年提出的机器翻译方法,在多数语言对上逐渐超过了统计机器翻译方法,成为当前机器翻译研究前沿热点。该文在藏汉语对上进行了基于注意力的神经网络机器翻译的实验,并采用迁移学习方法缓解藏汉平行语料数量不足... 神经网络机器翻译是最近几年提出的机器翻译方法,在多数语言对上逐渐超过了统计机器翻译方法,成为当前机器翻译研究前沿热点。该文在藏汉语对上进行了基于注意力的神经网络机器翻译的实验,并采用迁移学习方法缓解藏汉平行语料数量不足问题。实验结果显示,该文提出的迁移学习方法简单有效,相比短语统计机器翻译方法,提高了三个BLEU值。从译文分析中可以看出藏汉神经网络机器翻译的译文比较流畅,远距离调序能力较强,同时也存在过度翻译、翻译不充分、翻译忠实度较低等神经网络机器翻译的共同不足之处。 展开更多
关键词 藏语 神经网络机器翻译 注意力机制 循环神经网络 迁移学习
在线阅读 下载PDF
基于藏语语义分析的机器翻译技术研究
8
作者 何向真 万福成 +1 位作者 于洪志 吴玺宏 《计算机工程与应用》 CSCD 北大核心 2015年第15期134-137,173,共5页
藏汉机器翻译技术跟汉英机器翻译技术有所不同,其中,很重要的一个方面,藏语更依赖于格助词等虚词在句子中的作用,格助词种类繁多,用法差异很大。针对藏语格助词进行分析,在藏语短语句法树库的基础上,加入了藏语本体特征的语义信息,形成... 藏汉机器翻译技术跟汉英机器翻译技术有所不同,其中,很重要的一个方面,藏语更依赖于格助词等虚词在句子中的作用,格助词种类繁多,用法差异很大。针对藏语格助词进行分析,在藏语短语句法树库的基础上,加入了藏语本体特征的语义信息,形成融合藏语语义信息的藏汉机器翻译方法。通过对比基于短语和句法的实验分析,该方法可以很好地应用于藏汉机器翻译系统。 展开更多
关键词 语义分析 藏语句法 藏汉机器翻译
在线阅读 下载PDF
基于GraphSAGE网络的藏文短文本分类研究
9
作者 敬容 杨逸民 +3 位作者 万福成 国旗 于洪志 马宁 《中文信息学报》 2024年第9期58-65,共8页
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模... 文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。 展开更多
关键词 图神经网络 藏文文本分类 TNCC数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部