期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
基于节点特征增强的信息溯源模型
1
作者 霍宣蓉 肖玉芝 +2 位作者 韩佳新 黄涛 胡泽宇 《复杂系统与复杂性科学》 北大核心 2025年第3期1-10,共10页
针对网络谣言溯源难度大,以信息载体模型和用户特征深度挖掘为切入点,提出了一种节点特征增强的溯源模型,旨在利用深度学习方法获取信息节点的高阶多尺度特征(高阶邻居、邻居状态、不同状态连接结构),并结合SEIR传播机制将节点状态学习... 针对网络谣言溯源难度大,以信息载体模型和用户特征深度挖掘为切入点,提出了一种节点特征增强的溯源模型,旨在利用深度学习方法获取信息节点的高阶多尺度特征(高阶邻居、邻居状态、不同状态连接结构),并结合SEIR传播机制将节点状态学习为信息源(I态)与非信息源(S、E、R态)。首先,利用多种节点中心性指标扩充并丰富节点特征;其次,使用抗噪增强模块对扩充后的节点特征进行重构,并动态学习节点自身及其一阶邻居的特征;再次,使用度量学习方法调整节点特征空间,使得相同状态节点之间的距离缩小,以便区分节点的类别和特性;最后,将节点多维度特征融合并分类,最终确定信息源。实验结果表明,模型在模拟生成网络和实际网络上的信息溯源均取得相对较好的效果。 展开更多
关键词 节点特征增强 信息溯源 SEIR模型 感染子图 度量学习
在线阅读 下载PDF
面向语言信息处理的藏语短语及其分类方法研究 被引量:5
2
作者 才藏太 索南才让 才让加 《中文信息学报》 CSCD 北大核心 2018年第9期41-46,共6页
短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析的难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。而目前面向信息处理的藏语短语的研究刚刚起步,有待于进一步发展。该文在... 短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析的难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的。而目前面向信息处理的藏语短语的研究刚刚起步,有待于进一步发展。该文在藏语短语与藏语句子的界线研究的基础上,根据藏语信息处理的特点和要求,按照语法功能和便于计算机自动分析和处理的原则对短语进行分类,并规定了信息处理中藏语短语类别单位的标记代码。 展开更多
关键词 藏语 短语 分类 标记
在线阅读 下载PDF
融合La格虚词语义信息的藏文La格分类模型 被引量:1
3
作者 班玛宝 慈祯嘉措 +1 位作者 张瑞 才让加 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期695-703,共9页
采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的... 采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的基础上,提出一种融合La格虚词语义信息的藏文La格分类模型.该模型首先以每个音节及对应La格虚词或其它音节的语义特征嵌入作为输入,丰富嵌入向量的语义信息,增加输入特征的多样性;然后采用一维卷积融合并学习每个音节及对应La格虚词或其它音节语义信息的局部特征向量,提高卷积层的空间特征学习能力;其次使用双向长短时记忆网络(long short-term memory)(LSTM)学习时序特征,提高时序特征的学习能力;最后使用注意力机制对双向LSTM层每一时刻的输出特征进行加权融合,充分利用每一时刻的输出特征,以提高最终文本表示的特征质量.在TLD藏文La格数据集上的实验结果显示,该模型的分类效果优于基线模型及仅用藏文音节嵌入的模型,在测试集上的分类准确率为93.10%. 展开更多
关键词 自然语言处理 La格虚词 语义信息 神经网络 La格分类
在线阅读 下载PDF
基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别
4
作者 香前 才藏太 李措 《高原科学研究》 CSCD 2024年第4期108-114,共7页
新闻要素识别是从新闻文本中提取时间、地点、人物、组织机构、事件等关键信息实体的过程,是新闻内容分析的基础。文章将藏文新闻要素分类细化为10类,并提出一种基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别方法。该方法首先通过RoBERTa... 新闻要素识别是从新闻文本中提取时间、地点、人物、组织机构、事件等关键信息实体的过程,是新闻内容分析的基础。文章将藏文新闻要素分类细化为10类,并提出一种基于RoBERTa-BiLSTM-CRF的藏文新闻要素识别方法。该方法首先通过RoBERTa预训练语言模型对藏文新闻文本进行编码,然后通过BiLSTM和自注意力机制进行特征提取,最后采用条件随机场进行序列标注,完成对新闻要素的识别和分类。在自建数据集(Tibetan news)上进行实验后F1值达到88.8%。 展开更多
关键词 藏文 新闻要素 识别 深度学习 RoBERTa
在线阅读 下载PDF
基于藏文音节结合BiLSTM-CRF的藏语语义组块分类标注 被引量:1
5
作者 旦正吉 华却才让 +1 位作者 完么措 白颖 《高原科学研究》 CSCD 2024年第2期118-125,共8页
针对藏语句子语义分析中语义种类繁多且广泛存在歧义的难点,提出了基于藏文音节向量和BiL-STM-CRF混合模型相结合的藏语语义组块识别方法。首先制定了13种语义组块标注规范,其次构建了13211句语义组块标注语料库,在此基础上采用TS-BiLST... 针对藏语句子语义分析中语义种类繁多且广泛存在歧义的难点,提出了基于藏文音节向量和BiL-STM-CRF混合模型相结合的藏语语义组块识别方法。首先制定了13种语义组块标注规范,其次构建了13211句语义组块标注语料库,在此基础上采用TS-BiLSTM-CRF方法训练了藏语语义组块识别和分类模型。综合测试实验结果表明,该模型精确率为75.03%,召回率为76.52%,F1值为75.77%。各类语义组块识别中,指示类(INS)识别的测评结果远高于其他几类语义组块,精确率为90.87%;组织类(ORG)的测评结果偏低于其他类型,精确率为66.67%。文章研究证实了TS-BiLSTM-CRF模型在藏语语义组块识别分析任务中具有较好的性能。 展开更多
关键词 藏语 语义组块识别 TS-BiLSTM-CRF模型 标注规范
在线阅读 下载PDF
融合词典的BERT-BiGRU的藏语句子情感分类方法
6
作者 公确多杰 索南才让 才藏太 《计算机工程与设计》 北大核心 2025年第3期918-926,共9页
针对藏文情感分析研究中,由于藏文缺乏公开的情感词典和能结合上下文的深度学习模型等导致的分类效果欠佳问题,构建一个规模可观的藏文情感词典,结合基于改进的BERT-BiGRU的藏语句子情感分类方法,在哈工大开源的CINO多语言的通用预训练... 针对藏文情感分析研究中,由于藏文缺乏公开的情感词典和能结合上下文的深度学习模型等导致的分类效果欠佳问题,构建一个规模可观的藏文情感词典,结合基于改进的BERT-BiGRU的藏语句子情感分类方法,在哈工大开源的CINO多语言的通用预训练语言模型上进行微调。实验结果表明,本文方法能够有效提高情感分类的准确率,验证了方法的有效性。模型在分类准确率和泛化能力上的表现优于相关工作,为进一步研究藏文文本情感分类问题提供一种思路和实验证据。 展开更多
关键词 情感分类 情感词典 情感词汇本体库 BERT-BiGRU CINO 藏语句子 深度学习
在线阅读 下载PDF
一种基于向量模型的藏文字拼写检查方法 被引量:14
7
作者 才智杰 孙茂松 才让卓玛 《中文信息学报》 CSCD 北大核心 2018年第9期47-55,共9页
自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是... 自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。 展开更多
关键词 自然语言处理 向量模型 藏文字 拼写检查 非真字
在线阅读 下载PDF
藏文词向量相似度和相关性评测集构建 被引量:6
8
作者 才智杰 孙茂松 才让卓玛 《中文信息学报》 CSCD 北大核心 2019年第7期81-87,100,共8页
词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性... 词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。 展开更多
关键词 自然语言处理 藏文 词向量 评测集
在线阅读 下载PDF
基于词性约束的藏文分词策略与算法 被引量:8
9
作者 才让卓玛 才智杰 《中文信息学报》 CSCD 北大核心 2020年第2期33-37,共5页
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,... 自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。 展开更多
关键词 分词 词性 未登录词 歧义
在线阅读 下载PDF
藏文字同现网络的小世界效应和无标度特性 被引量:3
10
作者 才智杰 孙茂松 才让卓玛 《中文信息学报》 CSCD 北大核心 2018年第10期45-52,共8页
复杂网络具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质,而语言文字作为人类智慧和文明的结晶,是经过漫长演化形成的复杂网络。该文对藏语诗歌、散文、政治、佛教、教材和口语等六类具有代表性的体裁语料,每类各取15篇... 复杂网络具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质,而语言文字作为人类智慧和文明的结晶,是经过漫长演化形成的复杂网络。该文对藏语诗歌、散文、政治、佛教、教材和口语等六类具有代表性的体裁语料,每类各取15篇共90篇文章构建了97个藏文字同现网络,分析了藏文字同现网络的最短路径长度、聚类系数和度分布,实验数据显示97个藏文字同现网络都具有小世界效应和无标度特性,表明藏文字同现网络都具有小世界效应和无标度特性。 展开更多
关键词 藏文字 同现网络 小世界效应 无标度特性
在线阅读 下载PDF
一种多基元联合训练的藏文词向量表示方法 被引量:4
11
作者 才智杰 才让卓玛 孙茂松 《中文信息学报》 CSCD 北大核心 2020年第5期44-49,共6页
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理... 词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。 展开更多
关键词 自然语言处理 藏文 神经网络 词向量表示
在线阅读 下载PDF
基于语序变换的藏文复述句生成方法 被引量:2
12
作者 柔特 才让加 孙茂松 《计算机工程》 CAS CSCD 北大核心 2018年第4期231-235,共5页
机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法... 机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法不同,该方法根据藏文句子中组块数量的不同,通过一个句子可以生成一个或多个,甚至上千个句义相同的复述句并且准确率达到93.4%,可应用于藏汉机器翻译、机器翻译评测和藏文问答系统等领域。 展开更多
关键词 复述生成 藏文 语序变换 句型结构 组块分析
在线阅读 下载PDF
藏文句义分割方法 被引量:2
13
作者 柔特 色差甲 才让加 《计算机工程》 CAS CSCD 北大核心 2020年第2期286-291,共6页
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出... 句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。 展开更多
关键词 句义分割 语义块 语义分析 空洞卷积神经网络 藏文
在线阅读 下载PDF
融合多层级特征表示的多领域谣言早期检测方法
14
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
基于混合特征和链接影响力的关键词识别及语义树分析
15
作者 崔宝阳 冶忠林 赵海兴 《计算机应用与软件》 北大核心 2025年第5期271-281,共11页
针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响... 针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响力指标进行关键词识别。构建大规模英文词汇语义树,对其进行关联挖掘分析。实验表明,该方法在大规模语料下有较好的识别效果,挖掘所得语义树能够反映词汇的上下文结构关系及语义信息。 展开更多
关键词 关键词抽取 图模型 BERT 语义树 影响力
在线阅读 下载PDF
藏文字自动生成技术研究 被引量:1
16
作者 才智杰 孙茂松 才让卓玛 《高原科学研究》 2017年第1期98-103,共6页
字是语言文字的基本组成单位,文字自动生成是自然语言处理的基础,为自然语言处理中字属性分析、输入法设计、排序、语音处理和藏文字符信息熵研究等提供理论数据。文章在分析藏文字结构的基础上归纳了藏文构字规则,并以藏文字的核心字... 字是语言文字的基本组成单位,文字自动生成是自然语言处理的基础,为自然语言处理中字属性分析、输入法设计、排序、语音处理和藏文字符信息熵研究等提供理论数据。文章在分析藏文字结构的基础上归纳了藏文构字规则,并以藏文字的核心字符基字的竖直方向上所含成分将藏文字分成了8个大类,对不同类型藏文字分析了其生成模型及生成算法,经测试可自动生成符合现代藏文文法的所有现代藏文字。 展开更多
关键词 中文信息处理 藏文字 自动生成
在线阅读 下载PDF
单纯形神经网络综述
17
作者 唐春阳 冶忠林 +1 位作者 白立冰 赵海兴 《计算机学报》 北大核心 2025年第7期1617-1638,共22页
图神经网络依托强大的计算能力在文本分类、节点分类和自然语言处理等领域取得了显著成果,其主要用于处理包含成对关系的图结构数据。然而,现实世界中的网络之间往往存在高阶交互关系,若使用图结构表示这种复杂关系,可能会丢失节点间的... 图神经网络依托强大的计算能力在文本分类、节点分类和自然语言处理等领域取得了显著成果,其主要用于处理包含成对关系的图结构数据。然而,现实世界中的网络之间往往存在高阶交互关系,若使用图结构表示这种复杂关系,可能会丢失节点间的重要信息。最近,单纯形被证明不仅可以编码节点间的成对关系,还可以编码多节点间的高阶交互关系。因此,学者们开始探索如何在单纯形上设计神经网络,并随之提出了众多单纯形神经网络模型。与已有的神经网络综述不同,文中重点分析了单纯形神经网络在处理多元高阶交互关系中的前沿研究及应用。首先总结了近几年单纯形神经网络的发展脉络并介绍了单纯复形、边界矩阵和霍奇拉普拉斯矩阵等基础知识;其次依据构建单纯形神经网络时采用的不同方法对其进行归纳分类,并解释了每类的代表性模型;然后介绍了单纯形神经网络的实际应用及性能分析;最后总结并探讨了单纯形神经网络未来的研究方向。本文针对单纯形神经网络进行综述,旨在帮助读者了解单纯形神经网络的理论基础与模型构建方法,力争为模型优化与实际应用提供参考。 展开更多
关键词 单纯形 单纯复形 单纯形神经网络 单纯形邻域 图神经网络
在线阅读 下载PDF
格萨尔史诗命名实体和实体关系标注语料库构建
18
作者 环科尤 华却才让 +1 位作者 赵海兴 算太本 《中文信息学报》 北大核心 2025年第5期41-50,共10页
格萨尔史诗是具有丰富的实体及关系的知识资源,包含大量与知识图谱相关的核心知识。为了更好地实现格萨尔史诗知识图谱的构建与应用,该文从格萨尔史诗文本入手,借鉴国内外主流的实体关系标注语料库和格萨尔学的理论指导,制定了格萨尔史... 格萨尔史诗是具有丰富的实体及关系的知识资源,包含大量与知识图谱相关的核心知识。为了更好地实现格萨尔史诗知识图谱的构建与应用,该文从格萨尔史诗文本入手,借鉴国内外主流的实体关系标注语料库和格萨尔学的理论指导,制定了格萨尔史诗实体及关系的标注体系和标注规范,并研发了相应的标注系统。针对格萨尔史诗实体识别和关系抽取任务,分别采用基于迁移学习和双向长短时记忆神经网络进行初步实验,据此对语料库中的各类实体和关系进行评估及校正工作,构建了格萨尔史诗实体关系标注语料库(Gesar epic Entity Related tagged Corpus,GesarERC)。该文所构建的语料库包含6种实体类型和80种常见实体关系,共标注98199个命名实体及102061个实体关系,实体关系的标注一致性达到96.24%,为后续的格萨尔史诗研究以及藏文领域知识图谱的构建打下了基础。 展开更多
关键词 格萨尔史诗 实体关系 标注语料库 知识图谱
在线阅读 下载PDF
藏文音节拼写检查的CNN模型 被引量:15
19
作者 色差甲 贡保才让 才让加 《中文信息学报》 CSCD 北大核心 2019年第1期111-117,共7页
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 88... 藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。 展开更多
关键词 藏文音节 音节矩阵 CNN模型 拼写检查
在线阅读 下载PDF
基于多源信息融合的分布式词表示学习 被引量:4
20
作者 冶忠林 赵海兴 +1 位作者 张科 朱宇 《中文信息学报》 CSCD 北大核心 2019年第10期18-30,共13页
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)... 分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。 展开更多
关键词 词表示学习 词表示 词嵌入 词向量 词特征学习
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部