期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于节点特征增强的信息溯源模型
1
作者 霍宣蓉 肖玉芝 +2 位作者 韩佳新 黄涛 胡泽宇 《复杂系统与复杂性科学》 北大核心 2025年第3期1-10,共10页
针对网络谣言溯源难度大,以信息载体模型和用户特征深度挖掘为切入点,提出了一种节点特征增强的溯源模型,旨在利用深度学习方法获取信息节点的高阶多尺度特征(高阶邻居、邻居状态、不同状态连接结构),并结合SEIR传播机制将节点状态学习... 针对网络谣言溯源难度大,以信息载体模型和用户特征深度挖掘为切入点,提出了一种节点特征增强的溯源模型,旨在利用深度学习方法获取信息节点的高阶多尺度特征(高阶邻居、邻居状态、不同状态连接结构),并结合SEIR传播机制将节点状态学习为信息源(I态)与非信息源(S、E、R态)。首先,利用多种节点中心性指标扩充并丰富节点特征;其次,使用抗噪增强模块对扩充后的节点特征进行重构,并动态学习节点自身及其一阶邻居的特征;再次,使用度量学习方法调整节点特征空间,使得相同状态节点之间的距离缩小,以便区分节点的类别和特性;最后,将节点多维度特征融合并分类,最终确定信息源。实验结果表明,模型在模拟生成网络和实际网络上的信息溯源均取得相对较好的效果。 展开更多
关键词 节点特征增强 信息溯源 SEIR模型 感染子图 度量学习
在线阅读 下载PDF
基于藏文音节结合BiLSTM-CRF的藏语语义组块分类标注 被引量:1
2
作者 旦正吉 华却才让 +1 位作者 完么措 白颖 《高原科学研究》 CSCD 2024年第2期118-125,共8页
针对藏语句子语义分析中语义种类繁多且广泛存在歧义的难点,提出了基于藏文音节向量和BiL-STM-CRF混合模型相结合的藏语语义组块识别方法。首先制定了13种语义组块标注规范,其次构建了13211句语义组块标注语料库,在此基础上采用TS-BiLST... 针对藏语句子语义分析中语义种类繁多且广泛存在歧义的难点,提出了基于藏文音节向量和BiL-STM-CRF混合模型相结合的藏语语义组块识别方法。首先制定了13种语义组块标注规范,其次构建了13211句语义组块标注语料库,在此基础上采用TS-BiLSTM-CRF方法训练了藏语语义组块识别和分类模型。综合测试实验结果表明,该模型精确率为75.03%,召回率为76.52%,F1值为75.77%。各类语义组块识别中,指示类(INS)识别的测评结果远高于其他几类语义组块,精确率为90.87%;组织类(ORG)的测评结果偏低于其他类型,精确率为66.67%。文章研究证实了TS-BiLSTM-CRF模型在藏语语义组块识别分析任务中具有较好的性能。 展开更多
关键词 藏语 语义组块识别 TS-BiLSTM-CRF模型 标注规范
在线阅读 下载PDF
融合词典的BERT-BiGRU的藏语句子情感分类方法
3
作者 公确多杰 索南才让 才藏太 《计算机工程与设计》 北大核心 2025年第3期918-926,共9页
针对藏文情感分析研究中,由于藏文缺乏公开的情感词典和能结合上下文的深度学习模型等导致的分类效果欠佳问题,构建一个规模可观的藏文情感词典,结合基于改进的BERT-BiGRU的藏语句子情感分类方法,在哈工大开源的CINO多语言的通用预训练... 针对藏文情感分析研究中,由于藏文缺乏公开的情感词典和能结合上下文的深度学习模型等导致的分类效果欠佳问题,构建一个规模可观的藏文情感词典,结合基于改进的BERT-BiGRU的藏语句子情感分类方法,在哈工大开源的CINO多语言的通用预训练语言模型上进行微调。实验结果表明,本文方法能够有效提高情感分类的准确率,验证了方法的有效性。模型在分类准确率和泛化能力上的表现优于相关工作,为进一步研究藏文文本情感分类问题提供一种思路和实验证据。 展开更多
关键词 情感分类 情感词典 情感词汇本体库 BERT-BiGRU CINO 藏语句子 深度学习
在线阅读 下载PDF
基于语序变换的藏文复述句生成方法 被引量:2
4
作者 柔特 才让加 孙茂松 《计算机工程》 CAS CSCD 北大核心 2018年第4期231-235,共5页
机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法... 机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法不同,该方法根据藏文句子中组块数量的不同,通过一个句子可以生成一个或多个,甚至上千个句义相同的复述句并且准确率达到93.4%,可应用于藏汉机器翻译、机器翻译评测和藏文问答系统等领域。 展开更多
关键词 复述生成 藏文 语序变换 句型结构 组块分析
在线阅读 下载PDF
藏文句义分割方法 被引量:2
5
作者 柔特 色差甲 才让加 《计算机工程》 CAS CSCD 北大核心 2020年第2期286-291,共6页
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出... 句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。 展开更多
关键词 句义分割 语义块 语义分析 空洞卷积神经网络 藏文
在线阅读 下载PDF
融合多层级特征表示的多领域谣言早期检测方法
6
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
基于混合特征和链接影响力的关键词识别及语义树分析
7
作者 崔宝阳 冶忠林 赵海兴 《计算机应用与软件》 北大核心 2025年第5期271-281,共11页
针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响... 针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响力指标进行关键词识别。构建大规模英文词汇语义树,对其进行关联挖掘分析。实验表明,该方法在大规模语料下有较好的识别效果,挖掘所得语义树能够反映词汇的上下文结构关系及语义信息。 展开更多
关键词 关键词抽取 图模型 BERT 语义树 影响力
在线阅读 下载PDF
藏文音节拼写检查的CNN模型 被引量:15
8
作者 色差甲 贡保才让 才让加 《中文信息学报》 CSCD 北大核心 2019年第1期111-117,共7页
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 88... 藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。 展开更多
关键词 藏文音节 音节矩阵 CNN模型 拼写检查
在线阅读 下载PDF
基于CRF的藏文地名识别技术研究 被引量:14
9
作者 头旦才让 仁青东主 尼玛扎西 《计算机工程与应用》 CSCD 北大核心 2019年第18期111-115,共5页
藏文地名识别是藏文命名实体识别中必须要解决的问题。通过分析藏文地名的特点及识别难点,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别,通过实验,验证了6种特征对藏文地名识别的有效性。实验结... 藏文地名识别是藏文命名实体识别中必须要解决的问题。通过分析藏文地名的特点及识别难点,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别,通过实验,验证了6种特征对藏文地名识别的有效性。实验结果表明该方法对藏文地名识别的准确率、召回率和F值分别达到了96.12%、81.92%和88.45%,实验结果与已有的系统相比,取得了较好的效果。 展开更多
关键词 CRF模型 藏文地名 地名识别
在线阅读 下载PDF
基于卷积神经网络的藏文手写数字识别 被引量:5
10
作者 夏吾吉 色差甲 +2 位作者 扎西吉 贡保才让 华却才让 《现代电子技术》 北大核心 2019年第5期79-82,86,共5页
藏文字处理和藏文数字自动识别等对藏文信息处理技术的潜在需求越来越高,目前已经成为藏区重要的研究课题之一。文中首先采集并构建藏文手写数字数据共15 000个样本,其中13 000个样本为训练数据,2 000个样本为测试数据,并对其进行预处理... 藏文字处理和藏文数字自动识别等对藏文信息处理技术的潜在需求越来越高,目前已经成为藏区重要的研究课题之一。文中首先采集并构建藏文手写数字数据共15 000个样本,其中13 000个样本为训练数据,2 000个样本为测试数据,并对其进行预处理,后采用卷积神经网络(CNN)模型对藏文手写数字样本进行训练。经实验验证在测试集上的识别正确率达97.85%。 展开更多
关键词 藏文手写数字 数字识别 CNN 数据预处理 样本训练 自动识别
在线阅读 下载PDF
基于音节切分的藏文印刷体识别 被引量:5
11
作者 才让当知 华却才让 黄鹤鸣 《计算机工程与设计》 北大核心 2022年第9期2594-2600,共7页
为解决藏文印刷体标注数据库资源稀少和藏文图像文本分割难度大等问题,提出一种基于音节切分的藏文体印刷体识别方法。以字符面积最小为依据,找到音节分隔符;合并音节分隔符之间的字丁,构成音节;按音节位置进行分割,经实验分割准确率提... 为解决藏文印刷体标注数据库资源稀少和藏文图像文本分割难度大等问题,提出一种基于音节切分的藏文体印刷体识别方法。以字符面积最小为依据,找到音节分隔符;合并音节分隔符之间的字丁,构成音节;按音节位置进行分割,经实验分割准确率提升3.92个百分点。为验证选择音节的有效性,在同一结构的LetNet-5网络模型上进行测试,实验结果表明,以音节为单元时识别性能更优,其平均识别正确率达96.11%。 展开更多
关键词 藏文印刷体识别 音节切分 字丁切分 文本分割 卷积神经网络
在线阅读 下载PDF
注意力的端到端模型生成藏文律诗 被引量:1
12
作者 色差甲 华果才让 +2 位作者 才让加 慈祯嘉措 柔特 《中文信息学报》 CSCD 北大核心 2019年第4期68-74,共7页
文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果。目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法。该方法基本框架是一个双向LSTM的... 文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果。目前主流的生成方法是基于深度学习的方法,而该文则提出了一种基于注意力的端到端模型生成藏文律诗法。该方法基本框架是一个双向LSTM的编码—解码模型,在此基础上引入了藏文字嵌入、注意力机制和多任务学习法。实验结果表明,该文提出的方法在藏文律诗生成结果中BLEU值和ROUGE值分别能达到59.27%、62.34%,并无需任何人为的特征设置。 展开更多
关键词 藏文律诗生成 字嵌入 注意力机制 编码-解码器
在线阅读 下载PDF
基于有限状态自动机阿拉伯数字与藏文数词自动翻译 被引量:5
13
作者 夏吾吉 华却才让 《计算机工程与科学》 CSCD 北大核心 2018年第3期550-554,共5页
针对藏文数词的构词规律,深入分析并规定了阿拉伯数字和藏文数词的结构成分,通过确定性有限状态自动机把藏文数词和阿拉伯数字进行自动转换翻译,并且采用最大匹配的原则实现了翻译复杂数词自动翻译系统。实验F值达到了98.02%。
关键词 藏文数词 阿拉伯数字 有限状态自动机 复杂数词
在线阅读 下载PDF
基于混合策略的藏文人称代词指代消解研究 被引量:2
14
作者 夏吾吉 华却才让 《计算机工程与应用》 CSCD 北大核心 2018年第7期66-69,113,共5页
指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规... 指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2 306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。 展开更多
关键词 藏文人称代词 最大熵模型 混合策略 指代消解
在线阅读 下载PDF
基于Vague相似性的藏文文本推荐方法
15
作者 刘永志 才华 +1 位作者 才藏太 林峰 《高原科学研究》 CSCD 2021年第4期99-103,共5页
随着数字信息技术的发展,藏文在移动终端和互联网中得到广泛的应用。文章收集了豆瓣网上的藏文书籍,利用藏文内容属性特征按重要性对书籍进行排序,再对特征排序进行模糊隶属度转换,并对模糊隶属度进行Vague函数值转换,求出藏文内容的Va... 随着数字信息技术的发展,藏文在移动终端和互联网中得到广泛的应用。文章收集了豆瓣网上的藏文书籍,利用藏文内容属性特征按重要性对书籍进行排序,再对特征排序进行模糊隶属度转换,并对模糊隶属度进行Vague函数值转换,求出藏文内容的Vague相似性;在相似性基础上利用推荐值和推荐度对待推荐藏文文本内容进行了推荐排序。经过实验验证文章提出的算法对藏文文本内容推荐效果较好。 展开更多
关键词 藏文文本 VAGUE 相似性 推荐算法
在线阅读 下载PDF
基于改进字节对编码的汉藏机器翻译研究 被引量:13
16
作者 头旦才让 仁青东主 +2 位作者 尼玛扎西 于永斌 邓权芯 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期249-255,293,共8页
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.8... 该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。该模型的命名实体翻译效果优于已商用汉藏在线翻译系统。同时,该文的神经机器翻译模型已部署于汉藏机器翻译网站,实现了汉藏神经机器翻译系统的应用推广。 展开更多
关键词 注意力机制 字节对编码 汉藏神经机器翻译 命名实体识别
在线阅读 下载PDF
基于Rcnn+Char_SegNet的藏文乌梅长文本识别
17
作者 才让当知 黄鹤鸣 +1 位作者 李鑫元 张会云 《中文信息学报》 北大核心 2023年第12期62-69,75,共9页
藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文... 藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文本识别。首先,在CNN的每个卷积层中添加循环连接,增强CNN提取乌梅字粘连片段的特征和集成上下文信息的能力;其次,对提取的图像文本特征序列采用BiLSTM进行建模;最后,采用字丁切分模块增强CTC对图像序列和标签对齐的监督能力。在自行构建的Cursive Script-C517测试数据集上,该模型的最高准确率和平均准确率分别达到了99.80%和91.43%,分别比基线提高了1.45和48.47个百分点。此外,通过字符级词典库训练,使模型的训练时间减少了13.63%。实验表明,该方法有效解决了乌梅字体中笔画粘连和交错现象严重导致的识别错误问题,显著提升了印刷体藏文乌梅识别精度,减少了训练时间,且具有较好的鲁棒性。 展开更多
关键词 循环卷积神经网络 印刷体藏文识别 图像序列识别 印刷体藏文乌梅识别 藏文字丁切分
在线阅读 下载PDF
基于迭代式回译策略的藏汉机器翻译方法研究 被引量:8
18
作者 慈祯嘉措 桑杰端珠 +2 位作者 孙茂松 周毛先 色差甲 《中文信息学报》 CSCD 北大核心 2020年第11期67-73,83,共8页
该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系... 该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。 展开更多
关键词 藏汉 回译 稀缺资源 自动筛选 神经网络
在线阅读 下载PDF
融合单语语言模型的藏汉机器翻译方法研究 被引量:6
19
作者 慈祯嘉措 桑杰端珠 +2 位作者 孙茂松 色差甲 周毛先 《中文信息学报》 CSCD 北大核心 2019年第12期61-66,共6页
由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单... 由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。 展开更多
关键词 藏语 语言模型 机器翻译 融合 神经网络
在线阅读 下载PDF
基于描述约束的词表示学习 被引量:3
20
作者 冶忠林 赵海兴 +1 位作者 张科 朱宇 《中文信息学报》 CSCD 北大核心 2019年第4期29-36,共8页
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的... 词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。 展开更多
关键词 词表示学习 语义嵌入 词表示联合模型 词嵌入 词语结构矩阵
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部