期刊文献+
共找到427篇文章
< 1 2 22 >
每页显示 20 50 100
A Study on Short Text Matching Method Based on KS-BERT Algorithm
1
作者 YANG Hao-wen SUN Mei-feng 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第5期164-173,共10页
To improve the accuracy of short text matching,a short text matching method with knowledge and structure enhancement for BERT(KS-BERT)was proposed in this study.This method first introduced external knowledge to the i... To improve the accuracy of short text matching,a short text matching method with knowledge and structure enhancement for BERT(KS-BERT)was proposed in this study.This method first introduced external knowledge to the input text,and then sent the expanded text to both the context encoder BERT and the structure encoder GAT to capture the contextual relationship features and structural features of the input text.Finally,the match was determined based on the fusion result of the two features.Experiment results based on the public datasets BQ_corpus and LCQMC showed that KS-BERT outperforms advanced models such as ERNIE 2.0.This Study showed that knowledge enhancement and structure enhancement are two effective ways to improve BERT in short text matching.In BQ_corpus,ACC was improved by 0.2%and 0.3%,respectively,while in LCQMC,ACC was improved by 0.4%and 0.9%,respectively. 展开更多
关键词 Deep learning short text matching Graph attention network Knowledge enhancement
在线阅读 下载PDF
基于DAN与FastText的藏文短文本分类研究 被引量:1
2
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
在线阅读 下载PDF
融合ERNIE与知识增强的临床短文本分类研究
3
作者 温浩 杨洋 《计算机工程与应用》 北大核心 2025年第8期108-116,共9页
提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERN... 提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERNIE-BiGRU模型。该模型通过引入医学知识与文本独特知识的ERNIE模型训练文本的特征向量,利用BiGRU强化上下文信息,最终在输出层进行文本分类。通过在真实的临床文本的验证与对比实验,KW-ERNIE-BiGRU模型的精确率、召回率、宏F1分别为93.4%、92.1%、92.7%,均优于其他模型。 展开更多
关键词 深度学习 知识图谱 ERNIE 语义强化 临床短文本分类
在线阅读 下载PDF
基于情感增强非参数模型的社交媒体观点聚类
4
作者 刘勘 陈昱 何佳瑞 《中文信息学报》 北大核心 2025年第3期148-158,共11页
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该... 观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。 展开更多
关键词 观点分析 短文本流聚类 非参数模型 社交媒体
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
5
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 预训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
基于特征增强的农业短文本语义智能匹配方法研究
6
作者 金宁 郭宇峰 +2 位作者 渠丽娜 缪祎晟 吴华瑞 《农业机械学报》 北大核心 2025年第5期395-404,共10页
针对农业短文本数据特征词语少、语义特征稀疏、冗余度高、价值密度低等问题,构建了一种利用多尺度通道注意力算法融合多语义特征的语义匹配模型Font_MBAFF,以提升农业短文本的语义匹配性能。首先利用汉字偏旁部首和四角号码丰富短文本... 针对农业短文本数据特征词语少、语义特征稀疏、冗余度高、价值密度低等问题,构建了一种利用多尺度通道注意力算法融合多语义特征的语义匹配模型Font_MBAFF,以提升农业短文本的语义匹配性能。首先利用汉字偏旁部首和四角号码丰富短文本特征;然后利用多尺度卷积核通道注意力加权网络MSCN和基于多头自注意力的双向长短期记忆网络Multi_SAB分别从空间和时间提取语义特征;最后利用文本注意力融合机制TEXTAFF对多种特征进行智能融合。试验结果表明,Font_MBAFF模型可有效弥补短文本特征词少的不足,优化文本特征提取及特征融合,语义匹配正确率达到96.42%,与MaLSTM、BiLSTM、BiLSTM_Self-attention、TEXTCNN_Attention、Sentence-BERT等5种语义匹配模型相比优势明显,正确率至少高2.07个百分点。 展开更多
关键词 农业短文本 语义匹配 字形特征表示 多特征融合
在线阅读 下载PDF
中文小说短句序列文本复述数据集
7
作者 万福成 雷鑫鹏 +1 位作者 王双 魏斌 《中国科学数据(中英文网络版)》 2025年第3期535-543,共9页
文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中... 文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中文小说复述语料,通过人工挑选和数据预处理得到高质量的短句复述对。数据集包括34770句对,69540句短文本序列,大小为2.91 MB。通过使用LaserTagger复述生成模型与大规模的中文问题匹配语料库(A Largescale Chinese Question Matching Corpus,LCQCM)进行对比,显示本数据集质量更高。本数据集可应用于机器翻译,缓解语料稀疏问题,对自动问答领域问句进行改写和扩展,对信息检索领域检索词、句进行扩展和泛化等。 展开更多
关键词 文本复述 短句序列 复述生成 低资源
在线阅读 下载PDF
基于迁移学习的农业短文本语义相似度计算方法
8
作者 金宁 郭宇峰 +2 位作者 韩晓东 缪祎晟 吴华瑞 《智慧农业(中英文)》 2025年第1期33-43,共11页
[目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Represe... [目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Representations from Transformers)预训练模型的农业短文本语义相似度计算模型CWPT-TSBERT (Chinese-based Wordpiece Tokenization and Transfer-learning by Sentence BERT)。[方法] CWPT-TSBERT依托孪生网络架构,利用迁移学习策略在大规模通用领域标注数据集进行模型预训练,解决农业文本标注数据集少、语义稀疏性高等问题。提出面向中文的子词单元分词方法 CWPT拆分汉字,增强字向量的语义特征表示,进一步丰富了短文本语义特征表达。根据迁移学习的微调机制,利用SBERT (Sentence BERT)模型提取字向量,挖掘汉字间及字形结构间关联关系,提高模型语义相似度计算的正确率。[结果和讨论] CWPT-TSBERT模型的语义相似度计算正确率达到97.18%,高于基于卷积神经网络的TextCNN_Attention、基于循环神经网络的MaLSTM (Manhattan Long Short-Term Memory),以及基于BERT预训练模型的SBERT等12种模型。[结论] CWPT-TSBERT模型在小规模农业短文本数据集上语义相似性计算正确率较高,性能优势明显,为语义智能匹配提供了有效的技术参考。 展开更多
关键词 迁移学习 农业短文本 语义相似度计算 字形特征 知识智能服务 大模型
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
9
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
易混淆样本驱动的簇间分布优化短文本聚类
10
作者 恩卡尔·奴尔太 马博 +3 位作者 王震 艾孜麦提·艾尼瓦尔 吐尔洪·吾司曼 杨雅婷 《计算机应用研究》 北大核心 2025年第10期2996-3004,共9页
短文本聚类旨在将无标签的短文本实例划分为不同的语义簇。针对该任务中易混淆样本难以有效区分以及语义相近簇间特征分布重叠的挑战,提出了一种易混淆样本驱动的簇间分布优化短文本聚类方法。该方法首先基于信息熵采样不确定性较高的... 短文本聚类旨在将无标签的短文本实例划分为不同的语义簇。针对该任务中易混淆样本难以有效区分以及语义相近簇间特征分布重叠的挑战,提出了一种易混淆样本驱动的簇间分布优化短文本聚类方法。该方法首先基于信息熵采样不确定性较高的样本作为易混淆样本,并选取其邻近簇样本构建候选集;随后引入大语言模型进行语义判别,构造“易混淆样本-正样本-负样本”三元组;同时,采用参数随机扰动机制为每个样本生成自身正例;最终在对比学习框架下实施簇间分布联合优化。在四个公开短文本数据集上的实验结果表明,与现有先进模型相比,所提方法的聚类效果均有提升,平均准确率提高了5.14%,平均标准互信息提升了2.51%。通过实验结果的分析,进一步验证了该方法不仅显著提升了模型对簇间易混淆样本的语义辨别能力,而且有效缓解了语义相似簇间的特征分布重叠问题。 展开更多
关键词 易混淆样本 短文本聚类 大语言模型 对比学习
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
11
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fasttext 类别特征 词汇信息熵 N-GRAM
在线阅读 下载PDF
基于语义分类的物联网固件中第三方组件识别
12
作者 马峰 于丹 +2 位作者 杨玉丽 马垚 陈永乐 《计算机工程与设计》 北大核心 2025年第1期274-281,共8页
为扩大物联网固件中第三方组件识别范围,从软件供应链层面研究物联网固件安全,提出一种基于语义短文本分类的第三方组件识别方法。通过固件解压提取内部第三方组件和模拟组件运行的方式获取组件语义输出数据,利用Skip-gram将语义输出转... 为扩大物联网固件中第三方组件识别范围,从软件供应链层面研究物联网固件安全,提出一种基于语义短文本分类的第三方组件识别方法。通过固件解压提取内部第三方组件和模拟组件运行的方式获取组件语义输出数据,利用Skip-gram将语义输出转化为词嵌入表示,通过卷积神经网络和双向门控循环单元分别提取语义信息局部特征和全局特征,经过多头注意力机制区分关键语义特征,输入到Softmax分类器中实现可用于识别组件的语义信息分类。通过在10个流行的物联网生产商发布的5453个固件上进行实验,验证了该方法可有效识别第三方组件。 展开更多
关键词 物联网 软件供应链 固件安全 短文本分类 卷积神经网络 双向门控循环单元 多头注意力
在线阅读 下载PDF
基于大批次对抗策略和强化特征提取的文本情感分类方法
13
作者 陈嘉昊 段利国 +3 位作者 常轩伟 李爱萍 崔娟娟 郝渊斌 《计算机科学》 北大核心 2025年第10期247-257,共11页
文本情感分类任务旨在对短文本语句进行分析并判断其对应的情感类别。为解决现有模型在情感分类方面缺乏大规模高质量语料数据集、文本特征非均匀重要性提取不足等问题,提出了一种基于大批次对抗策略和强化特征提取的文本情感分类方法... 文本情感分类任务旨在对短文本语句进行分析并判断其对应的情感类别。为解决现有模型在情感分类方面缺乏大规模高质量语料数据集、文本特征非均匀重要性提取不足等问题,提出了一种基于大批次对抗策略和强化特征提取的文本情感分类方法。首先将文本数据集输入预训练语言模型BERT中,得到相应的词嵌入向量表示;再利用BiLSTM进一步学习序列中的上下文依赖关系;之后将局部注意力机制与TextCNN的局部感受野加权结合,实现强化特征提取能力;最后将BiLSTM的输出与TextCNN的输出进行拼接,得到两个空间的深层特征融合,再交由分类器进行情感分类的判断。整个训练过程采取大批次对抗策略,在词嵌入空间中加入对抗性扰动并进行多次迭代,进而提高模型的鲁棒性。在多个数据集上的实验结果验证了该模型的有效性。 展开更多
关键词 短文本 情感分类 对抗策略 特征提取 词嵌入
在线阅读 下载PDF
融合双通道特征信息的医疗短文本分类模型
14
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《现代电子技术》 北大核心 2025年第13期123-132,共10页
针对医疗短文本存在特征稀疏、语义歧义和提取短文本特征不充分等问题,提出融合双通道特征的医疗短文本分类模型(EBDF)。该模型利用预训练模型得到动态词向量,使模型包含更丰富的语义信息;之后利用BiLSTM获取全局文本特征信息和DPECNN... 针对医疗短文本存在特征稀疏、语义歧义和提取短文本特征不充分等问题,提出融合双通道特征的医疗短文本分类模型(EBDF)。该模型利用预训练模型得到动态词向量,使模型包含更丰富的语义信息;之后利用BiLSTM获取全局文本特征信息和DPECNN获取深层次的局部文本特征信息,为了提高模型的鲁棒性和泛化能力,采用FGM对抗训练算法对数据进行扰动;最后,将双通道的特征信息进行特征融合获得最终的文本表示。EBDF模型在三个医疗领域和两个通用领域的短文本数据集上与效果较好的模型相比,准确率提升约0.57%~6.16%,F1值提高约0.65%~5.80%。 展开更多
关键词 医疗文本挖掘 短文本分类 特征融合 BiLSTM DPECNN 双通道
在线阅读 下载PDF
外部知识与内部上下文语义聚合的短文本新闻虚假检测模型
15
作者 邱艳芳 赵振宇 +3 位作者 孙志杰 马坤 纪科 陈贞翔 《济南大学学报(自然科学版)》 北大核心 2025年第4期569-575,584,共8页
为了解决短文本新闻语义特征稀疏以及忽略了外部知识与短文本新闻语义之间同源关联性的问题,提出一种外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(EKCS-ST),构建新闻特征信息网络,包含新闻主题、作者、实体3种外部知识,丰富... 为了解决短文本新闻语义特征稀疏以及忽略了外部知识与短文本新闻语义之间同源关联性的问题,提出一种外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(EKCS-ST),构建新闻特征信息网络,包含新闻主题、作者、实体3种外部知识,丰富短文本新闻语义特征,通过图卷积生成新闻的外部知识图特征;将新闻文本输入到文本编码器中捕获新闻内部上下文语义特征;将外部知识图特征和内部上下文语义特征用于上下文感知计算,加强外部知识与上下文语义的关联性;使用注意力机制筛选和加强新闻关键特征,并且通过调高少数类新闻的损失误差,缓解数据不均衡问题。结果表明,本文所提模型的F_(1)值即精确率和召回率的调和平均值为0.86,比BERT、TextGCN等模型分别高18%、17%,验证了模型的有效性。 展开更多
关键词 短文本新闻虚假检测 外部知识 注意力机制 语义特征
在线阅读 下载PDF
融合BiLSTM与CNN的推特黑灰产分类模型 被引量:3
16
作者 朱恩德 王威 高见 《计算机工程与应用》 北大核心 2025年第1期186-195,共10页
当前推特等国外社交平台,已成为从事网络黑灰产犯罪不可或缺的工具,对推特上黑灰产账号进行发现、检测和分类对于打击网络犯罪、维护社会稳定具有重大意义。现有的推文分类模型双向长短时记忆网络(bi-directional long short-term memor... 当前推特等国外社交平台,已成为从事网络黑灰产犯罪不可或缺的工具,对推特上黑灰产账号进行发现、检测和分类对于打击网络犯罪、维护社会稳定具有重大意义。现有的推文分类模型双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)可以学习推文的上下文信息,却无法学习局部关键信息,卷积神经网络(convolution neural network,CNN)模型可以学习推文的局部关键信息,却无法学习推文的上下文信息。结合BiLSTM与CNN两种模型的优势,提出了BiLSTM-CNN推文分类模型,该模型将推文进行向量化后,输入BiLSTM模型学习推文的上下文信息,再在BiLSTM模型后引入CNN层,进行局部特征的提取,最后使用全连接层将经过池化的特征连接在一起,并应用softmax函数进行四分类。模型在自主构建的中文推特黑灰产推文数据集上进行实验,并使用TextCNN、TextRNN、TextRCNN三种分类模型作为对比实验,实验结果显示,所提的BiLSTM-CNN推文分类模型在对四类推文进行分类的宏准确率为98.32%,明显高于TextCNN、TextRNN和TextRCNN三种模型的准确率。 展开更多
关键词 文本分类 双向长短期记忆网络(BiLSTM) 卷积神经网络(CNN) 黑灰产 推特
在线阅读 下载PDF
基于并联残差膨胀卷积网络的短文本实体关系联合抽取
17
作者 曾伟 奚雪峰 崔志明 《现代电子技术》 北大核心 2025年第2期169-178,共10页
关系抽取旨在从文本中提取出实体对之间存在的语义关系,但现有的关系抽取方法均存在关系冗余和重叠的不足,尤其是对于短文本,会因上下文信息不足而出现语义信息不足和噪声大等问题。此外,一般流水线式的关系抽取模型还存在误差传递问题... 关系抽取旨在从文本中提取出实体对之间存在的语义关系,但现有的关系抽取方法均存在关系冗余和重叠的不足,尤其是对于短文本,会因上下文信息不足而出现语义信息不足和噪声大等问题。此外,一般流水线式的关系抽取模型还存在误差传递问题。为此,文中提出一种基于并联残差膨胀卷积网络的短文本实体关系联合抽取方法。该方法利用BERT生成语义特征信息,采用并联残差膨胀卷积网络来捕获语义信息,从而提升上下文信息的捕获能力并缓解噪声。联合抽取框架通过抽取潜在关系来过滤无关关系,然后再抽取实体以预测三元组,从而解决关系冗余和重叠问题,并提高计算效率。实验结果表明,与现有的主流模型相比,所提模型在三个公共数据集NYT、WebNLG和DuIE上的F1值分别为90.9%、91.3%和73.5%,相较于基线模型均有提升,验证了该模型的有效性。 展开更多
关键词 实体关系抽取 短文本 残差膨胀卷积网络 语义特征 联合抽取 BERT编码器
在线阅读 下载PDF
基于位置增强和对抗训练的中文短文本实体消歧
18
作者 曾伟 奚雪峰 崔志明 《印刷与数字媒体技术研究》 北大核心 2025年第5期48-57,共10页
实体消歧作为自然语言处理领域的关键问题之一,对于文本理解和信息检索具有重要意义。因短文本语境信息有限、表达不规范以及语法结构不完整,短文本实体消歧方法准确率较低。为此,本研究提出了一种基于位置增强和对抗训练的中文短文本... 实体消歧作为自然语言处理领域的关键问题之一,对于文本理解和信息检索具有重要意义。因短文本语境信息有限、表达不规范以及语法结构不完整,短文本实体消歧方法准确率较低。为此,本研究提出了一种基于位置增强和对抗训练的中文短文本实体消歧方法。首先,在文本编码层引入位置增强机制,以加强实体消歧过程中对实体在文本中位置的考量,从而提高消歧精度。然后,通过双路网络处理获得的文本表示,利用PCNN模型获取句子依赖特征,利用GCN模型获取语义特征,融合二者的语义信息完成消歧任务。在此基础上,采用对抗训练技术,在编码后的文本表示中添加扰动,使模型能够充分学习文本中微妙的语义特征,以增强模型的泛化能力和鲁棒性。实验结果表明,本研究方法在CCKS2019数据集上达到了75.94%的精确率,验证了其在解决中文短文本实体消歧任务中的有效性和可行性。 展开更多
关键词 短文本 实体消歧 位置增强 卷积网络
在线阅读 下载PDF
融合BTM和Doc2vec的中文短文本自动评分方法
19
作者 宫皓明 万小芬 康春花 《江西师范大学学报(自然科学版)》 北大核心 2025年第2期120-127,共8页
为缓解中文短文本自动评分中的数据稀疏和语义缺失问题,提高中文短文本自动评分的准确性,该文将可处理特征稀疏的BTM和可关联上下文语意特征的Doc2vec相融合,构建了2种新的短文本自动评分模型:BTM-W2V和BTM-D2V.研究结果表明:BTM-D2V和B... 为缓解中文短文本自动评分中的数据稀疏和语义缺失问题,提高中文短文本自动评分的准确性,该文将可处理特征稀疏的BTM和可关联上下文语意特征的Doc2vec相融合,构建了2种新的短文本自动评分模型:BTM-W2V和BTM-D2V.研究结果表明:BTM-D2V和BTM-W2V的效果优于BTM和Doc2vec的效果,而且BTM-D2V的表现尤其突出.该研究为中文短文本主观题自动评分探索了一种新思路. 展开更多
关键词 中文短文本 自动评分 准确性
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成
20
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部