期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
基于改进分层注意网络和TextCNN联合建模的暴力犯罪分级算法 被引量:1
1
作者 张家伟 高冠东 +1 位作者 肖珂 宋胜尊 《计算机应用》 CSCD 北大核心 2024年第2期403-410,共8页
为了科学、智能地对服刑人员的暴力倾向分级,将自然语言处理(NLP)中的文本分类方法引入犯罪心理学领域,提出一种基于改进分层注意网络(HAN)与TextCNN(Text Convolutional Neural Network)两通道联合建模的犯罪语义卷积分层注意网络(CCHA... 为了科学、智能地对服刑人员的暴力倾向分级,将自然语言处理(NLP)中的文本分类方法引入犯罪心理学领域,提出一种基于改进分层注意网络(HAN)与TextCNN(Text Convolutional Neural Network)两通道联合建模的犯罪语义卷积分层注意网络(CCHA-Net),通过分别挖掘犯罪事实与服刑人员基本情况的语义信息,完成暴力犯罪气质分级。首先,采用Focal Loss同时替代两通道中的Cross-Entropy函数,优化样本数量不均衡问题。其次,在两通道输入层中,同时引入位置编码,改进对位置信息的感知能力;改进HAN通道,采用最大池化构建显著向量。最后,输出层都采用全局平均池化替代全连接方法,以避免过拟合。实验结果表明,与AC-BiLSTM(Attention-based Bidirectional Long Short-Term Memory with Convolution layer)、支持向量机(SVM)等17种相关基线模型相比,CCHA-Net各项指标均最优,微平均F1(Micro_F1)为99.57%,宏平均和微平均下的曲线下面积(AUC)分别为99.45%和99.89%,相较于次优的AC-BiLSTM提高了4.08、5.59和0.74个百分点,验证了CCHA-Net能有效胜任暴力犯罪气质分级任务。 展开更多
关键词 深度学习 文本分类 卷积神经网络 分层注意网络 暴力犯罪分级 气质类型
在线阅读 下载PDF
结合对比学习和提示调优的层次文本分类方法
2
作者 郑诚 纪子威 《小型微型计算机系统》 北大核心 2025年第8期1878-1885,共8页
层次文本分类是文本分类领域一项重要的子任务,但复杂的标签层次结构使其具有挑战性.目前最先进的方法通过预训练语言模型对文本进行编码,并结合图编码器处理标签结构信息.但是,独立建模文本和标签信息可能导致信息利用率不高,预训练和... 层次文本分类是文本分类领域一项重要的子任务,但复杂的标签层次结构使其具有挑战性.目前最先进的方法通过预训练语言模型对文本进行编码,并结合图编码器处理标签结构信息.但是,独立建模文本和标签信息可能导致信息利用率不高,预训练和微调阶段的不同策略也限制了模型挖掘预训练模型的知识.本文提出一种结合对比学习和提示调优的层次文本分类方法,将层次标签信息嵌入到文本编码过程,同时设计提示模板整合标签信息,捕获文本与标签的关联性,弥合预训练模型与下游任务间的差距.借助对比学习,根据标签信息生成正样本,强化模型对关键特征的学习与保留,使模型有效指导文本特征表示的学习.在两个公开数据集上的大量实验表明了方法的有效性. 展开更多
关键词 层次文本分类 提示调优 对比学习 深度学习 自然语言处理
在线阅读 下载PDF
基于多尺度特征提取的层次多标签文本分类方法 被引量:1
3
作者 武子轩 王烨 于洪 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期24-30,共7页
针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签... 针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签特征的文本语义表示。最后,在标签层次结构的指导下对输入文本构建正负样本,进行对比学习,提高分类效果。在WOS、RCV1-V2、NYT和AAPD数据集上进行对比实验,结果表明,所提模型在评价指标上表现出色,超过了其他主流模型。此外,针对层次分类提出层次Micro-F 1和层次Macro-F 1指标,并对模型效果进行了评价。 展开更多
关键词 层次多标签文本分类 多尺度特征提取 对比学习 层次Micro-F 1 层次Macro-F 1
在线阅读 下载PDF
面向12345政务热线事件分拨的深度行为语义网络
4
作者 陈顺 易修文 +2 位作者 张钧波 李天瑞 郑宇 《计算机科学与探索》 北大核心 2025年第4期1036-1047,共12页
市民在遇到困难时,会通过12345政务服务热线寻求帮助。在收到市民请求之后,热线工作人员将对市民的需求进行分析,并将事件分拨给对应的政府部门进行处理。目前通过人工完成的分拨过程占用了大量的人力资源,同时许多事件被分拨到错误的... 市民在遇到困难时,会通过12345政务服务热线寻求帮助。在收到市民请求之后,热线工作人员将对市民的需求进行分析,并将事件分拨给对应的政府部门进行处理。目前通过人工完成的分拨过程占用了大量的人力资源,同时许多事件被分拨到错误的部门。为了提高分拨过程的效率和正确率,提出了一种数据驱动的高效自动化事件分拨方法。基于历史分拨记录、事件文本和部门职责,设计了一个用于事件分拨的深度行为语义网络(DBSN)。它包含了三个部分,分别是历史行为编码、事件语义学习和多维特征匹配网络。历史行为编码模块构建了一个在事件类别和分拨部门之间的多级二分图,通过图编码学习行为特征。事件语义学习模块使用卷积神经网络(CNN)和注意力机制来学习事件诉求和部门权责的语义特征。多维特征匹配模块从行为、语义两个特征维度上将事件与部门进行匹配。在实验中,使用了某市12345政务热线数据,实验结果证明了提出的方法与基线方法相比具有优势。 展开更多
关键词 12345政务热线 事件分拨 层次二分图 文本分类 城市计算
在线阅读 下载PDF
融合对比学习和BERT的层级多标签文本分类模型 被引量:3
5
作者 代林林 张超群 +2 位作者 汤卫东 刘成星 张龙昊 《计算机工程与设计》 北大核心 2024年第10期3111-3119,共9页
为有效解决现有文本分类模型难以建模标签语义关系的问题,提出一种融合对比学习和自注意力机制的层级多标签文本分类模型,命名为SampleHCT。设计一个标签特征提取模块,能有效提取标签的语义和层次结构特征。采用自注意力机制构建具有混... 为有效解决现有文本分类模型难以建模标签语义关系的问题,提出一种融合对比学习和自注意力机制的层级多标签文本分类模型,命名为SampleHCT。设计一个标签特征提取模块,能有效提取标签的语义和层次结构特征。采用自注意力机制构建具有混合标签信息的阳性样本。使用对比学习训练文本编码器的标签意识。实验结果表明,SampleHCT相较于19个基准模型,取得了更高的分类分数,验证了其具有更有效的标签信息建模方式。 展开更多
关键词 文本分类 对比学习 自注意力机制 层级结构 多标签 标签信息 全局特征
在线阅读 下载PDF
融合语义解释和DeBERTa的极短文本层次分类
6
作者 陈昊飏 张雷 《计算机科学》 CSCD 北大核心 2024年第5期250-257,共8页
文本层次分类在社交评论主题分类、搜索词分类等场景中有重要应用,这些场景的数据往往具有极短文本特征,体现在信息的稀疏性、敏感性等中,这对模型特征表示和分类性能带来了很大挑战,而层次标签空间的复杂性和关联性使得难度进一步加剧... 文本层次分类在社交评论主题分类、搜索词分类等场景中有重要应用,这些场景的数据往往具有极短文本特征,体现在信息的稀疏性、敏感性等中,这对模型特征表示和分类性能带来了很大挑战,而层次标签空间的复杂性和关联性使得难度进一步加剧。基于此,提出了一种融合语义解释和DeBERTa模型的方法,该方法的核心思想在于:引入具体语境下各个字词或词组的语义解释,补充优化模型获取的内容信息;结合DeBERTa模型的注意力解耦机制与增强掩码解码器,以更好地把握位置信息、提高特征提取能力。所提方法首先对训练文本进行语法分词、词性标注,再构造GlossDeBERTa模型进行高准确率的语义消歧,获得语义解释序列;然后利用SimCSE框架使解释序列向量化,以更好地表征解释序列中的句子信息;最后训练文本经过DeBERTa模型神经网络后,得到原始文本的特征向量表示,再与解释序列中的对应特征向量相加,传入多分类器。实验遴选短文本层次分类数据集TREC中的极短文本部分,并进行数据扩充,最终得到的数据集平均长度为12词。多组对比实验表明,所提出的融合语义解释的DeBERTa模型性能最为优秀,在验证集和测试集上的Accuracy值、F1-micro值、F1-macro值相比其他算法模型有较大的提升,能够很好地应对极短文本层次分类任务。 展开更多
关键词 极短文本 层次分类 语义解释 DeBERTa GlossDeBERTa SimCSE
在线阅读 下载PDF
深层次标签辅助分类任务的层次标签文本分类方法 被引量:1
7
作者 曹渝昆 魏子越 +2 位作者 唐艺嘉 金成坤 李云峰 《计算机工程与应用》 CSCD 北大核心 2024年第10期105-112,共8页
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导... 层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。 展开更多
关键词 层次标签文本分类 标签层次结构 全局标签分类通道 深层次标签辅助分类通道
在线阅读 下载PDF
层次多标签文本分类方法 被引量:12
8
作者 赵海燕 曹杰 +1 位作者 陈庆奎 曹健 《小型微型计算机系统》 CSCD 北大核心 2022年第4期673-683,共11页
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同... 现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层次多标签文本分类的研究现状进行了系统化的总结.目前的方法从是否使用层次结构可以分为平面方法和层次方法,而层次方法又可以分为局部方法、全局方法和混合方法.这些方法包含了使用不同技术的多种模型.文中还分析了层次多标签文本分类任务的挑战和难点,并对本领域未来的研究方向进行了展望. 展开更多
关键词 层次多标签 文本分类 层次结构 文本表示
在线阅读 下载PDF
大规模层次分类问题研究及其进展 被引量:14
9
作者 何力 贾焰 +2 位作者 韩伟红 谭霜 陈志坤 《计算机学报》 EI CSCD 北大核心 2012年第10期2101-2115,共15页
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上... 随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向. 展开更多
关键词 文本分类 大规模层次分类 类别层次 类别层次树
在线阅读 下载PDF
大规模层次分类中的候选类别搜索 被引量:19
10
作者 何力 丁兆云 +1 位作者 贾焰 韩伟红 《计算机学报》 EI CSCD 北大核心 2014年第1期41-49,共9页
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,... 大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%. 展开更多
关键词 文本分类 大规模层次分类 类别层次 候选类别 候选搜索问题 社交网络
在线阅读 下载PDF
基于句类特征的作者写作风格分类研究 被引量:20
11
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
在线阅读 下载PDF
突发事件Web新闻多层次自动分类方法 被引量:6
12
作者 蔡华利 刘鲁 王理 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第6期947-954,共8页
为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML... 为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML文本向量空间模型及特征项的抽取方法.将该自动分类方法在甲型H1N1、法国空难以及汶川大地震等突发事件的Web新闻中进行了训练和测试.实验结果表明,所提方法的分类效果优于改进前的方法. 展开更多
关键词 文本分类 分类器 特征抽取 多层次体系 突发事件
在线阅读 下载PDF
基于层次分类器的专利文本分类模型研究 被引量:5
13
作者 慎金花 陈红艺 +1 位作者 张更平 秦乐洋 《情报杂志》 CSSCI 北大核心 2023年第8期157-163,68,共8页
数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型... 数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。 展开更多
关键词 专利分类 文本分类 层次分类 国际专利分类 发明专利
在线阅读 下载PDF
汉语句群领域的自动抽取研究 被引量:4
14
作者 韦向峰 缪建明 张全 《计算机工程与应用》 CSCD 北大核心 2009年第4期11-15,共5页
句群是介于句子和段落之间的一个处理单位。在语言概念空间句群有三个要素:领域、情景和背景,领域是最根本的。获取了句群领域,就能够确定情景框架,这对信息抽取和文本分类都是非常重要的。一些词语的概念符号中蕴含了领域信息,通过分... 句群是介于句子和段落之间的一个处理单位。在语言概念空间句群有三个要素:领域、情景和背景,领域是最根本的。获取了句群领域,就能够确定情景框架,这对信息抽取和文本分类都是非常重要的。一些词语的概念符号中蕴含了领域信息,通过分析词语在句子中的语义角色以及词语位置、频次等可以得到句子的领域。根据领域关系可以合并领域相同或相似的句子,得到句群及其领域。实验表明,常见的四种领域关系能够很好地被处理,但在动态词处理、复合领域的识别等方面还需要改进。 展开更多
关键词 句群 领域 概念层次网络理论 信息抽取 文本分类
在线阅读 下载PDF
多层文本分类性能评价方法 被引量:2
15
作者 宋胜利 鲍亮 陈平 《系统工程与电子技术》 EI CSCD 北大核心 2010年第5期1088-1093,共6页
为了准确评价多层文本分类方法,解决传统平面分类评价指标应用到多层分类中的局限性,在研究基于概念树的多层文本分类方法基础上,有效利用多层结构中类别之间的层次关系和"亲疏"关系,提出了一组能够准确描述多层分类性能的扩... 为了准确评价多层文本分类方法,解决传统平面分类评价指标应用到多层分类中的局限性,在研究基于概念树的多层文本分类方法基础上,有效利用多层结构中类别之间的层次关系和"亲疏"关系,提出了一组能够准确描述多层分类性能的扩展评价指标。利用错误分类样本分布定义了错误分类集中度,在评价分类结果的同时能够指导训练样本的选择过程,使得训练样本更具有代表性。通过中文新闻语料的分类实验,证明了扩展评价指标对于多层分类结果的评价更为准确,错误分类集中度有助于训练出更加准确的分类模型。 展开更多
关键词 模式识别 文本分类 类别层次 错误分类分布 分类模型
在线阅读 下载PDF
一种结合层次结构和KNN的Web文本分类方法 被引量:2
16
作者 吴春颖 王士同 杨林波 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1555-1560,共6页
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这... 在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果. 展开更多
关键词 层次结构 KNN WEB文本分类
在线阅读 下载PDF
基于类别层次结构的多层文本分类样本扩展策略 被引量:17
17
作者 李保利 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期357-366,共10页
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构... 针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。 展开更多
关键词 多层文本分类 大规模中文新闻分类 中文新闻信息分类 类别层次体系
在线阅读 下载PDF
融合标签信息的分层图注意力网络文本分类模型 被引量:3
18
作者 杨春霞 马文文 +1 位作者 徐奔 韩煜 《计算机工程与科学》 CSCD 北大核心 2023年第11期2018-2026,共9页
目前基于分层图注意力网络的单标签文本分类任务存在2方面不足:一是不能较好地对文本特征进行提取;二是很少有研究通过文本与标签之间的联系进一步凸显文本特征。针对这2个问题,提出一种融合标签信息的分层图注意力网络文本分类模型。... 目前基于分层图注意力网络的单标签文本分类任务存在2方面不足:一是不能较好地对文本特征进行提取;二是很少有研究通过文本与标签之间的联系进一步凸显文本特征。针对这2个问题,提出一种融合标签信息的分层图注意力网络文本分类模型。该模型依据句子关键词与主题关联性构建邻接矩阵,然后使用词级图注意力网络获取句子的向量表示。该模型是以随机初始化的目标向量为基础,同时利用最大池化提取句子特定的目标向量,使得获取的句子向量具有更加明显的类别特征。在词级图注意力层之后使用句子级图注意力网络获取具有词权重信息的新文本表示,并通过池化层得到文本的特征信息。另一方面利用GloVe预训练词向量对所有文本标注的标签信息进行初始化向量表示,然后将其与文本的特征信息进行交互、融合,以减少原有特征损失,得到区别于不同文本的特征表示。在R52、R8、20NG、Ohsumed及MR 5个公开数据集上的实验结果表明,该模型的分类准确率明显优于其它主流基线模型的。 展开更多
关键词 分层图注意力网络 单标签文本分类 邻接矩阵 标签信息
在线阅读 下载PDF
基于自注意力机制的双向分层语义模型 被引量:1
19
作者 张志远 李庭恩 《计算机工程与设计》 北大核心 2019年第9期2607-2613,共7页
针对以文本词向量作为输入的神经网络无法充分利用文本语义结构特征信息、难以有效表示每个词语在句子中的重要程度等问题,提出一种基于自注意力机制的双向分层语义模型Satt-BiHSNN。通过双层双向LSTM将文本词向量进行训练得到文本表示... 针对以文本词向量作为输入的神经网络无法充分利用文本语义结构特征信息、难以有效表示每个词语在句子中的重要程度等问题,提出一种基于自注意力机制的双向分层语义模型Satt-BiHSNN。通过双层双向LSTM将文本词向量进行训练得到文本表示,解决长距离依赖问题;通过自注意力机制从多个视角有效获取每个词语在句子中的重要程度,减少噪音词语权重并获取更多隐藏信息;使用softmax分类器进行文本分类。在IMDB和20Newsgroup数据集上的实验结果表明,该方法在文本分类任务中,较之前基于传统注意力机制的文本分类模型在准确率和收敛速度上有了进一步的提高。 展开更多
关键词 深度学习 文本分类 自注意力机制 循环神经网络 分层语义表示
在线阅读 下载PDF
基于无标记Web数据的层次式文本分类
20
作者 何力 谭霜 +1 位作者 贾焰 韩伟红 《智能系统学报》 CSCD 北大核心 2014年第3期330-335,共6页
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询... 传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。 展开更多
关键词 层次式文本分类 主题层次 无标记数据分类 支持向量机
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部