期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于链接策略和不同粒度特征融合的极限多标签文本分类模型
1
作者 胡婕 郑启扬 +1 位作者 曹芝兰 刘梦赤 《中文信息学报》 北大核心 2025年第3期84-95,共12页
现有基于Transformer的极限多标签文本分类模型尽管引入了标签语义,但利用标签语义来探索文本和标签之间的语义潜在关系仍存在不足。对此,该文将标签合并成序列,并使用链接策略在同一空间内联合学习文本和标签特征来捕获文本和标签的语... 现有基于Transformer的极限多标签文本分类模型尽管引入了标签语义,但利用标签语义来探索文本和标签之间的语义潜在关系仍存在不足。对此,该文将标签合并成序列,并使用链接策略在同一空间内联合学习文本和标签特征来捕获文本和标签的语义。然后,通过注意力机制将标签语义和文档内容相结合生成感知文本,有效地探索文本信息和标签语义的交互关系。此外,该文通过融合机制将粗粒度层次特征和细粒度特征相结合,帮助模型更好地学习不同层次粒度的文档语义信息。在三个公开的数据集Eurlex-4K、Wiki10-30K和Kan-Shan Cup上进行了模型验证,实验结果表明,该文所提模型P@k值优于对比模型,综合性能得到有效提升。 展开更多
关键词 极限多标签文本分类 链接策略 感知文本 细粒度特征
在线阅读 下载PDF
用于文本情感极性分析的动态卷积神经网络超限学习算法 被引量:7
2
作者 贾熹滨 李宁 靳亚 《北京工业大学学报》 CAS CSCD 北大核心 2017年第1期28-35,共8页
为改善动态卷积神经网络在文本情感分类方法中的泛化能力,提出了一种动态卷积超限学习算法.对动态卷积神经网络的输出层加以改进,使用浅层随机神经网络替代全连接层,利用参数随机生成的扰动性能,降低分类端对训练样本的依赖,避免过拟合... 为改善动态卷积神经网络在文本情感分类方法中的泛化能力,提出了一种动态卷积超限学习算法.对动态卷积神经网络的输出层加以改进,使用浅层随机神经网络替代全连接层,利用参数随机生成的扰动性能,降低分类端对训练样本的依赖,避免过拟合,提升分类性能.在公共数据集上的实验证明:相对改进前的动态卷积学习算法以及超限学习机,所提出的方法在准确率、F1测度等多个标准指标上均体现了更优的分类性能. 展开更多
关键词 文本情感分类 动态卷积 超限学习机 动态卷积超限学习算法
在线阅读 下载PDF
基于DE-ELM的林业信息文本分类算法 被引量:5
3
作者 陈宇 王明月 许莉薇 《计算机工程与设计》 北大核心 2015年第9期2412-2415,2431,共5页
为解决传统林业信息文本分类算法准确率低和正确率分布不均匀的问题,提出基于差分演化优化极端学习机的林业信息文本分类算法。使用TF-IDF方法计算林业信息文本特征值,对构造的林业信息文本特征矩阵降维,结合差分演化算法对极端学习机... 为解决传统林业信息文本分类算法准确率低和正确率分布不均匀的问题,提出基于差分演化优化极端学习机的林业信息文本分类算法。使用TF-IDF方法计算林业信息文本特征值,对构造的林业信息文本特征矩阵降维,结合差分演化算法对极端学习机算法进行优化,构造分类器进行精准快速的分类。实验结果表明,该算法能有效克服极端学习算法的缺点,具有较好的局部与全局收敛能力,相较BP、SVM算法,该算法有一定竞争力,为林业信息文本的分类研究提供了参考。 展开更多
关键词 文本分类 差分演化优化极端学习机 极端学习机 TF-IDF 分类器
在线阅读 下载PDF
基于多隐层极限学习机的文本分类方法 被引量:4
4
作者 冀俊忠 庞皓明 +1 位作者 杨翠翠 刘金铎 《北京工业大学学报》 CAS CSCD 北大核心 2019年第6期534-545,共12页
针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取... 针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取出高层文本特征并通过最小二乘的方法对文本数据进行分类.与多个算法的实验对比表明,该算法在20newsgroup、Reuters和复旦大学中文语料库这3个数据集上都具有良好的分类性能. 展开更多
关键词 文本分类 高维文本 多隐层极限学习机 极限学习机自编码器 特征映射 神经网络
在线阅读 下载PDF
基于快速自编码的RELM的文本分类 被引量:3
5
作者 周杭霞 叶佳骏 任欢 《计算机工程与科学》 CSCD 北大核心 2016年第5期871-876,共6页
正则化极限学习机RELM是一种单隐层前馈神经网络,不同于传统神经网络算法,RELM通过随机设置输入层权重和偏置值,可以快速求得输出层权重,并且引入正则化因子,能够提高模型的泛化能力。针对文本信息高维度、多类别的问题,提出一种基于快... 正则化极限学习机RELM是一种单隐层前馈神经网络,不同于传统神经网络算法,RELM通过随机设置输入层权重和偏置值,可以快速求得输出层权重,并且引入正则化因子,能够提高模型的泛化能力。针对文本信息高维度、多类别的问题,提出一种基于快速自编码的正则化极限学习机FARELM。将由RELM改进后的快速自编码神经网络对样本进行无监督特征学习,并对特征提取后的数据使用RELM进行分类。实验表明,FA-RELM的学习速度和分类精度较优。 展开更多
关键词 文本分类 特征提取 自动编码器 正则化极限学习机
在线阅读 下载PDF
基于极限学习机的自动化图书信息分类技术 被引量:3
6
作者 潘辉 《现代电子技术》 北大核心 2019年第17期183-186,共4页
针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通... 针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。 展开更多
关键词 图书分类 机器学习 极限学习机 文本表示 TF-IDF 特征选择 图书语料测试
在线阅读 下载PDF
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型 被引量:5
7
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
在线阅读 下载PDF
基于流形正则化极限学习机的文本分类算法研究 被引量:6
8
作者 庞皓明 冀俊忠 +1 位作者 刘金铎 姚垚 《计算机工程》 CAS CSCD 北大核心 2019年第6期242-248,共7页
基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特... 基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特征映射保持输入文本特征的几何结构。基于样本的类别信息对样本点之间的距离进行修正,优先选择类别相同的样本点,以改善分类性能。在Reuters和20newsgroup数据集上的实验结果表明,与正则化极限学习机算法、AdaBELM算法等相比,该算法分类性能较好,F1-measure值可达91.42%。 展开更多
关键词 文本分类 监督学习 正则化极限学习机 流形正则化 特征映射
在线阅读 下载PDF
层级标签语义引导的极限多标签文本分类策略 被引量:3
9
作者 王嫄 徐涛 +2 位作者 王世龙 周宇博 史艳翠 《中文信息学报》 CSCD 北大核心 2021年第10期110-118,共9页
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练... 极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。 展开更多
关键词 极限多标签文本分类 层级标签 弱监督语义指导
在线阅读 下载PDF
基于极限学习机的中文文本分类方法 被引量:5
10
作者 程东生 范广璐 +2 位作者 俞雯静 伍飞 曾伟波 《重庆理工大学学报(自然科学)》 CAS 北大核心 2018年第8期156-164,205,共10页
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经... 针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。 展开更多
关键词 中文文本分类 极限学习机 特征融合 单隐层神经网络 电网档案管理系统
在线阅读 下载PDF
采用平衡函数的大规模多标签文本分类 被引量:1
11
作者 陈钊鸿 洪智勇 +1 位作者 余文华 张昕 《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页
大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方... 大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 展开更多
关键词 自然语言处理 大规模多标签文本分类 BERT 平衡函数 深度学习
在线阅读 下载PDF
面向法院电子卷宗的文本分类方法研究 被引量:1
12
作者 王霄 万玉晴 《计算机应用与软件》 北大核心 2024年第6期101-107,133,共8页
针对法院电子卷宗文本分类的主要问题,给出相应解决方案。提出卷宗文件的多维度语义表示方法,得到更准确全面的文本特征信息;使用基于高斯核的KELM(Kernel Extreme Learning Machine)学习文本分类器,获取全局最优解的同时大幅提高训练效... 针对法院电子卷宗文本分类的主要问题,给出相应解决方案。提出卷宗文件的多维度语义表示方法,得到更准确全面的文本特征信息;使用基于高斯核的KELM(Kernel Extreme Learning Machine)学习文本分类器,获取全局最优解的同时大幅提高训练效率;使用基于RLS(Recursive Least Squares)的序列优化模型KOS-ELM,通过新样本对模型参数迭代更新,使分类模型具备在线自学习的能力,减少了对初始样本的依赖。对比实验证明,基于高斯核的KELM分类模型在正确率上比BP网络模型和LSSVM分别提高了2.66百分点和4.43百分点,但训练时间只有两者的1/6和1/10;采用多维度语义表示方法为模型提供输入,在正确率上比文本向量和词向量表示方法分别提高了8.84百分点和2.33百分点;采用基于RLS的序列优化模型KOS-ELM对弱分类器进行迭代优化,以4种不同步长迭代20次后,分类正确率均得到显著提升。 展开更多
关键词 法院电子卷宗 文本分类 语义表示 核极限学习机 递归最小二乘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部