期刊文献+
共找到253篇文章
< 1 2 13 >
每页显示 20 50 100
基于卷积神经网络和多标签分类的复杂结构损伤诊断 被引量:1
1
作者 李书进 杨繁繁 张远进 《建筑科学与工程学报》 北大核心 2025年第1期101-111,共11页
为研究复杂空间框架节点损伤识别问题,利用多标签分类的优势,构建了多标签单输出和多标签多输出两种卷积神经网络模型,用于框架结构节点损伤位置的判断和损伤程度诊断。针对复杂结构损伤位置判断时工况多、识别准确率不高等问题,提出了... 为研究复杂空间框架节点损伤识别问题,利用多标签分类的优势,构建了多标签单输出和多标签多输出两种卷积神经网络模型,用于框架结构节点损伤位置的判断和损伤程度诊断。针对复杂结构损伤位置判断时工况多、识别准确率不高等问题,提出了一种能对结构进行分层(或分区)处理并同时完成损伤诊断的多标签多输出卷积神经网络模型。分别构建了适用于多标签分类的浅层、深层和深层残差多输出卷积神经网络模型,并对其泛化性能进行了研究。结果表明:提出的模型具有较高的损伤诊断准确率和一定的抗噪能力,特别是经过分层(分区)处理后的多标签多输出网络模型更具高效性,有更快的收敛速度和更高的诊断准确率;利用多标签多输出残差卷积神经网络模型可以从训练工况中提取到足够多的损伤信息,在面对未经过学习的工况时也能较准确判断各节点的损伤等级。 展开更多
关键词 损伤诊断 卷积神经网络 多标签分类 框架结构 深度学习
在线阅读 下载PDF
面向长尾分布的民众诉求层次多标签分类模型 被引量:1
2
作者 刘昕 杨大伟 +3 位作者 邵长恒 王海文 庞铭江 李艳茹 《计算机应用》 北大核心 2025年第1期82-89,共8页
接诉即办是实现社会治理智能化、提高人民满意度的重要举措,其中精准分析民众诉求智能匹配工单处理部门,实现诉求的快速响应、高效办理尤为关键;然而,民众诉求数据中的诉求描述不清晰、类别混淆且比例失衡会导致诉求类别分析困难,影响... 接诉即办是实现社会治理智能化、提高人民满意度的重要举措,其中精准分析民众诉求智能匹配工单处理部门,实现诉求的快速响应、高效办理尤为关键;然而,民众诉求数据中的诉求描述不清晰、类别混淆且比例失衡会导致诉求类别分析困难,影响了智能派单的效率与准确性。针对上述问题,提出编解码器结构的诉求层次多标签分类模型(HMCHotline)。首先,在文本编码器中引入诉求领域中的细粒度关键词先验知识以抑制噪声干扰,并融合诉求的时空信息提高语义特征的判别力;其次,利用标签层次结构生成具有层次与语义感知的标签嵌入,并构建基于Transformer模型的标签解码器,利用诉求的语义特征和标签嵌入进行标签解码;同时,在标签的层级依赖关系基础上引入动态标签表策略限制标签的解码范围,以解决标签不一致问题;最后,采用Softmax分组策略将样本数量相近的标签类别分为同组进行Softmax操作,从而缓解由标签长尾分布导致的分类准确率低的问题。在Hotline、RCV1(Reuters Corpus VolumeⅠ)-v2和WOS(Web Of Science)数据集上的实验结果表明,相较于层次感知的标签语义匹配网络(HiMatch),所提模型的Micro-F1分别提高了1.65、2.06和0.43个百分点,验证了模型的有效性。 展开更多
关键词 接诉即办 智能派单 层次多标签分类 先验知识 长尾分布 编解码器
在线阅读 下载PDF
基于多模态的缺陷绝缘子图像的多标签分类 被引量:3
3
作者 周景 王满意 田兆星 《高电压技术》 北大核心 2025年第2期642-651,共10页
对巡检图像中绝缘子缺陷准确分类是输电线路自动巡检领域中的关键技术之一。针对传统深度学习的分类方法对文本信息利用不够充分以及绝缘子图像分类标签较为单一的问题,该文首次提出了一种基于多模态的缺陷绝缘子图像的多标签分类方法... 对巡检图像中绝缘子缺陷准确分类是输电线路自动巡检领域中的关键技术之一。针对传统深度学习的分类方法对文本信息利用不够充分以及绝缘子图像分类标签较为单一的问题,该文首次提出了一种基于多模态的缺陷绝缘子图像的多标签分类方法。首先,采用一种多模态联合数据增强方法,实现了绝缘子图像和标签文本间跨模态的数据增强。然后,使用Vision Transformer网络提取图像的特征信息和BERT网络提取标签文本的特征信息,充分利用图像和标签文本的特征信息,从不同模态获取全面的信息,提高了网络的分类能力。最后,通过对比学习的方式将图像和文本的特征信息关联,增强网络分类的可靠性的同时,又为分类结果提供了良好的可解释性。实验结果表明,该方法的分类总体准确率达到93.87%,在同一数据集中对比其他模型,分类性能具有明显优势,为多模态技术在电网领域的应用提供了较好的基础。 展开更多
关键词 绝缘子图像 多标签分类 多模态 对比学习 数据增强
在线阅读 下载PDF
基于多标签关系图和局部动态重构学习的多标签分类模型
4
作者 胡婕 郑启扬 +1 位作者 孙军 张龑 《计算机应用》 北大核心 2025年第4期1104-1112,共9页
在多标签分类任务中,现有模型对依赖关系的构建主要考虑标签在训练集中是否共现,而忽视了标签之间各种不同类型的关系以及在不同样本中的动态交互关系。因此,结合多标签关系图和局部动态重构图学习更完整的标签依赖关系。首先,根据标签... 在多标签分类任务中,现有模型对依赖关系的构建主要考虑标签在训练集中是否共现,而忽视了标签之间各种不同类型的关系以及在不同样本中的动态交互关系。因此,结合多标签关系图和局部动态重构图学习更完整的标签依赖关系。首先,根据标签的全局共现关系,采用数据驱动的方式构建多标签关系图,学习标签之间不同类型的依赖关系;其次,通过标签注意力机制探索文本信息和标签语义的关联性;最后,对标签图进行动态重构学习,以捕获标签之间的局部特定关系。在3个公开数据集BibTeX、Delicious和Reuters-21578上的实验结果表明,所提模型的宏平均F1(maF1)值相较于MrMP(Multi-relation Message Passing)分别提高了1.6、1.0和2.2个百分点,综合性能得到提升。 展开更多
关键词 多标签分类 多标签关系图 标签依赖关系 局部动态重构图 标签注意力机制
在线阅读 下载PDF
探索信息资源管理的跨学科性:基于多标签分类的分析 被引量:3
5
作者 刘清民 王芳 《情报学报》 北大核心 2025年第1期75-92,共18页
当代社会面临着复杂、多元且相互关联的问题,传统学科的单一视角难以全面解决。跨学科研究通过整合多学科的知识、理论、方法和技术,为解决复杂问题提供了新的路径。为揭示信息资源管理研究的跨学科趋势和特点,本文以中图分类号为学科... 当代社会面临着复杂、多元且相互关联的问题,传统学科的单一视角难以全面解决。跨学科研究通过整合多学科的知识、理论、方法和技术,为解决复杂问题提供了新的路径。为揭示信息资源管理研究的跨学科趋势和特点,本文以中图分类号为学科分类依据,针对文献作者自标注存在的中图分类号不准确的问题,采用大语言模型进行数据增强优化,并基于BERT-CNN算法对中图分类号进行修正,对信息资源管理领域的文献进行系统分析。在跨学科多样性方面,构建了包容性与渗透性两个新指标,衡量学科间的知识吸纳能力与扩散影响力。利用中图分类号对高频持续性交叉研究主题和递增新兴热点主题进行挖掘分析,揭示了健康信息学、数字人文等新兴领域的快速发展以及学科间的持续交叉研究。研究结果表明,信息资源管理领域呈现丰富多元的学科格局,各学科之间联系紧密、相互影响,其发展是多学科交叉融合的结果。跨学科研究在信息资源管理领域发挥着重要作用并且呈现增长趋势,指导性二级学科的设置在理论基础、实践应用和跨学科合作方面都体现了一定的合理性和有效性。 展开更多
关键词 多标签分类 跨学科 信息资源管理 中图分类
在线阅读 下载PDF
基于图神经网络增强句嵌入的中医文献多标签分类方法研究 被引量:2
6
作者 陈靖耀 李敬华 于彤 《世界科学技术-中医药现代化》 北大核心 2025年第2期420-430,共11页
目的提出一种使用图神经网络增强句嵌入的中医文献多标签分类方法,能够有效获取相似文章之间的关联,通过与文本语义信息的相互融合,提高分类性能。方法获取论文句嵌入数据,建立中医文献异构网络,通过图神经网络GraphSAGE模型学习论文在... 目的提出一种使用图神经网络增强句嵌入的中医文献多标签分类方法,能够有效获取相似文章之间的关联,通过与文本语义信息的相互融合,提高分类性能。方法获取论文句嵌入数据,建立中医文献异构网络,通过图神经网络GraphSAGE模型学习论文在异构网络上的表征信息和自身的句嵌入信息,将得到的特征向量输入模型进行多标签分类。结果在中医文献数据集下,基于图神经网络的模型的多标签分类精确率和F1值,达到了0.83与0.72,优于主流基线模型。结论本文提出的方法在中医文献多标签分类任务中具有有效性。 展开更多
关键词 多标签分类 样本不均衡 中医文献异构网络 图神经网络
在线阅读 下载PDF
基于XGBoost特征筛选和决策树多标签分类的配电网拓扑辨识方法 被引量:3
7
作者 张丽 王建 +3 位作者 许守东 张敏春 李邦源 唐一恒 《电网与清洁能源》 北大核心 2025年第2期10-21,共12页
针对配电网中开关状态遥信丢失或延迟导致配电网拓扑不准的问题,通过引入遥测信息进行开关状态的补全与校正,提出了一种基于极限梯度提升算法(extreme gradient boosting,XGBoost)的特征筛选和决策树多标签分类的配电网拓扑辨识方法。利... 针对配电网中开关状态遥信丢失或延迟导致配电网拓扑不准的问题,通过引入遥测信息进行开关状态的补全与校正,提出了一种基于极限梯度提升算法(extreme gradient boosting,XGBoost)的特征筛选和决策树多标签分类的配电网拓扑辨识方法。利用XGBoost筛选出最相关、最具信息量的量测数据,在保证拓扑辨识准确度的同时大幅度减轻模型计算负担;以筛选的遥测特征和原始遥信开关状态数据为输入变量,以配电网开关状态为输出,构造了基于决策树的多标签分类模型,用于配电网拓扑辨识。在改进的IEEE 34节点配电系统中进行了算例测试。仿真结果表明:所提方法适用于多分布式电源接入的配电网拓扑辨识,具有很好的抗遥测噪声干扰能力;相比其他同类算法,所提方法的辨识准确性更高、计算耗时更少。 展开更多
关键词 配电网 拓扑辨识 特征筛选 多标签分类
在线阅读 下载PDF
细粒度南海数字资源多标签分类算法的比较与应用 被引量:2
8
作者 彭玉芳 郑研 杨海平 《情报杂志》 北大核心 2025年第1期180-186,197,共8页
[研究目的]面对海量多模态的南海数字资源,数据分类在构建南海证据链关联模型中起着至关重要的作用。通过系统地分类和整理数据,可以揭示资源之间的潜在关联,为后续的数据处理和分析提供坚实依据。[研究方法]应用文献计量工具COOC,全面... [研究目的]面对海量多模态的南海数字资源,数据分类在构建南海证据链关联模型中起着至关重要的作用。通过系统地分类和整理数据,可以揭示资源之间的潜在关联,为后续的数据处理和分析提供坚实依据。[研究方法]应用文献计量工具COOC,全面描述南海数字资源和数据分类的研究现状。从409篇南海数字资料中抽取21174条细粒度南海数字资源,分别应用并比较RNN、CNN、DNN、LSTM、Bi-LSTM、Attention、BERT模型的细粒度多标签分类效果。最后,使用知识图谱技术实现细粒度南海数字资源的分类检索和可视化。[研究结果/结论]基于BERT的细粒度南海数字资源多标签分类效果最佳。同时,知识图谱能够直观展示南海数字资源的分类关系。该研究为后续的南海数字资源管理和多标签分类应用提供了坚实的理论支持和技术保障。 展开更多
关键词 南海数字资源 多标签分类 细粒度 深度学习 知识图谱
在线阅读 下载PDF
矿井通风系统多巷道阻变故障诊断多标签分类CNN模型 被引量:1
9
作者 沈志远 王棋正 赵丹 《安全与环境学报》 北大核心 2025年第5期1822-1828,共7页
针对当前通风系统阻变故障诊断方法难以应对多条巷道同时故障的问题,提出了一种多标签分类卷积神经网络(Multi-Label Classification Convolutional Neural Network,MLC-CNN)模型,用于实现矿井通风系统在多巷道同时发生阻变故障时的快... 针对当前通风系统阻变故障诊断方法难以应对多条巷道同时故障的问题,提出了一种多标签分类卷积神经网络(Multi-Label Classification Convolutional Neural Network,MLC-CNN)模型,用于实现矿井通风系统在多巷道同时发生阻变故障时的快速诊断。该方法将多巷道故障诊断转化为多标签分类问题,结合卷积神经网络(Convolutional Neural Networks,CNN)模型,深入挖掘不同巷道故障数据间的相关性,从而实现多巷道阻变故障的精准判识。以T形角联网络和东山煤矿通风系统为例进行了试验研究,并对CNN与MLC-CNN模型进行了对比分析。结果表明,MLC-CNN模型在矿井通风系统多巷道阻变故障诊断中表现出色,在两条巷道故障和三条巷道故障工况下,MLC-CNN的诊断准确率分别为89.76%和80.29%,相比于传统CNN模型,分别提升了5.44百分点和12.28百分点。 展开更多
关键词 安全工程 矿井通风 故障诊断 多标签分类 卷积神经网络
在线阅读 下载PDF
基于标签感知变分自编码器的多标签分类
10
作者 孙宏健 徐鹏宇 +2 位作者 刘冰 景丽萍 于剑 《计算机科学与探索》 北大核心 2025年第3期714-723,共10页
随着互联网的兴起,各式各样的数据急速增长,如何高效地利用这些样本数据成为数据挖掘领域的重要问题。多标签分类任务作为机器学习与数据挖掘领域的重要任务,旨在为样本标注多个标签类别。目前的方法大多仅对特征分支进行嵌入表示学习,... 随着互联网的兴起,各式各样的数据急速增长,如何高效地利用这些样本数据成为数据挖掘领域的重要问题。多标签分类任务作为机器学习与数据挖掘领域的重要任务,旨在为样本标注多个标签类别。目前的方法大多仅对特征分支进行嵌入表示学习,并未考虑到特征和标签之间的语义关联性,缺乏对特征嵌入空间的有效约束,从而导致学习到的特征嵌入针对性不足。在标签相关性学习方面,现有的大多数方法主要关注低阶标签相关性,在面对复杂的实际标签场景时,多个标签之间的高阶相关性学习不足的问题变得更为突出。为解决上述问题,从嵌入表示学习和标签相关性学习出发,提出了一种基于标签感知变分自编码器的多标签分类方法。针对嵌入表示学习,提出使用特征和标签双流变分自编码器同时学习和对齐特征和标签的嵌入空间,对特征嵌入空间添加标签引导来增强特征嵌入。采用基于标签语义的交叉注意力机制,将特定标签信息加入到特征嵌入中,最终获得标签感知后的判别性特征嵌入。针对标签相关性学习,采用共享解码器中的多层自注意力机制,充分融合多个标签的相似性信息,通过不同标签间的共现交互,学习到标签高阶相关性表示并用于交叉感知特征嵌入。在四个不同领域的数据集上得到的实验结果表明,提出的方法能够有效增强特征和标签嵌入,并充分捕获标签之间高阶相关性信息用于多标签分类任务,通过与多个最先进算法在多个评价指标上进行比较分析,验证了提出的方法在性能上的显著优越性。 展开更多
关键词 多标签分类 嵌入空间学习 变分自动编码器 TRANSFORMER 标签相关性
在线阅读 下载PDF
麻醉恢复室内多种并发症的可解释多标签分类预测模型
11
作者 马国婷 贾晓琴 +2 位作者 张东 王玲凯 阎文军 《临床麻醉学杂志》 北大核心 2025年第8期789-796,共8页
目的探讨麻醉恢复室内多种并发症的发生情况及其相关风险因素,构建并验证可解释的多标签分类预测模型。方法选择2023年11月至2024年10月择期全身麻醉下手术后转入麻醉恢复室的患者10313例,男5416例,女4897例,年龄≥18岁,按7∶3比例随机... 目的探讨麻醉恢复室内多种并发症的发生情况及其相关风险因素,构建并验证可解释的多标签分类预测模型。方法选择2023年11月至2024年10月择期全身麻醉下手术后转入麻醉恢复室的患者10313例,男5416例,女4897例,年龄≥18岁,按7∶3比例随机划分为训练集(n=7220)和验证集(n=3093)。持续监测和评估患者是否发生呼吸系统不良事件、低体温、血流动力学不稳定、恶心/呕吐、躁动/谵妄、疼痛及非疼痛症状7类麻醉恢复室常见并发症。采用多标签分类学习技术在训练集中构建二进制相关性、分类器链、集成分类器链和多标签k近邻4种预测模型,并在验证集中通过汉明损失、准确度、精确度、召回率和F1分数评估模型性能。通过Shapley加法解释对表现最佳的模型进行全局和局部的可解释性分析。结果有4854例(47.1%)患者至少发生一种并发症,2723例(26.4%)患者同时出现两种或以上并发症。年龄≥65岁、女性、BMI≥28 kg/m^(2)、麻醉时间≥4 h及术后镇痛是预测麻醉恢复室并发症的5个关键特征。分类器链模型表现最佳,汉明损失为0.119、准确度为0.881、精确度为0.888、召回率为0.987以及F1分数为0.934。结论结合可解释性方法的多标签分类模型能够有效预测麻醉恢复室内并发症,并揭示各并发症的特定风险因素,为术后早期并发症的综合管理提供可预测、可操作的方法。 展开更多
关键词 麻醉恢复室 多标签分类 可解释性 风险因素 联合预测
在线阅读 下载PDF
基于多层语言特征的辞格多标签分类方法研究
12
作者 黄欢 李宝安 +2 位作者 张凯 滕尚志 吕学强 《中文信息学报》 北大核心 2025年第8期31-41,共11页
多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞... 多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞格分类模型,该模型利用BERT提取修辞文本的字粒度语义向量,通过句法依存树和图卷积神经网络提取词粒度语法、语义向量并进行交互融合。将字粒度向量表示、词粒度向量表示拼接,并通过自注意力机制捕获两者间的语义信息,利用注意力机制融合文本信息和标签信息实现分类。实验表明,该模型在公开数据集AAPD和构建的辞格数据集CRTD上与其他模型相比具有更好的辞格多标签分类性能,在F1评价指标上分别提升了3%和2%。 展开更多
关键词 多标签分类 辞格识别 句法依存分析 文本标签融合
在线阅读 下载PDF
基于稀疏正则化的加权叠加集成多标签分类
13
作者 肖建芳 刘缅芳 《计算机应用与软件》 北大核心 2024年第5期286-297,共12页
为了充分挖掘成对标签的相关性以及分类器权重与分类器选择之间的关系,提出一种基于稀疏正则化的加权叠加集成多标签分类方法。提出一个稀疏正则化的加权叠加集成模型,以便于多标签分类器的选择和集成成员的构建。利用分类器权值和标签... 为了充分挖掘成对标签的相关性以及分类器权重与分类器选择之间的关系,提出一种基于稀疏正则化的加权叠加集成多标签分类方法。提出一个稀疏正则化的加权叠加集成模型,以便于多标签分类器的选择和集成成员的构建。利用分类器权值和标签相关性来提高分类性能。进一步提出基于加速近端梯度和块坐标下降技术的优化算法来有效地获得最优解。在多个数据集上的实验结果表明,该方法能够有效实现较高精度的多标签分类。 展开更多
关键词 多标签分类 相关性 稀疏正则化 权值
在线阅读 下载PDF
基于Stacking模型的学术论文多标签分类系统构建
14
作者 刘爱琴 郭少鹏 《国家图书馆学刊》 CSSCI 北大核心 2024年第2期96-104,共9页
学术论文高质量多标签自动分类是推动学术研究发展的关键程序之一。本研究利用Stacking模型将随机森林、支持向量机、极限树、极端梯度提升和神经网络五个分类器融合为一个异质集成分类器,并利用基于问题转换思想的多二分类模型将该分... 学术论文高质量多标签自动分类是推动学术研究发展的关键程序之一。本研究利用Stacking模型将随机森林、支持向量机、极限树、极端梯度提升和神经网络五个分类器融合为一个异质集成分类器,并利用基于问题转换思想的多二分类模型将该分类器应用于学术论文多标签分类。根据学术论文的特点,依次实现了与之配套的论文特征提取模块、TF-IDF加权模块、数据预处理模块,最终构建成一个面向学术论文的多标签分类系统。仿真实验验证了本研究构建的学术论文多标签分类系统在处理学术论文多标签分类问题时,较传统的单模型分类器或同质集成模型分类器在泛化能力、稳定性与准确率方面都有一定程度的提升。图9。参考文献21。 展开更多
关键词 论文分类 Stacking模型 多标签分类 多二分类模型
在线阅读 下载PDF
面向投稿选刊的学术论文多标签分类研究 被引量:2
15
作者 江天明 郑国杰 +1 位作者 王晴 曹高辉 《现代情报》 CSSCI 北大核心 2024年第1期48-56,108,共10页
[目的/意义]学术论文投稿中面临期刊选择多样性和拒稿重投问题,研究利用深度学习和多标签分类技术,基于论文题录信息给出多标签的投稿选刊建议。[方法/过程]选取情报学领域8种CSSCI期刊近20年的论文作为样本,采用TextCNN、TextRNN等深... [目的/意义]学术论文投稿中面临期刊选择多样性和拒稿重投问题,研究利用深度学习和多标签分类技术,基于论文题录信息给出多标签的投稿选刊建议。[方法/过程]选取情报学领域8种CSSCI期刊近20年的论文作为样本,采用TextCNN、TextRNN等深度学习模型和预训练语言模型BERT构建多标签分类方法进行实验,并对比不同特征组合和多标签设置策略下的实验效果。[结果/结论]多标签分类能够反映学术论文对不同期刊的适合度,预训练语言模型BERT表现最佳,F1达到68.99%。 展开更多
关键词 投稿选刊 多标签分类 深度学习 自然语言处理
在线阅读 下载PDF
基于多标签分类与卷积神经网络的配电网拓扑辨识 被引量:6
16
作者 龙寰 石子晴 +3 位作者 赵景涛 郑舒 张晓燕 谢文强 《高电压技术》 EI CAS CSCD 北大核心 2024年第10期4520-4529,共10页
为适应新一代配电网运行特性,配电网开关需频繁动作调整网络结构,难以及时、准确获取配电网的实时拓扑结构,给配电网的态势感知带来一定困难。鉴于传统以状态估计为框架的配电网拓扑识别方法计算复杂度高、在线应用困难,同时大规模配电... 为适应新一代配电网运行特性,配电网开关需频繁动作调整网络结构,难以及时、准确获取配电网的实时拓扑结构,给配电网的态势感知带来一定困难。鉴于传统以状态估计为框架的配电网拓扑识别方法计算复杂度高、在线应用困难,同时大规模配电网拓扑结构多样化,该文提出了基于多标签分类与卷积神经网络的配电网拓扑辨识方法。通过配电网量测电压数据与开关状态间的多映射关系,引入多标签分类机制,对配电网拓扑结构进行多标签编码,将配电网开关与拓扑辨识模型输出进行物理映射,利用卷积神经网络搭建多标签分类器,实现拓扑的准确辨识。基于改进的IEEE 123节点配电网算例对所提方法进行验证,实验结果表明:所提模型具有较高的拓扑识别准确率,且对于在训练样本空间外的未知拓扑结构,其具备更好的推理能力,更适用于实际拓扑识别的场景,证实了所提方法的优越性和鲁棒性。 展开更多
关键词 配电网 拓扑辨识 多标签分类 CNN 知识外推
在线阅读 下载PDF
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法 被引量:7
17
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 Bert模型 TextCNN模型
在线阅读 下载PDF
一种半监督金融事件多标签分类方法
18
作者 杨卓峰 李旸 李德玉 《数据采集与处理》 CSCD 北大核心 2024年第2期385-394,共10页
随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文... 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。 展开更多
关键词 金融文本 金融事件 多标签分类 半监督方法 注意力机制
在线阅读 下载PDF
结合文本聚类和多标签分类的学科交叉主题早期识别方法 被引量:2
19
作者 冯岭 《情报杂志》 CSSCI 北大核心 2024年第8期160-169,共10页
[研究目的]以专利为研究数据,提出一种结合文本聚类和多标签分类的学科交叉主题早期识别方法。[研究方法]以“量子计算”作为研究领域,通过基于聚类结果的筛选和基于多标签分类的筛选等两种方法将大量非学科交叉专利从专利集合中过滤,... [研究目的]以专利为研究数据,提出一种结合文本聚类和多标签分类的学科交叉主题早期识别方法。[研究方法]以“量子计算”作为研究领域,通过基于聚类结果的筛选和基于多标签分类的筛选等两种方法将大量非学科交叉专利从专利集合中过滤,进而在学科交叉专利占比较高的小数据集上采用主题识别方法实现学科交叉主题的早期识别。随后,在德温特专利数据集上进行实证研究,验证了所提出方法的有效性。[研究结论]研究发现了“量子加密技术”和“量子计算技术与量子计算机”等学科交叉主题。与已有方法相比,提出的识别方法可以在交叉领域尚处于萌芽期或成长期、相关文献数量较少的情况下,发现文献集合中的学科交叉主题。 展开更多
关键词 专利数据 学科交叉主题 早期识别 多标签分类 学科交叉专利 文本聚类 量子计算
在线阅读 下载PDF
基于RoBERTa和集中注意力机制的营商政策多标签分类
20
作者 陈昊飏 《计算机应用》 CSCD 北大核心 2024年第S01期44-48,共5页
为了满足营商政策多标签分类的社会需求,解决使用擅长文本分类、但输入受限的大语言预训练模型进行长文本分类的难题,提出一种基于RoBERTa模型和集中注意力机制的方法,更好地提取语义集中区域的信息表征,对营商政策文本进行有效的多标... 为了满足营商政策多标签分类的社会需求,解决使用擅长文本分类、但输入受限的大语言预训练模型进行长文本分类的难题,提出一种基于RoBERTa模型和集中注意力机制的方法,更好地提取语义集中区域的信息表征,对营商政策文本进行有效的多标签分类。首先,对数据清洗和分析后,得到一定的先验知识:营商政策文本的语义表征集中在文本标题与开篇部分。其次,在文本输入层和向量表示层中,构建集中注意力机制对文本和向量进行处理,增强模型在训练中对语义集中区域的注意力,提高模型信息表征提取能力,优化长文本分类的效果。实验中爬取政府公开的营商政策文本作为数据集,实验结果表明,营商政策长文本分类的准确率可达0.95,Micro-F1值可达0.91,同时对比实验结果显示,融合RoBERTa和集中注意力机制进行营商政策长文本多标签分类比其他模型效果更好。 展开更多
关键词 多标签分类 长文本 营商政策 RoBERTa 预训练模型 注意力机制
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部