期刊文献+
共找到596篇文章
< 1 2 30 >
每页显示 20 50 100
油气钻井现场工人不安全行为模式研究——基于文本挖掘视角
1
作者 朱林 罗筵疆 +3 位作者 黄思琪 钟赟 唐桃 岑康 《中国安全生产科学技术》 北大核心 2025年第1期146-152,共7页
为加强油气钻井现场安全管理,理解钻井现场工人不安全行为规律,提出基于文本挖掘视角的钻井现场工人不安全行为模式分析框架,以钻井现场工人违章数据为实例进行验证。首先采用频率分析和网络分析方法发现钻井工人高频不安全行为热点,其... 为加强油气钻井现场安全管理,理解钻井现场工人不安全行为规律,提出基于文本挖掘视角的钻井现场工人不安全行为模式分析框架,以钻井现场工人违章数据为实例进行验证。首先采用频率分析和网络分析方法发现钻井工人高频不安全行为热点,其次采用文本社群聚类分析钻井工人不安全行为聚类,最后采用文本关联规则发现和检验典型不安全行为发生模式。研究结果表明:钻井现场工人不安全行为模式包括7个不安全行为社群和66条不安全行为发生模式,其中油气钻井现场系统与外部系统耦合处、班前会议、钻井下钻和钻进作业、登高作业是现场不安全行为监管的脆弱点。研究结果可为钻井现场安全管理优化提供支持,有利于为钻井现场智慧安全治理提供参考。 展开更多
关键词 安全社会工程 不安全行为 智能文本挖掘 油气现场工人 文本聚类 关联规则 行为模式
在线阅读 下载PDF
微信会话文本关键词提取的算法研究
2
作者 王宝会 许卜仁 +1 位作者 李长傲 叶子豪 《计算机科学》 北大核心 2025年第S1期239-246,共8页
微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,... 微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。 展开更多
关键词 文本聚类 文本生成 会话主题聚类 关键词提取
在线阅读 下载PDF
基于情感增强非参数模型的社交媒体观点聚类
3
作者 刘勘 陈昱 何佳瑞 《中文信息学报》 北大核心 2025年第3期148-158,共11页
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该... 观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。 展开更多
关键词 观点分析 短文本流聚类 非参数模型 社交媒体
在线阅读 下载PDF
基于意图正则化的深度半监督文本聚类
4
作者 徐乐 黄瑞章 +1 位作者 白瑞娜 秦永彬 《计算机应用》 北大核心 2025年第7期2145-2152,共8页
针对现有半监督文本聚类方法无法同时在表示学习和聚类过程中考虑用户意图的问题,提出基于意图正则化的深度半监督文本聚类(IRDSTC)模型。通过引入意图正则化策略,设计意图正则化的表示学习(IRRL)模块和意图正则化的聚类(IRC)模块。首先... 针对现有半监督文本聚类方法无法同时在表示学习和聚类过程中考虑用户意图的问题,提出基于意图正则化的深度半监督文本聚类(IRDSTC)模型。通过引入意图正则化策略,设计意图正则化的表示学习(IRRL)模块和意图正则化的聚类(IRC)模块。首先,根据用户提供的意图约束信息构建意图矩阵,以捕获用户对文本之间关系的期望。其次,将该矩阵应用到表示学习阶段和聚类阶段:在表示学习阶段,将深度模型提取的中间层表示转换为表示关联性矩阵,并结合意图矩阵构造正则项,以利用用户意图驱动表示学习;在聚类阶段,根据聚类迭代得到的类簇分配概率构造分配一致性矩阵,并结合意图矩阵构造正则项,以实现用户意图对聚类过程的指导。实验结果表明,IRDSTC模型在Reu-10k、BBC、ACM和Abstract数据集上相较于其他聚类方法在聚类准确率(ACC)、标准化互信息(NMI)和调整兰德指数(ARI)上均具有更好的表现。具体而言,相较于次优模型改进的深度嵌入聚类(IDEC),IRDSTC模型的NMI分别提升了28.26%、32.58%、27.13%和34.94%,表明IRDSTC模型具有更好的聚类效果。 展开更多
关键词 意图 正则化 半监督 文本聚类
在线阅读 下载PDF
基于分布增强的深度变分文本聚类模型
5
作者 申奥 黄瑞章 +2 位作者 薛菁菁 陈艳平 秦永彬 《计算机应用》 北大核心 2025年第8期2457-2463,共7页
针对深度变分文本聚类模型在实际应用中遇到的分布信息缺失和分布坍塌问题,提出一种基于分布增强的深度变分文本聚类模型(DVCMD)。该模型通过分布信息增强的方法,整合增强潜在语义分布至原始潜在语义分布,从而提高潜在分布的信息完整性... 针对深度变分文本聚类模型在实际应用中遇到的分布信息缺失和分布坍塌问题,提出一种基于分布增强的深度变分文本聚类模型(DVCMD)。该模型通过分布信息增强的方法,整合增强潜在语义分布至原始潜在语义分布,从而提高潜在分布的信息完整性和准确性;同时,采用分布一致性约束策略促使模型学习一致的语义表征,从而提高模型通过学习的语义分布对数据真实信息的表达能力,进而提升聚类性能。实验结果表明,与现有的深度聚类模型和结构语义增强聚类模型相比,DVCMD的归一化互信息(NMI)指标在Abstract、BBC、Reuters-10k和BBCSports这4个真实数据集上分别至少提升了0.16、9.01、2.30和2.72个百分点,验证了模型的有效性。 展开更多
关键词 深度文本聚类 分布增强 变分自编码器 语义表征 分布一致性约束
在线阅读 下载PDF
基于关键语义驱动和对比学习的文本聚类方法
6
作者 张士举 郭朝阳 +2 位作者 吴承亮 吴凌俊 杨丰玉 《计算机科学》 北大核心 2025年第8期171-179,共9页
文本聚类是指将大量文本数据按照它们的相似性进行分组的过程,其可以帮助理解文本数据的结构和内容,发现其中的模式和趋势,通常用于信息检索、文档管理等。现有文本聚类模型在信息抽取过程中存在过度依赖原始数据质量和容易造成关键信... 文本聚类是指将大量文本数据按照它们的相似性进行分组的过程,其可以帮助理解文本数据的结构和内容,发现其中的模式和趋势,通常用于信息检索、文档管理等。现有文本聚类模型在信息抽取过程中存在过度依赖原始数据质量和容易造成关键信息提取不充分的问题,而且不同类别的数据在表示空间中会相互重叠。针对以上问题,提出了一种基于关键语义驱动和对比学习的文本聚类方法(KSD-CLTC)。该方法在数据处理环节通过数据增强模块丰富原始数据来提高泛化性,并设计了一个关键语义驱动模块提取文本中的关键词,补足关键语义信息的丢失;在特征提取环节借助预训练模型和自动编码器对数据进行高质量表征;然后,在聚类学习环节借助聚类模块将聚类损失与关键语义驱动模块的重构损失相结合,进一步学习更适用于聚类的特征表示,并利用对比学习模块来实现更好的类别划分效果。实验结果表明,KSD-CLTC在公共数据集和工业数据集上的聚类效果优于对比的聚类算法,相比先进的SCCL方法,其在所有数据集上的ACC平均提高了2.92%,NMI平均提高了1.99%。聚类结果也证明了关键语义驱动模块对文本聚类的重要性。 展开更多
关键词 信息抽取 表示空间 文本聚类 关键语义驱动 对比学习
在线阅读 下载PDF
基于动态主题情感模型的文本聚类算法
7
作者 胡萍 《吉林大学学报(理学版)》 北大核心 2025年第2期528-536,共9页
针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模... 针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模型的文本聚类算法.利用真实新冠疫情Twitter文本数据集进行实验,实验结果表明,该模型的性能优于基线模型,提高了情感特征区分度,使文本主题与对应的情感极性联合生成时间节点,进而使模型有处理时间演化的能力. 展开更多
关键词 动态主题情感模型 文本挖掘 情感标签 时间戳 文本聚类 困惑度
在线阅读 下载PDF
基于IBTM-TMW 的信号设备故障文本聚类方法 被引量:1
8
作者 杨妮 张友鹏 +1 位作者 左静 赵斌 《中国铁道科学》 EI CAS CSCD 北大核心 2024年第6期194-201,共8页
针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留... 针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留动名词处理;其次,在词对的吉布斯采样建模过程中引入词的差异性重要度作为加权因素,利用改进的词对主题模型(IBTM)提升文本主题特征的学习能力,并将词频-改进逆文档频率权重(TF-MIDF)嵌入到Word2vec词向量的生成过程,将词的文本重要性与Word2vec词向量融合,完善文本词特征向量的表示;最后,通过融合文本主题特征向量和词特征向量,增强文本特征的表示能力,并采用K-means++算法进行故障聚类分析。结果表明:同一试验数据集下,所提方法生成的文本特征向量明显优于其他传统模型,其诊断精度达到89.9%,高于K-means,GMM,AGNES和BIRCH等聚类模型(诊断精度分别为78.3%,68.1%,87.9%和81.7%)。该方法可增强故障文本特征与类别间关联关系的识别能力,为基于文本数据驱动的故障诊断提供参考。 展开更多
关键词 故障诊断 主题模型 词向量 权重 文本聚类
在线阅读 下载PDF
基于约束轨迹聚类的事件日志批量修复方法 被引量:2
9
作者 田银花 李昕燃 +3 位作者 武于皓 韩咚 杜玉越 王路 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2797-2808,共12页
企业业务运行过程中会产生大量的事件日志,事件日志是业务过程挖掘、监控和优化的基础和保障。然而,原始的事件日志由于缺乏结构及过于灵活导致难以直接应用于过程挖掘,对事件日志进行修复势在必行。现有日志修复方法需要结合过程模型... 企业业务运行过程中会产生大量的事件日志,事件日志是业务过程挖掘、监控和优化的基础和保障。然而,原始的事件日志由于缺乏结构及过于灵活导致难以直接应用于过程挖掘,对事件日志进行修复势在必行。现有日志修复方法需要结合过程模型逐条检查轨迹,并对各类异常行为采用不同策略进行修复,导致修复效率低下、适用性不强。针对上述问题,利用轨迹聚类方法,结合文本相似度指标,提出一种基于约束轨迹聚类的批量日志修复方法。该方法通过对轨迹聚类的每个步骤施加约束条件,使得单个簇包含作为簇中心的拟合轨迹以及与该拟合轨迹相似的异常轨迹,且中心轨迹即为异常轨迹的修复结果。该方法不但无需分析异常行为,直接获得修复后的拟合轨迹,而且实现了对于异常轨迹的批量修复。实验表明,该方法在脱离过程模型并保证高修复准确率的前提下,能够在噪音过滤之后,有效且高效地对事件日志进行批量修复。 展开更多
关键词 轨迹聚类 文本相似度 日志修复 事件日志 噪音过滤
在线阅读 下载PDF
聚焦热度变化、主题动态与情感趋势的微博舆情演化研究 被引量:3
10
作者 王虎 吴浩伟 江长斌 《情报杂志》 CSSCI 北大核心 2024年第11期144-151,128,共9页
[研究目的]系统探讨微博舆情事件的演化特征,以提出针对性的对策建议,避免网络舆情扩散所可能引发的不利影响。[研究方法]为实现该目的,提出了基于CNN-BiLSTM-Attention的微博舆情多维特征演化分析框架,以深入剖析网络舆情的形成机制,... [研究目的]系统探讨微博舆情事件的演化特征,以提出针对性的对策建议,避免网络舆情扩散所可能引发的不利影响。[研究方法]为实现该目的,提出了基于CNN-BiLSTM-Attention的微博舆情多维特征演化分析框架,以深入剖析网络舆情的形成机制,进而优化对网络舆情的应对和处理策略。[研究结论]根据选取的事件从新浪微博获取数据,基于TF-IDF模型和K-Means聚类算法对微博舆情事件进行了维度划分,通过组合模型CNN-BiLSTM-Attention进行情感分类,并验证其准确性。最后,根据维度划分和情感分类的结果,结合舆情生命周期理论,从舆情热度、主题和情感三个方面研究了微博舆情事件的演化情况,并从生命周期和主题情感两方面得出网络舆情应对策略。 展开更多
关键词 网络舆情 舆情演化 情感分析 神经网络 聚类算法 文本分析 微博
在线阅读 下载PDF
基于文本挖掘的跑鞋用户评价及情感分析 被引量:4
11
作者 罗向东 强威 +1 位作者 张希莹 吴梦 《丝绸》 CAS CSCD 北大核心 2024年第6期108-119,共12页
为了挖掘消费者在线购买跑鞋时的关注信息,文章用大数据分析视角,以“京东商城”为例按照销量排序分析了前600款跑鞋品牌定位、价格分布、优惠信息、标签占比,使用LDA模型对10万条跑鞋在线评论进行文本挖掘,对商品评论数据进行词频共现... 为了挖掘消费者在线购买跑鞋时的关注信息,文章用大数据分析视角,以“京东商城”为例按照销量排序分析了前600款跑鞋品牌定位、价格分布、优惠信息、标签占比,使用LDA模型对10万条跑鞋在线评论进行文本挖掘,对商品评论数据进行词频共现分析、主题聚类与情感分析,从品牌、技术和售后服务的维度分析了问题的原因并提出相关建议。研究表明:国产品牌跑鞋在各价位段布局完整,销量高的跑鞋多使用满减和商品券,自营和优惠券标签对跑鞋购买具较为显著的促进作用;消费者购买跑鞋时主要关注外观细节、功能属性、性价比、穿着感受、服务优惠等方面。 展开更多
关键词 跑鞋 文本挖掘 LDA模型 聚类分析 情感分析
在线阅读 下载PDF
谱聚类和Apriori算法在建筑坍塌事故致因组合分析中的应用 被引量:4
12
作者 李珏 蒋敏 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期617-625,共9页
建筑坍塌事故是人员伤亡和经济损失较大的事故类型之一。为探究建筑坍塌事故不同致因之间的关联和相互依存关系,首先,选取国内2015—2020年231份建筑坍塌事故报告作为研究对象,借助R语言平台进行文本挖掘,得到43个致因。其次,运用Pytho... 建筑坍塌事故是人员伤亡和经济损失较大的事故类型之一。为探究建筑坍塌事故不同致因之间的关联和相互依存关系,首先,选取国内2015—2020年231份建筑坍塌事故报告作为研究对象,借助R语言平台进行文本挖掘,得到43个致因。其次,运用Python进行谱聚类,根据致因之间的关联强度对其进行聚类。最后,利用关联规则挖掘Apriori算法确定建筑坍塌事故致因之间的关键关联组合。结果表明,43个事故致因可分为5类,在每一个簇类中确定了最关键的致因组合,并提出了针对性的预防措施,为坍塌事故的预防和控制提供一种新的思路。 展开更多
关键词 安全社会工程 建筑施工 坍塌事故 文本挖掘 谱聚类 APRIORI算法
在线阅读 下载PDF
半监督SBERT-SP微博热点话题检测方法 被引量:1
13
作者 李彦 邓宇浩 《计算机工程与设计》 北大核心 2024年第11期3329-3336,共8页
在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass cluste... 在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass clustering,Semi-SBERT-SP)的微博热点话题检测方法,将SBERT模型结合半监督训练,提高其短文本特征提取能力。在聚类阶段过程中引入时间窗口和降维,提高算法效率,增加一个合并层,处理算法产生的小簇。在话题表示层,提出一种融入词热度的词贡献指标,用于提取话题簇中的关键词。实验结果表明,该方法在准确率、F1、互信息3个指标上均优于对比模型或方法,能够有效检测出微博中包含的热点话题。 展开更多
关键词 微博 话题检测 短文本 预训练模型 监督学习 孪生网络 单遍聚类
在线阅读 下载PDF
基于事件表示和对比学习的深度事件聚类方法 被引量:2
14
作者 蒋小霞 黄瑞章 +2 位作者 白瑞娜 任丽娜 陈艳平 《计算机应用》 CSCD 北大核心 2024年第6期1734-1742,共9页
针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义... 针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义的影响;其次,将事件的结构信息集成于自编码器中学习低维稠密的事件表示,并以此作为下游聚类划分的依据;最后,为有效建模事件之间的细微差异,在特征学习过程中加入多正例对比损失。在数据集DuEE、FewFC、Military和ACE2005上的实验结果表明,相较于其他深度聚类方法,所提方法在准确率和标准化互信息(NMI)评价指标上均表现更好;相较于次优的方法,DEC_ERCL的聚类准确率分别提升了17.85%、9.26%、7.36%和33.54%,表明了DEC_ERCL具有更好的事件聚类效果。 展开更多
关键词 深度聚类 文本聚类 事件表示 事件结构 对比学习
在线阅读 下载PDF
基于泛化图卷积神经网络的深度文档聚类模型 被引量:2
15
作者 柴变芳 李政 +1 位作者 赵晓鹏 王荣娟 《南京师大学报(自然科学版)》 CAS 北大核心 2024年第1期82-90,共9页
文本分类是自然语言处理中一项重要任务,基于图神经网络的文本分类因其可建模文本间的多种交互成为一种主流方法.但现有方法大都依赖标签,而真实标签难以获取.提出一个基于图泛化卷积神经网络的深度文档聚类模型(generalization graph c... 文本分类是自然语言处理中一项重要任务,基于图神经网络的文本分类因其可建模文本间的多种交互成为一种主流方法.但现有方法大都依赖标签,而真实标签难以获取.提出一个基于图泛化卷积神经网络的深度文档聚类模型(generalization graph convolutional neural network-deep document clustering, GGCN-DDC),同时实现文本表示学习和无监督文档分类.该模型首先将每个文档建模为文本图;然后采用泛化卷积层学习更有区分力的文档词特征表示和文档表示;最后通过文档聚类损失和文档图重建损失约束参数学习算法.在3个基准数据集上的实验表明,GGCN-DDC在多个指标上均优于其他基准算法. 展开更多
关键词 图神经网络 深度图聚类 文本分类 文本表示
在线阅读 下载PDF
基于主动学习的深度半监督聚类模型 被引量:2
16
作者 付艳艳 黄瑞章 +3 位作者 薛菁菁 任丽娜 陈艳平 林川 《计算机应用研究》 CSCD 北大核心 2024年第10期2955-2961,共7页
深度半监督聚类旨在利用少量的监督信息达到更好的聚类效果。然而,由于标注成本昂贵,监督信息的数量往往是有限的。因此,在监督信息有限的情况下,如何选择对聚类最有价值的监督信息变得至关重要。针对以上问题,提出了基于主动学习的深... 深度半监督聚类旨在利用少量的监督信息达到更好的聚类效果。然而,由于标注成本昂贵,监督信息的数量往往是有限的。因此,在监督信息有限的情况下,如何选择对聚类最有价值的监督信息变得至关重要。针对以上问题,提出了基于主动学习的深度半监督聚类模型(DASCM)。该模型设计了一种主动学习方法,能够挑选出蕴涵丰富信息的边缘文本,并进一步生成蕴涵边缘文本的高价值监督信息。该模型利用这些监督信息指导聚类,从而提升聚类性能。在5个真实文本数据集上的实验表明,DASCM的聚类性能有显著提升。这一结果验证了利用主动学习方法生成的涵盖边缘文本的监督信息对于提升聚类效果是有效的。 展开更多
关键词 深度半监督聚类 主动学习 边缘文本
在线阅读 下载PDF
乡村环境治理:制度、技术与效能——基于中央政策文本分析
17
作者 邓学衷 唐滔 《智慧农业导刊》 2024年第13期82-86,共5页
基于新公共治理理论的“制度-技术-效能”框架,运用词频和词频聚类分析法,对1978—2022年中国中央政府机构关于乡村环境治理政策文件进行文本分析发现,乡村环境治理政策的阶段性演变逐步聚焦到治理效能,政策的制度设计走向系统化和协调... 基于新公共治理理论的“制度-技术-效能”框架,运用词频和词频聚类分析法,对1978—2022年中国中央政府机构关于乡村环境治理政策文件进行文本分析发现,乡村环境治理政策的阶段性演变逐步聚焦到治理效能,政策的制度设计走向系统化和协调性,技术工具转向开发和运用适用技术进行精细化治理,以实现乡村绿色发展和全面振兴的效能目标。为此,乡村环境治理实践应立足于治理区域的实际情况,强化治理机制的协同效能、提升数字化治理效能、增强适应性治理效能。 展开更多
关键词 乡村环境治理 “制度-技术-效能”分析框架 政策文本 治理效能 词频聚类分析法
在线阅读 下载PDF
基于深度学习的海洋热点新闻挖掘方法 被引量:2
18
作者 覃娴萍 丁昭旭 +1 位作者 仲国强 王栋 《计算机科学》 CSCD 北大核心 2024年第S02期98-107,共10页
移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相... 移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相关媒体报道、公众舆论在网上大量涌现,热点事件频频发生。针对多来源、多属性的网络海洋信息,基于多源文本聚类和自动摘要技术,提出一种基于深度学习的海洋热点新闻自动挖掘系统,包括多源涉海数据自动采集、数据预处理、特征提取、文本聚类、自动摘要五大功能模块。具体而言,网络爬虫程序从多个数据源采集多样且分散的海洋数据,自动将数据结构化后存入数据库;根据文本特征的近似程度和文本间的关联关系实现聚类分析,聚类结果为后继摘要生成、主题发现提供数据支撑;基于预训练语言模型强大的上下文理解能力和丰富的语言表达能力,提出基于预训练语言模型的海洋新闻自动摘要生成方法。通过多组实验证明了所提方法在各个评估指标上的有效性,突显出其在多源异构网络海洋新闻挖掘方面的优势。该方法为处理分散的海洋资讯信息、生成可读性更强的内容摘要提供可行的解决方案,对提高海洋信息获取效率、监测公众舆论走向、推动海洋信息的应用与传播具有重要意义。 展开更多
关键词 海洋新闻 文本聚类 自动摘要 深度学习 自然语言处理 预训练模型
在线阅读 下载PDF
基于自适应结构学习的深度文本聚类 被引量:2
19
作者 潘伟 黄瑞章 +1 位作者 任丽娜 薛菁菁 《计算机工程》 CAS CSCD 北大核心 2024年第11期89-97,共9页
近年来,将结构信息应用于深度文本聚类中以提升聚类效果取得了较优的成果。然而,结构信息的构造方法大多只进行简单的距离测算且近邻数量固定,导致构建的图难以获得较精确的文本结构信息。另外,众多方法对近邻文本只进行一阶挖掘,使图... 近年来,将结构信息应用于深度文本聚类中以提升聚类效果取得了较优的成果。然而,结构信息的构造方法大多只进行简单的距离测算且近邻数量固定,导致构建的图难以获得较精确的文本结构信息。另外,众多方法对近邻文本只进行一阶挖掘,使图结构信息未得到完全挖掘,限制了结合结构信息的深度文本聚类性能。为此,提出一种基于自适应结构学习的深度文本聚类模型DCMBS。首先,设计一种阈值构图方法,动态调整近邻文本数量,解决因近邻文本固定存在结构信息不精确的问题;其次,引入一种拓扑探索近邻的方法,对近邻文本进行多阶挖掘,解决以往方法只进行一阶挖掘存在结构信息不完整的问题。此外,设计了1个阈值衰减策略,避免拓扑过程中因拓扑阶数增加导致学习泛化。在4个真实数据集的实验结果表明,DCMBS与现有较好的聚类模型相比,准确度、归一化互信息(NMI)和调整兰德指数(ARI)平均提高了6.83、2.93、6.23个百分点。 展开更多
关键词 阈值 深度文本聚类 文本结构信息 图神经网络 自适应结构学习
在线阅读 下载PDF
基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 被引量:11
20
作者 阮光册 周萌葳 《情报杂志》 CSSCI 北大核心 2024年第2期110-117,共8页
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法... [研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 展开更多
关键词 Sentence-BERT 专利文本 主题识别 文本聚类
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部