期刊文献+
共找到951篇文章
< 1 2 48 >
每页显示 20 50 100
基于文本挖掘的高跟鞋在线评论分析与关注要素研究
1
作者 万蓬勃 朱小凤 +1 位作者 张彧彧 唐昕 《皮革科学与工程》 北大核心 2026年第2期83-89,共7页
【目的】为帮助商家和企业精准把握消费者在线购买高跟鞋时的关注要素。【方法】爬取天猫平台38199条高跟鞋商品评论,采用词频分析、关键词共现分析、情感分析和聚类分析对评论数据展开文本挖掘。【结果】词频与共现分析表明,“好看”... 【目的】为帮助商家和企业精准把握消费者在线购买高跟鞋时的关注要素。【方法】爬取天猫平台38199条高跟鞋商品评论,采用词频分析、关键词共现分析、情感分析和聚类分析对评论数据展开文本挖掘。【结果】词频与共现分析表明,“好看”和“舒服”是消费者的核心关注点;情感分析显示,正面评论多于负面评论,综合评价中“正-负”评论占比小(1.02%),却暴露出产品的隐性问题;聚类分析表明,负面评论聚焦于外在品质、穿着不适、服务不满、质量缺陷和尺码不准。【结论】外观和舒适性是消费者对高跟鞋产品的核心关注要素;当前消费者对产品外观表示认可,但在舒适性、质量和尺码适配方面仍有较大改进空间;追加评论及其情感转变内容是发现产品潜在问题的重要来源。 展开更多
关键词 高跟鞋 商品评论 文本挖掘 情感分析 聚类分析
在线阅读 下载PDF
基于文本挖掘的电力行业触电人身伤亡事故致因分析研究
2
作者 栗婧 叶栩辛 +2 位作者 张毓珈 艾旭婷 敦煜煊 《矿业科学学报》 北大核心 2026年第1期194-205,共12页
触电事故是电力行业施工过程中除高处坠落外最易发的一类事故。识别导致触电事故发生的影响因素,是采取针对性安全管理措施的前提。文中利用文本挖掘技术与R语言,分析了80起电力行业施工中发生的触电人身伤亡事故的报告。首先,对数据进... 触电事故是电力行业施工过程中除高处坠落外最易发的一类事故。识别导致触电事故发生的影响因素,是采取针对性安全管理措施的前提。文中利用文本挖掘技术与R语言,分析了80起电力行业施工中发生的触电人身伤亡事故的报告。首先,对数据进行了分词处理与词频分析;其次,通过构建社会网络及语义网络分析图进行中心性分析,将58个影响因素划分为关键因素、重要因素、次要因素和一般因素4个等级;再次,将提取出的因素根据关联关系进行连词成句、合并或删除内容相似的内容,得到电力行业触电事故致因要素库;最后,将触电事故致因要素库与中心性分析结果结合,得出导致触电事故发生的最关键因素。分析结果表明:违章作业(A3)、职业安全卫生责任制不完善或未落实(D1),以及防护装置、设施缺陷(B1)是导致电力行业施工中触电事故发生的最关键因素,应对其高度重视和重点管控。 展开更多
关键词 触电事故 影响因素 文本挖掘 共现分析 语义网络分析
在线阅读 下载PDF
基于文本挖掘的电网事故风险因素及致因识别
3
作者 冯永康 尹鑫伟 +1 位作者 吴祥 代宝乾 《中国安全生产科学技术》 北大核心 2026年第3期110-117,共8页
为了提升新型电力系统背景下电网安全风险识别的准确性与系统性,解决传统分析方法在处理高维、非线性事故数据时的不足。采用词语频率-逆文档频率(term frequency-inverse document frequency,TF-IDF)算法与隐含狄利克雷分布(latent dir... 为了提升新型电力系统背景下电网安全风险识别的准确性与系统性,解决传统分析方法在处理高维、非线性事故数据时的不足。采用词语频率-逆文档频率(term frequency-inverse document frequency,TF-IDF)算法与隐含狄利克雷分布(latent dirichlet allocation,LDA)主题模型进行文本挖掘,提取关键风险因素与致因主题,并运用复杂网络分析法构建风险关联网络。研究结果表明:识别出27个关键风险因素和10个核心致因主题;复杂网络分析进一步表明,管理缺失与高风险作业许可管理分别是2个网络中的核心,这证明管理体系缺陷是导致系统性风险的根本原因。研究结果可为电网企业提供1套数据驱动的风险识别与管控方法,所构建的综合分析框架亦可推广至其他工业领域,为系统性安全治理提供决策支持。 展开更多
关键词 文本挖掘 复杂网络 电网安全 风险识别 事故致因
在线阅读 下载PDF
基于文本挖掘的蒙古族“时装”消费影响因素研究
4
作者 木斯 雷青 王思琴 《丝绸》 北大核心 2026年第3期30-40,共11页
为探究消费者在线购买蒙古族“时装”的关注因素,文章以抖音商城蒙古族“时装”购买的在线评论为依据,采用文本挖掘方法分析其消费影响因素。通过情感分析、聚类分析与主题建模等方法识别出评论数据中产品质量、外观版型、舒适度、价格... 为探究消费者在线购买蒙古族“时装”的关注因素,文章以抖音商城蒙古族“时装”购买的在线评论为依据,采用文本挖掘方法分析其消费影响因素。通过情感分析、聚类分析与主题建模等方法识别出评论数据中产品质量、外观版型、舒适度、价格感知、服务体验等关键维度。研究结果表明:当下消费者对蒙古族“时装”整体的视觉美感与工艺质量等方面的满意度相对较高,但价格适配度、尺码准确性与日常场景适用性等方面的缺失也显著影响着消费者满意度。文章从消费反馈视角厘清蒙古族“时装”消费过程中影响因素、感知价值与满意度之间的递进关系,为品牌在产品创新、定价策略、服务优化与文化转译等方面提供决策参考与有益启示。 展开更多
关键词 蒙古族“时装” 文本挖掘 抖音商城 在线评论 情感分析 聚类分析 主题建模
在线阅读 下载PDF
HFACS驱动的公路施工事故人为致因文本挖掘 被引量:1
5
作者 张志军 牛茂辉 李威君 《安全与环境学报》 北大核心 2026年第1期123-132,共10页
为充分挖掘公路施工事故的人为致因规律,提出了一种人因分析与分类系统(Human Factors Analysis and Classification System,HFACS)驱动的事故人为致因文本挖掘方法。在对125起公路施工事故报告进行收集和文本清洗的基础上,以HFACS人为... 为充分挖掘公路施工事故的人为致因规律,提出了一种人因分析与分类系统(Human Factors Analysis and Classification System,HFACS)驱动的事故人为致因文本挖掘方法。在对125起公路施工事故报告进行收集和文本清洗的基础上,以HFACS人为事故致因层级架构作为事故文本数据编码和分类框架,提取31个人为致因因素;通过词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法计算因素权重,得到各人为致因因素在公路施工事故中出现的频率;结合加权共现网络分析与中心性指标揭示人为致因因素的关联规律。结果表明:组织影响层级权重占43.02%,是公路施工事故中最多发的人为致因层级;加权共现网络中隐患排查不彻底节点的连接边总共现次数为415,是公路施工事故中最大的伴发因素,且组织影响与不安全监督是共现关系最为显著的层级因素;安全管理不到位、安全生产责任制和人员配备不足的接近中心性、度中心性、中介中心性分别为1、30、9.14,是公路施工事故预防的关键干预点。 展开更多
关键词 安全工程 公路施工事故 文本挖掘 人因分析与分类系统 人为致因分析
在线阅读 下载PDF
公众对“陪诊服务”的态度和关注点:基于微博评论的文本挖掘
6
作者 杨雅婷 王頔 +2 位作者 吴金局 梁钰滢 尹娟 《中国全科医学》 北大核心 2026年第14期1816-1820,共5页
背景随着人口老龄化程度不断加深,增加异地就医等现实需要以及人们对高品质生活的追求,“陪诊服务”受到了较多的关注。目的基于微博评论数据,采用文本挖掘技术探讨公众对“陪诊服务”的情感态度及关注点。方法以“陪诊服务”“陪诊师... 背景随着人口老龄化程度不断加深,增加异地就医等现实需要以及人们对高品质生活的追求,“陪诊服务”受到了较多的关注。目的基于微博评论数据,采用文本挖掘技术探讨公众对“陪诊服务”的情感态度及关注点。方法以“陪诊服务”“陪诊师”“陪诊员”为关键词搜索微博(截至2023-04-01)并抓取微博评论,采用“wordcloud”绘制高频词分析的词云图,采用SnowNLP模块分析评论情感倾向,采用狄利克雷分布主题模型获取评论的潜在主题。结果共抓取到2376条评论,公众对“陪诊服务”的情感得分均值为0.6666分;主题模型识别出4类潜在主题,分别为服务对象、有偿服务、心理治愈以及未来挑战。结论公众对于“陪诊服务”的总体感情呈现出弱积极性。因此,建议将“陪诊服务”纳入新的职业范畴,并通过培训和认证等措施,将护理人员转化为专业的陪诊师,以确保“陪诊服务”的专业性和规范化。 展开更多
关键词 门诊医疗 陪诊师 陪诊员 陪诊服务 文本挖掘 态度
在线阅读 下载PDF
基于文本挖掘方法的体育产业融合水平测度与评价 被引量:5
7
作者 魏和清 焦荣荣 +1 位作者 李燕辉 李颖 《上海体育大学学报》 北大核心 2025年第5期89-102,114,共15页
在界定体育产业融合内涵以及融合模式基础上,采用文本挖掘方法,通过对我国2016—2022年体育类相关企业工商注册数据的挖掘,对体育产业融合度进行测算和评价。发现:我国体育产业融合态势较好,但仍未达到高度融合阶段,融合呈现出多元、复... 在界定体育产业融合内涵以及融合模式基础上,采用文本挖掘方法,通过对我国2016—2022年体育类相关企业工商注册数据的挖掘,对体育产业融合度进行测算和评价。发现:我国体育产业融合态势较好,但仍未达到高度融合阶段,融合呈现出多元、复合的趋势;地区间体育产业融合度差异主要来源于复合融合模式贡献,不同融合模式贡献的空间分布不匀显示出我国独有的融合差异化格局;各地体育产业融合速度存在显著差异,西部省份融合速度相对较快,因复合融合和渗透融合2种模式贡献变动导致的地区间体育产业融合水平差异正逐步拉大;目前只有上海、北京实现了体育产业融合发展与产业总规模扩大的良性循环,其他地区的融合效应并未充分释放。基于此,从加快融合载体建设、加强数字技术应用、坚持差异化发展以及加强区域协作等方面提出促进体育产业融合高质量发展的政策建议。 展开更多
关键词 体育产业 产业融合 融合模式 融合度 文本挖掘
在线阅读 下载PDF
民用无人机事故致因文本挖掘和社会网络分析 被引量:2
8
作者 李柯 王东煌 罗帆 《安全与环境学报》 北大核心 2025年第7期2709-2716,共8页
为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Net... 为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Network Analysis, SNA)方法和Gephi、Ucinet等软件构建民用无人机事故致因共现网络,完成网络中心性分析和核心边缘结构分析,以了解各事故致因节点的重要性和网络结构特征。结果表明:机械结构故障、动力系统故障等源自无人机自身的致因是造成事故的主要原因;飞行失控、检查不足、天气意外因素等8项致因位于致因网络的核心区域,归属于核心致因,其余15项为边缘致因;基于核心致因构建并分析核心-边缘致因集合,有助于为民用无人机事故防控提供对策建议,从而促进低空经济产业健康有序发展。 展开更多
关键词 安全工程 文本挖掘 社会网络分析 词频-逆文档频率 无人机事故
在线阅读 下载PDF
油气钻井现场工人不安全行为模式研究——基于文本挖掘视角 被引量:1
9
作者 朱林 罗筵疆 +3 位作者 黄思琪 钟赟 唐桃 岑康 《中国安全生产科学技术》 北大核心 2025年第1期146-152,共7页
为加强油气钻井现场安全管理,理解钻井现场工人不安全行为规律,提出基于文本挖掘视角的钻井现场工人不安全行为模式分析框架,以钻井现场工人违章数据为实例进行验证。首先采用频率分析和网络分析方法发现钻井工人高频不安全行为热点,其... 为加强油气钻井现场安全管理,理解钻井现场工人不安全行为规律,提出基于文本挖掘视角的钻井现场工人不安全行为模式分析框架,以钻井现场工人违章数据为实例进行验证。首先采用频率分析和网络分析方法发现钻井工人高频不安全行为热点,其次采用文本社群聚类分析钻井工人不安全行为聚类,最后采用文本关联规则发现和检验典型不安全行为发生模式。研究结果表明:钻井现场工人不安全行为模式包括7个不安全行为社群和66条不安全行为发生模式,其中油气钻井现场系统与外部系统耦合处、班前会议、钻井下钻和钻进作业、登高作业是现场不安全行为监管的脆弱点。研究结果可为钻井现场安全管理优化提供支持,有利于为钻井现场智慧安全治理提供参考。 展开更多
关键词 安全社会工程 不安全行为 智能文本挖掘 油气现场工人 文本聚类 关联规则 行为模式
在线阅读 下载PDF
基于文本挖掘的连环追尾事故影响因素及严重程度 被引量:1
10
作者 王玲 李义丹 +3 位作者 王子坚 张龙 邢莹莹 马万经 《同济大学学报(自然科学版)》 北大核心 2025年第7期1074-1083,共10页
基于爬取的近8年微博数据,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型和社会网络分析,识别了连环追尾事故的8个主题,揭示了事故的主要特征和发生机理。研究发现高速公路是最主要的事故场景;雨雪天气引发事故频率... 基于爬取的近8年微博数据,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型和社会网络分析,识别了连环追尾事故的8个主题,揭示了事故的主要特征和发生机理。研究发现高速公路是最主要的事故场景;雨雪天气引发事故频率高于雾天;未保持安全车距和超速行为显著增加事故风险。利用LDA对每篇文档进行主题分配,结合正则表达式提取的严重程度信息,构建了有序Logit回归模型,分析了不同主题对事故严重程度的影响。结果表明,连环追尾事故的平均受伤人数和死亡人数分别是机动车交通事故平均值的2.12倍和1.85倍。在高速公路上的连环追尾事故严重程度高于交叉口,其优势比(odd ratio,OR)值是交叉口的3.3倍;雾天事故的OR值是雨雪天气的9.4倍;货车行驶事故的OR值是轿车的4.6倍,是客车的2.2倍。 展开更多
关键词 交通安全 连环追尾 严重程度 文本挖掘 隐含狄利克雷分布 有序LOGIT模型
在线阅读 下载PDF
基于文本挖掘的我国航空安全政策研究 被引量:1
11
作者 李柯 张世豪 罗帆 《中国安全生产科学技术》 北大核心 2025年第3期195-200,共6页
为探究我国航空安全政策制定现状及完善方向,采用文本挖掘方法对航空安全政策开展共词分析、聚类分析和多元尺度分析,总结当前政策关注的主要内容及侧重点。研究结果表明:应急救援、航空运输、安全运营、民用航空器的适航管理、机场及... 为探究我国航空安全政策制定现状及完善方向,采用文本挖掘方法对航空安全政策开展共词分析、聚类分析和多元尺度分析,总结当前政策关注的主要内容及侧重点。研究结果表明:应急救援、航空运输、安全运营、民用航空器的适航管理、机场及相关机构的安全管理为当前政策关注焦点;针对通用机场已初步建立分类分级的运行管理体系,新修订的有关航空运输的法律规章基本满足当前业务发展新需求;立足现实需求,民用航空器领域的法制建设尚不成熟,航空应急救援体系和安全运营体系尚需完善。研究结果可为航空安全政策完善提供理论参考。 展开更多
关键词 航空安全政策 文本挖掘 量化分析
在线阅读 下载PDF
主题模型网络分析:计算传播视野下的舆情文本挖掘新进路 被引量:4
12
作者 张媛 刘兴澳 《情报杂志》 北大核心 2025年第5期122-129,共8页
[研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献... [研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献梳理分析传统方法的局限性及计算转向的学术进展,通过比较分析论证ANTMN较之现有方法的创新优势。[研究结果/结论]研究发现,ANTMN遵循“主题建模”“网络分析”与“社区检测”的三步法,以“纯归纳取向”获得客观性,以“混合计算取向”超越传统方法的静态局限。ANTMN还在舆情传播研究中表现出较强的实践应用价值,即在经验现象中提出舆情传播问题、在数据驱动中解析舆情传播机制、在趋势预测中建构舆情传播体系。 展开更多
关键词 舆情传播 主题模型网络分析 舆情文本挖掘 计算传播
在线阅读 下载PDF
基于文本挖掘和云模型的虚拟电厂交易风险评估研究 被引量:1
13
作者 刘吉成 宋亚楠 《电网技术》 北大核心 2025年第3期1089-1097,I0069,I0070,共11页
虚拟电厂聚合分布式能源作为第三方主体参与市场,其交易过程存有多种不确定性风险因素,准确识别并有效评估其交易风险尤为重要。该文首先基于文本挖掘技术辨识风险因素,并使用失效模式与影响分析法确定关键风险因素,进而设计风险评估指... 虚拟电厂聚合分布式能源作为第三方主体参与市场,其交易过程存有多种不确定性风险因素,准确识别并有效评估其交易风险尤为重要。该文首先基于文本挖掘技术辨识风险因素,并使用失效模式与影响分析法确定关键风险因素,进而设计风险评估指标体系。其次,结合博弈论思想,对关键风险因素主客观组合赋权。再次,构建风险评估的二维云模型以描述风险发生概率的随机性和风险产生后果的模糊性问题。最后,采用所提评估方法计算多场景虚拟电厂参与市场交易情况的总体风险水平并排序,且与优劣解距离法(technique for order preference by similarity to ideal solution,TOPSIS)、秩和比综合评价法(rank sum ratio,RSR)及折衷排序方法(multi-criteria optimization and compromise solution,VIKOR)对比分析,验证了模型及方法的可行性和有效性。所做研究为VPP交易管理和风险防范提供了有益的参考,具有工程应用价值。 展开更多
关键词 虚拟电厂交易 风险评估 文本挖掘 二维云模型 风险防范
在线阅读 下载PDF
基于文本挖掘的我国长期护理保险政策供给特征研究 被引量:1
14
作者 刘芷含 李鹤斌 +1 位作者 卢志诚 王雪晗 《护理研究》 北大核心 2025年第19期3242-3255,共14页
目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘... 目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘研究。结果:利用多维尺度分析将政策文本内容梳理出宏观政策环境、服务模式与内容、筹资与给付标准3条政策脉络。结论:建议政府创新制度供给,鼓励数据驱动供给,加强危机学习意识。 展开更多
关键词 长期护理保险 词频-逆文档频率词向量模型 多维尺度分析 文本挖掘 政策供给
在线阅读 下载PDF
基于文本挖掘的高铁运营质量评价与指标体系构建——旅客出行需求视角
15
作者 薛锋 刘姝琪 +2 位作者 顾锦轩 赵亮 陈崇双 《铁道运输与经济》 北大核心 2025年第11期186-197,共12页
随着高速铁路网络的不断扩展,现有指标体系难以全面准确地反映高速铁路运行状态与管理效能,系统评估运营质量并构建一个科学且全面的运营评价指标体系变得尤为重要。研究采用网络文本数据挖掘技术,结合LDA主题模型,深入探究高速铁路旅... 随着高速铁路网络的不断扩展,现有指标体系难以全面准确地反映高速铁路运行状态与管理效能,系统评估运营质量并构建一个科学且全面的运营评价指标体系变得尤为重要。研究采用网络文本数据挖掘技术,结合LDA主题模型,深入探究高速铁路旅客出行需求并将其划分为9个主题维度,并归纳总结出覆盖预期体验、客运感知与服务评价的多层次高速铁路运营质量评价指标体系,情感分析进一步揭示了旅客对于不同主题维度的服务质量评价。研究表明:旅客对高速铁路服务的整体评价在客运规模、基础建设与运营等方面表现较为满意,而对票务服务、乘车环境和列车人员服务等方面提出了较多改进需求。通过分析网络文本数据,有效地捕捉到旅客对于高速铁路运营质量的评价,并为优化高速铁路运营质量评价指标体系提供了坚实的数据基础。 展开更多
关键词 高速铁路 文本挖掘 LDA主题模型 旅客满意度 需求分析 体系构建
在线阅读 下载PDF
基于文本挖掘和Apriori算法的危化品事故致因分析
16
作者 曾明荣 凌语嫣 +2 位作者 郭廷喜 代芮 路栋翔 《中国安全生产科学技术》 北大核心 2025年第S1期97-103,共7页
为深入探究危化品事故致因及其关联性,基于事故致因“2-4”模型,从人、物、环境、组织4个层面构建危化品事故致因模型。收集143起危化品事故案例建立事故致因数据库,运用文本挖掘技术识别出284个关键致因特征项,并通过Apriori算法挖掘... 为深入探究危化品事故致因及其关联性,基于事故致因“2-4”模型,从人、物、环境、组织4个层面构建危化品事故致因模型。收集143起危化品事故案例建立事故致因数据库,运用文本挖掘技术识别出284个关键致因特征项,并通过Apriori算法挖掘事故致因间的关联规则与路径。研究结果表明:安全培训不到位、安全主体责任落实不到位、安全知识不足是危化品事故的重点致因,且均属于“2-4”模型中的组织层面;基于致因路径分析,提出针对性事故预防措施,强调强化组织管理是预防危化品事故的关键。研究结果可为政府监管和企业安全管理提供理论参考,有助于制定精准有效的危化品事故预防策略。 展开更多
关键词 危化品事故致因 文本挖掘 关联规则 “2-4”模型 APRIORI算法
在线阅读 下载PDF
高校实验室火灾爆炸事故致因文本挖掘与分析 被引量:4
17
作者 李威君 李景楠 +2 位作者 刘音 胡相明 牛茂辉 《实验室研究与探索》 北大核心 2025年第8期244-248,共5页
为从历史事故中学习经验教训以指导高校实验室安全管理实践,选取2000~2024年国内外81起高校实验室火灾爆炸事故的报告文本作为样本,运用文本挖掘技术进行事故致因因素分词与特征项处理,构建共现矩阵绘制事故致因共现网络,结合Apriori算... 为从历史事故中学习经验教训以指导高校实验室安全管理实践,选取2000~2024年国内外81起高校实验室火灾爆炸事故的报告文本作为样本,运用文本挖掘技术进行事故致因因素分词与特征项处理,构建共现矩阵绘制事故致因共现网络,结合Apriori算法挖掘关联规则。研究表明,违规和错误操作、安全意识淡薄、管理不当是高校实验室火灾爆炸事故常见的诱因;安全意识淡薄、管理不当、错误操作的共同出现是主要致因模式;堆放可燃物、管理不当与事故发生具有强关联性。该方法降低了传统人为分析的主观性,揭示了事故致因的深层关联,可为事故预防提供精准的依据。 展开更多
关键词 高校实验室安全 火灾爆炸事故 文本挖掘 关联分析
在线阅读 下载PDF
大模型驱动的学术文本挖掘——调优端参数高效微调策略研究 被引量:1
18
作者 刘寅鹏 陆伟 +3 位作者 石湘 刘家伟 程齐凯 黄永 《情报学报》 北大核心 2025年第9期1159-1172,共14页
学术文本深度理解能力已成为情报工作重要支撑,大模型在此类工作中展现了巨大的潜力。大模型可以从推理端和调优端两个方向提升模型的知识挖掘和利用能力。当前,在领域深度相关的学术文本挖掘任务上,推理端的各类指令工程技术仍难以充... 学术文本深度理解能力已成为情报工作重要支撑,大模型在此类工作中展现了巨大的潜力。大模型可以从推理端和调优端两个方向提升模型的知识挖掘和利用能力。当前,在领域深度相关的学术文本挖掘任务上,推理端的各类指令工程技术仍难以充分发挥大模型的深度语义理解能力,因此,在调优端使用参数高效微调技术面向领域任务对模型参数进行适配,成为大模型赋能学术文本挖掘的关键。目前尚未形成对模型应用不同调优方法的性能和效益的系统性探索。本研究构建了面向学术文本挖掘的参数高效微调框架和性能效益评测体系,通过对7类指令调优模型应用8项调优方法后的性能指标与成本效益进行评估,对参数高效微调策略与调优模型在学术文本挖掘任务上的能力边界进行探索。研究结果表明,在各类调优方法中,全量微调性能最优,但其领先优势并不显著;QLoRA(quantized low-rank adaptation)的计算成本最低,成为综合效益最高的调优方法。不同规模和架构的大模型调优后的性能差异不大,Mistral-7B-Instruct-v0.1等规模较小的模型使用QLoRA调优后可取得与百亿级模型相当的性能指标。调优后的大模型在引文功能识别、科技实体抽取、科技文本推理3类任务上的性能指标均大幅领先于其在指令端的表现;相比于传统深度学习模型,大模型在学术文本推理任务上全面领先,在科技实体抽取和引文功能识别任务上与小模型性能相近。由此可见,大模型在难度较高的复杂任务上表现更好,而对于简单的序列标注任务和分类任务,使用小模型的收益更高。 展开更多
关键词 大模型 学术文本挖掘 参数高效微调策略 能力评估
在线阅读 下载PDF
新闻文本挖掘下“暴雨-山洪-地质灾害”的情景演化分析 被引量:6
19
作者 郭昕曜 星宇铮 +1 位作者 王远声 吕伟 《安全与环境学报》 北大核心 2025年第4期1466-1476,共11页
为分析“暴雨-山洪-地质灾害”的灾变特点,利用自动化抓取技术提取了2010—2022年国内权威新闻媒体对长江中上游区域的暴雨、山洪、滑坡、泥石流等灾害的报道数据。基于自然语言处理(Natural Language Processing, NLP)技术和机器学习方... 为分析“暴雨-山洪-地质灾害”的灾变特点,利用自动化抓取技术提取了2010—2022年国内权威新闻媒体对长江中上游区域的暴雨、山洪、滑坡、泥石流等灾害的报道数据。基于自然语言处理(Natural Language Processing, NLP)技术和机器学习方法,对新闻文本进行了预处理与数据清洗,实现了灾害信息的自动分类。进而,采用贝叶斯网络模型构建了灾害链的拓扑结构,推演了灾害演化过程中的各节点概率,揭示了“暴雨-山洪-地质灾害”链的情景演化规律。最后,以四川省凉山州冕宁县2020年的灾害事件为例,预测了“暴雨-山洪-地质灾害”网络中各情景节点概率,验证了贝叶斯网络模型的可靠性。结果表明,构建的“暴雨-山洪-地质灾害”的贝叶斯网络模型在山洪、泥石流、滑坡、人员伤亡、房屋倒塌等目标变量预测中,预测结果与实际数据基本一致,各目标变量的Brier检验平均结果为0.115。研究结论为“暴雨-山洪-地质灾害”的预测和情景演化分析提供了方法支撑。 展开更多
关键词 公共安全 暴雨-山洪-地质灾害 情景演化 文本挖掘 贝叶斯网络
在线阅读 下载PDF
基于主路径分析和引文文本挖掘的关键核心技术基础研究结构识别 被引量:8
20
作者 陶治宇 刘小平 +1 位作者 梁爽 李函羲 《情报杂志》 北大核心 2025年第2期72-81,共10页
[研究目的]准确识别关键核心技术的基础研究结构,为聚力突破“卡脖子”关键核心技术提供参考。[研究方法]提出了一套用以识别关键核心技术基础研究结构的理论框架--科技知识树,构建了针对“纯基础研究-应用型基础研究-关键核心技术-常... [研究目的]准确识别关键核心技术的基础研究结构,为聚力突破“卡脖子”关键核心技术提供参考。[研究方法]提出了一套用以识别关键核心技术基础研究结构的理论框架--科技知识树,构建了针对“纯基础研究-应用型基础研究-关键核心技术-常规技术”关联的分析方法,通过综合应用复杂网络分析与文本挖掘技术,理清了基础研究与应用研究间的知识流动关系,识别出了关键核心技术的基础研究结构。[研究结果/结论]以集成电路技术为例进行实证分析,识别得到关键核心技术分布于21个领域,涵盖11类应用型基础研究,包括Petri网、算法优化、光子学原理等;14类纯基础研究,包括半导体原理、数字电路建构原理等。经验证,提出的方法能够有效识别支撑技术研发的基础研究结构,为成果转化、技术攻关与基础研究布局提供了参考。 展开更多
关键词 关键核心技术 基础研究 科技知识树 引文文本挖掘 集成电路 主路径分析 共词网络分析
在线阅读 下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部