期刊文献+
共找到932篇文章
< 1 2 47 >
每页显示 20 50 100
中文Web文本挖掘系统WebTextMiner开发 被引量:1
1
作者 魏松 钟义信 王翔英 《计算机应用研究》 CSCD 北大核心 2006年第6期211-213,共3页
W eb文本挖掘系统的开发对W eb文本挖掘的研究有着很大的推进作用。因此在对基于SVM的中文网页分类器性能研究的基础上,根据研究和实用的需要,实现了一个性能较好的中文W eb文本挖掘系统。
关键词 WEB文本挖掘 支持向量机 K-最近邻
在线阅读 下载PDF
基于文本挖掘的我国航空安全政策研究 被引量:1
2
作者 李柯 张世豪 罗帆 《中国安全生产科学技术》 北大核心 2025年第3期195-200,共6页
为探究我国航空安全政策制定现状及完善方向,采用文本挖掘方法对航空安全政策开展共词分析、聚类分析和多元尺度分析,总结当前政策关注的主要内容及侧重点。研究结果表明:应急救援、航空运输、安全运营、民用航空器的适航管理、机场及... 为探究我国航空安全政策制定现状及完善方向,采用文本挖掘方法对航空安全政策开展共词分析、聚类分析和多元尺度分析,总结当前政策关注的主要内容及侧重点。研究结果表明:应急救援、航空运输、安全运营、民用航空器的适航管理、机场及相关机构的安全管理为当前政策关注焦点;针对通用机场已初步建立分类分级的运行管理体系,新修订的有关航空运输的法律规章基本满足当前业务发展新需求;立足现实需求,民用航空器领域的法制建设尚不成熟,航空应急救援体系和安全运营体系尚需完善。研究结果可为航空安全政策完善提供理论参考。 展开更多
关键词 航空安全政策 文本挖掘 量化分析
在线阅读 下载PDF
基于特征表示深度学习的政策精准推送模型研究 被引量:1
3
作者 胡吉明 钱玮 苗煜松 《情报杂志》 北大核心 2025年第2期167-173,共7页
[研究目的]从政策内涵和用户特征表示的深度学习出发,构建政策文本精准推送模型,实现高效准确的政府服务双向精准推送。[研究方法]首先基于Doc2Vec模型进行政策文档向量表示,并融入政策实体和政策主题信息,丰富政策文本的语义内涵;构建... [研究目的]从政策内涵和用户特征表示的深度学习出发,构建政策文本精准推送模型,实现高效准确的政府服务双向精准推送。[研究方法]首先基于Doc2Vec模型进行政策文档向量表示,并融入政策实体和政策主题信息,丰富政策文本的语义内涵;构建集成自然属性、社会属性和政策属性的政策用户画像模型,基于Word2Vec实现基于三元组的画像特征表示;最后,构建政策-用户双向精准推送模型,进行基于推送关系标注的模型训练,基于注意力机制实现政策和用户间的双向智能匹配。[研究结果/结论]针对助残服务的实验表明,所提策略有效实现了助残服务与残疾人间的精准匹配,呈现出政策-用户及用户-政策双向的推送结果。 展开更多
关键词 政策文本 政策实体识别 政策精准推送 主题挖掘 特征表示 政策用户画像
在线阅读 下载PDF
融合上市公司文本信息的财务困境预测——来自年报管理层讨论与分析的经验证据
4
作者 阮素梅 孙旭升 李伟 《财贸研究》 北大核心 2025年第6期99-110,共12页
内容丰富、形式多样的年报文本信息通常具有财务数据难以体现的丰富内涵,对年报文本信息进行量化分析逐渐成为财务困境预测研究的重要方向。基于文本分析技术提出管理层语调增长率与风险信息含量两个文本披露指标,进一步挖掘了“管理层... 内容丰富、形式多样的年报文本信息通常具有财务数据难以体现的丰富内涵,对年报文本信息进行量化分析逐渐成为财务困境预测研究的重要方向。基于文本分析技术提出管理层语调增长率与风险信息含量两个文本披露指标,进一步挖掘了“管理层讨论与分析”的有效信息,在此基础上结合财务数据预测上市公司财务困境。研究发现,融入所提出的文本披露指标后,经典预测模型对上市公司财务困境预测的AUC和F2-score分别平均提高了2.10%和2.30%。进一步的实证检验表明:关于管理层语调增长率,仅正面语调增长率与未来财务困境显著负相关;相较于财务状况正常的企业,未来发生财务困境的企业倾向于披露更多的风险信息。 展开更多
关键词 财务困境 文本分析 管理层讨论与分析
在线阅读 下载PDF
油气钻井现场工人不安全行为模式研究——基于文本挖掘视角
5
作者 朱林 罗筵疆 +3 位作者 黄思琪 钟赟 唐桃 岑康 《中国安全生产科学技术》 北大核心 2025年第1期146-152,共7页
为加强油气钻井现场安全管理,理解钻井现场工人不安全行为规律,提出基于文本挖掘视角的钻井现场工人不安全行为模式分析框架,以钻井现场工人违章数据为实例进行验证。首先采用频率分析和网络分析方法发现钻井工人高频不安全行为热点,其... 为加强油气钻井现场安全管理,理解钻井现场工人不安全行为规律,提出基于文本挖掘视角的钻井现场工人不安全行为模式分析框架,以钻井现场工人违章数据为实例进行验证。首先采用频率分析和网络分析方法发现钻井工人高频不安全行为热点,其次采用文本社群聚类分析钻井工人不安全行为聚类,最后采用文本关联规则发现和检验典型不安全行为发生模式。研究结果表明:钻井现场工人不安全行为模式包括7个不安全行为社群和66条不安全行为发生模式,其中油气钻井现场系统与外部系统耦合处、班前会议、钻井下钻和钻进作业、登高作业是现场不安全行为监管的脆弱点。研究结果可为钻井现场安全管理优化提供支持,有利于为钻井现场智慧安全治理提供参考。 展开更多
关键词 安全社会工程 不安全行为 智能文本挖掘 油气现场工人 文本聚类 关联规则 行为模式
在线阅读 下载PDF
中国立体绿化政策发展与量化评价 被引量:2
6
作者 刘瑞雪 李佳轩 严仙友阳 《中国城市林业》 2025年第1期179-187,共9页
[目的]探讨我国从中央到地方层面的立体绿化政策演变历程,并构建一套普适性评价体系,用以评估各类立体绿化政策,为城市立体绿化政策的科学制定、精细化管理和合理优化提供理论依据和实践指导。[方法]选取我国中央到地方立体绿化政策文件... [目的]探讨我国从中央到地方层面的立体绿化政策演变历程,并构建一套普适性评价体系,用以评估各类立体绿化政策,为城市立体绿化政策的科学制定、精细化管理和合理优化提供理论依据和实践指导。[方法]选取我国中央到地方立体绿化政策文件314份作为研究对象,采用文本挖掘法分析立体绿化政策从中央到地方的发展情况;通过PMC指数模型构建地方层面立体绿化政策的评价体系,分析不同地域立体绿化政策的优劣和差异。[结果]我国在中央层面尚无专门针对立体绿化的政策文件;地方层面的立体绿化政策目的以需求型和环境型为主,类型以信息型和监管型居多。政策内容侧重于立体绿化的建设实施,较少关注建成效果;政策文本在政策对象、推进方式、实施方式和政策评价方面较完善,在政策功能和激励措施方面存在不足。[结论]未来立体绿化应从中央到地方层面量化分解立体绿化发展的长期目标,形成科学合理有序的立体绿化政策体系;应重视各类型政策工具对推动立体绿化发展的作用,推动立体绿化全面均衡发展;政府应制定自上而下的立体绿化激励政策,并合理有序地扩大立体绿化政策实施范围。 展开更多
关键词 立体绿化 中央-地方 文本挖掘 PMC指数模型 政策评价
在线阅读 下载PDF
集成学习框架下水电工程施工事故致因因果发现
7
作者 郑霞忠 欧妍希 +2 位作者 田丹 陈云 钟馨凝 《安全与环境学报》 北大核心 2025年第4期1237-1246,共10页
为了探究水电工程施工安全风险复杂因果关系,理清安全风险事故演化过程,实现精准化的事故管理,以近年代表性事故调查报告为基础,集成二元项主题模型(Biterm Topic Model,BTM)与决策试验与评估实验法(Decision-Making Trial and Evaluati... 为了探究水电工程施工安全风险复杂因果关系,理清安全风险事故演化过程,实现精准化的事故管理,以近年代表性事故调查报告为基础,集成二元项主题模型(Biterm Topic Model,BTM)与决策试验与评估实验法(Decision-Making Trial and Evaluation Laboratory,DEMATEL),改进关联规则(Apriori algorithm)算法,建立水电工程事故致因演化规则智能分析模型。首先,利用BTM方法,挖掘事故文本中的关键信息,获得关键信息的特征词,提炼事故致因因素;其次,融合事故致因因素与DEMATEL方法改进Apriori算法,分析事故致因演化规则,获得事故致因因素间的因果关联关系。最后,将提取的14个事故致因关键词建立模型,应用于水电工程的事故分析中,深入挖掘事故诱因,阐明事故演化过程,为安全事故的高效精准管理提供了理论和技术支撑,有助于提升施工现场安全管理质量与效率,实现事故的实时高效预控。 展开更多
关键词 安全工程 事故致因分析 文本挖掘 关联规则 二元项主题模型
在线阅读 下载PDF
基于文本挖掘方法的体育产业融合水平测度与评价
8
作者 魏和清 焦荣荣 +1 位作者 李燕辉 李颖 《上海体育大学学报》 北大核心 2025年第5期89-102,114,共15页
在界定体育产业融合内涵以及融合模式基础上,采用文本挖掘方法,通过对我国2016—2022年体育类相关企业工商注册数据的挖掘,对体育产业融合度进行测算和评价。发现:我国体育产业融合态势较好,但仍未达到高度融合阶段,融合呈现出多元、复... 在界定体育产业融合内涵以及融合模式基础上,采用文本挖掘方法,通过对我国2016—2022年体育类相关企业工商注册数据的挖掘,对体育产业融合度进行测算和评价。发现:我国体育产业融合态势较好,但仍未达到高度融合阶段,融合呈现出多元、复合的趋势;地区间体育产业融合度差异主要来源于复合融合模式贡献,不同融合模式贡献的空间分布不匀显示出我国独有的融合差异化格局;各地体育产业融合速度存在显著差异,西部省份融合速度相对较快,因复合融合和渗透融合2种模式贡献变动导致的地区间体育产业融合水平差异正逐步拉大;目前只有上海、北京实现了体育产业融合发展与产业总规模扩大的良性循环,其他地区的融合效应并未充分释放。基于此,从加快融合载体建设、加强数字技术应用、坚持差异化发展以及加强区域协作等方面提出促进体育产业融合高质量发展的政策建议。 展开更多
关键词 体育产业 产业融合 融合模式 融合度 文本挖掘
在线阅读 下载PDF
基于BERTopic-Kano模型的老年人健康管理服务系统设计
9
作者 扈剑颖 鲁莹 +3 位作者 李龙珠 廉博杰 周钰怀 侯士江 《包装工程》 北大核心 2025年第16期81-91,共11页
目的随着老年人口比例持续攀升,面向老年人健康管理服务系统的需求日益增长。因此,提出一种集成BERTopic和Kano模型的老年人健康管理服务系统设计方法,以提升用户体验。方法首先,爬取“微博”平台的关于“老年人健康管理”的相关文本数... 目的随着老年人口比例持续攀升,面向老年人健康管理服务系统的需求日益增长。因此,提出一种集成BERTopic和Kano模型的老年人健康管理服务系统设计方法,以提升用户体验。方法首先,爬取“微博”平台的关于“老年人健康管理”的相关文本数据;其次,运用BERTopic模型实现文本数据的聚类,并提取主题下的高频特征词进行分析,以识别出用户需求;最后,采用Kano模型对用户需求进行分类,通过Better-Worse系数量化需求优先级,并指导设计实践。结果识别出关于老年人健康管理的必备型、期望型和魅力型需求,在用户需求的基础上以秦皇岛康养社区为例进行设计实践。结论创新性地提出一种融合BERTopic主题建模与Kano模型的设计方法,通过实践验证了该方法在老年人健康管理设计领域的有效性与应用价值。 展开更多
关键词 文本挖掘 BERTopic主题模型 KANO模型 老年人健康管理
在线阅读 下载PDF
基于大语言模型的参考文献自动识别与著录信息抽取
10
作者 陈和 《情报杂志》 北大核心 2025年第7期192-198,共7页
[研究目的]利用大语言模型从参考文献文本数据中自动逐条识别出参考文献,并对识别出的参考文献的著录信息进行自动抽取,为文本识别相关工作提供新的思路和方法。[研究方法]通过Python编程和案例研究法,设计并优化Prompt模板,调用百度千... [研究目的]利用大语言模型从参考文献文本数据中自动逐条识别出参考文献,并对识别出的参考文献的著录信息进行自动抽取,为文本识别相关工作提供新的思路和方法。[研究方法]通过Python编程和案例研究法,设计并优化Prompt模板,调用百度千帆ERNIE-Speed大语言模型的服务API接口进行问答交互,实现从参考文献文本数据中自动逐条识别出参考文献,并进一步自动抽取每条参考文献中的作者、题名、出版物名称、出版年份等著录信息。[研究结果/结论]相较于传统文本识别方法,利用大语言模型自动识别参考文献并抽取著录信息,具有使用门槛低、对目标文本数据要求宽松、文本识别准确率高、抽取效率高等优点。同时,大语言模型也存在输入与输出内容长度受限制、“幻觉”和“礼貌性”行为增加数据处理复杂度的局限性。 展开更多
关键词 大语言模型 文本挖掘 文本识别 信息抽取 参考文献 著录规则
在线阅读 下载PDF
基于文本挖掘的连环追尾事故影响因素及严重程度
11
作者 王玲 李义丹 +3 位作者 王子坚 张龙 邢莹莹 马万经 《同济大学学报(自然科学版)》 北大核心 2025年第7期1074-1083,共10页
基于爬取的近8年微博数据,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型和社会网络分析,识别了连环追尾事故的8个主题,揭示了事故的主要特征和发生机理。研究发现高速公路是最主要的事故场景;雨雪天气引发事故频率... 基于爬取的近8年微博数据,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型和社会网络分析,识别了连环追尾事故的8个主题,揭示了事故的主要特征和发生机理。研究发现高速公路是最主要的事故场景;雨雪天气引发事故频率高于雾天;未保持安全车距和超速行为显著增加事故风险。利用LDA对每篇文档进行主题分配,结合正则表达式提取的严重程度信息,构建了有序Logit回归模型,分析了不同主题对事故严重程度的影响。结果表明,连环追尾事故的平均受伤人数和死亡人数分别是机动车交通事故平均值的2.12倍和1.85倍。在高速公路上的连环追尾事故严重程度高于交叉口,其优势比(odd ratio,OR)值是交叉口的3.3倍;雾天事故的OR值是雨雪天气的9.4倍;货车行驶事故的OR值是轿车的4.6倍,是客车的2.2倍。 展开更多
关键词 交通安全 连环追尾 严重程度 文本挖掘 隐含狄利克雷分布 有序LOGIT模型
在线阅读 下载PDF
民用无人机事故致因文本挖掘和社会网络分析
12
作者 李柯 王东煌 罗帆 《安全与环境学报》 北大核心 2025年第7期2709-2716,共8页
为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Net... 为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Network Analysis, SNA)方法和Gephi、Ucinet等软件构建民用无人机事故致因共现网络,完成网络中心性分析和核心边缘结构分析,以了解各事故致因节点的重要性和网络结构特征。结果表明:机械结构故障、动力系统故障等源自无人机自身的致因是造成事故的主要原因;飞行失控、检查不足、天气意外因素等8项致因位于致因网络的核心区域,归属于核心致因,其余15项为边缘致因;基于核心致因构建并分析核心-边缘致因集合,有助于为民用无人机事故防控提供对策建议,从而促进低空经济产业健康有序发展。 展开更多
关键词 安全工程 文本挖掘 社会网络分析 词频-逆文档频率 无人机事故
在线阅读 下载PDF
民国时期侨务政策的主题与变迁研究——基于Python的政策文本量化分析
13
作者 焦建华 耿嘉岐 《厦门大学学报(哲学社会科学版)》 北大核心 2025年第1期192-204,共13页
侨务政策体现了一国对海外侨民的重视程度,直接关系到侨胞对祖国的归属感与认同感。秉承孙中山“护侨重侨”的精神,以及争取华侨支持,民国历届政府都制定了大量侨务政策。通过建立1912—1949年民国中央及地方的侨务政策文本数据库,运用P... 侨务政策体现了一国对海外侨民的重视程度,直接关系到侨胞对祖国的归属感与认同感。秉承孙中山“护侨重侨”的精神,以及争取华侨支持,民国历届政府都制定了大量侨务政策。通过建立1912—1949年民国中央及地方的侨务政策文本数据库,运用Python等文本挖掘工具,深入探究民国侨务政策主题及其变迁后发现:中央侨务政策更倾向于宏观政策指导,以及关注国家层面的影响,地方侨务政策更加具体详实,符合本地实际;民国侨务政策与当时政治形势、国内外环境具有紧密联系;政策制定的相关机构间合作逐渐增强,政策内容呈现出多元化趋势;政策制定以激发侨民的民族主义意识为主导思想;政策关注重点存在权力结构性与历史阶段性差异。 展开更多
关键词 侨务政策 主题挖掘 变迁 PYTHON 文本量化分析
在线阅读 下载PDF
改进YOLO11n和PaddleOCR的煤矿钻场视频自动剪辑方法
14
作者 李小军 李淼 赵明炀 《计算机工程与应用》 北大核心 2025年第17期209-221,共13页
为解决煤矿井下瓦斯抽采钻场监控视频数据规模大、传统人工剪辑效率低的问题,提出一种将YOLO11n和PaddleOCR相结合的视频自动剪辑方法。使用YOLO11n检测视频图像帧中的指示牌目标,并根据检测框坐标信息进行裁剪;将裁剪的目标区域输入Pad... 为解决煤矿井下瓦斯抽采钻场监控视频数据规模大、传统人工剪辑效率低的问题,提出一种将YOLO11n和PaddleOCR相结合的视频自动剪辑方法。使用YOLO11n检测视频图像帧中的指示牌目标,并根据检测框坐标信息进行裁剪;将裁剪的目标区域输入PaddleOCR中进行文字识别;依据设定的剪辑逻辑规则对视频进行自动剪辑。为提升YOLO11n在煤矿井下复杂环境的检测精度,提出一种新的模块Faster-EMA来替代C3k2中的Bottleneck,引入FasterBlock及EMA注意力机制,增强多尺度特征表达能力并降低冗余计算;在C2PSA层后引入Triplet Attention,通过三分支结构捕获跨维交互来计算注意力权重,进一步增强特征提取效果;采用PIoUv2替代默认损失函数CIoU以解决锚框扩展问题。同时使用改进后的YOLO11n替换PaddleOCR中的文本检测算法DBNet,解决实时性不足问题。在自建的指示牌数据集上进行实验验证,结果表明,改进的YOLO11n对比原模型,mAP50提升4.8个百分点,且使用改进YOLO11n替代DBNet后视频平均处理速度提升51.0%,FPS达到37帧/s,满足实时性需求。研究实现了基于指示牌文字内容的钻场监控视频自动剪辑,为煤矿智能化发展提供了技术参考。 展开更多
关键词 煤矿钻场 视频剪辑 文本识别 YOLO11n PaddleOCR
在线阅读 下载PDF
基于长文本和特征增强的煤矿事故实体识别
15
作者 温乃宁 范爽爽 史晓楠 《计算机工程与设计》 北大核心 2025年第9期2683-2689,共7页
针对煤矿事故领域中长文本、长实体和复杂实体难以准确识别的问题,提出一种基于长文本和特征增强的煤矿事故实体识别模型。该模型嵌入层在ALBERT的基础上引入了全局注意力掩码,用来调节滑窗注意力和全局注意力之间的分配,从而更好的平... 针对煤矿事故领域中长文本、长实体和复杂实体难以准确识别的问题,提出一种基于长文本和特征增强的煤矿事故实体识别模型。该模型嵌入层在ALBERT的基础上引入了全局注意力掩码,用来调节滑窗注意力和全局注意力之间的分配,从而更好的平衡全局和局部信息;编码层引入门控线性单元和BiLSTM增强模型的特征表示能力;解码层使用CRF来获得最佳标记序列。实验结果表明,该模型较基准模型的F1值提升了1.9%,在煤矿事故实体识别中具有优越的性能。 展开更多
关键词 命名实体识别 煤矿事故 预训练语言模型 门控线性单元 注意力机制 长文本 特征增强
在线阅读 下载PDF
主题模型网络分析:计算传播视野下的舆情文本挖掘新进路
16
作者 张媛 刘兴澳 《情报杂志》 北大核心 2025年第5期122-129,共8页
[研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献... [研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献梳理分析传统方法的局限性及计算转向的学术进展,通过比较分析论证ANTMN较之现有方法的创新优势。[研究结果/结论]研究发现,ANTMN遵循“主题建模”“网络分析”与“社区检测”的三步法,以“纯归纳取向”获得客观性,以“混合计算取向”超越传统方法的静态局限。ANTMN还在舆情传播研究中表现出较强的实践应用价值,即在经验现象中提出舆情传播问题、在数据驱动中解析舆情传播机制、在趋势预测中建构舆情传播体系。 展开更多
关键词 舆情传播 主题模型网络分析 舆情文本挖掘 计算传播
在线阅读 下载PDF
基于文本挖掘和云模型的虚拟电厂交易风险评估研究
17
作者 刘吉成 宋亚楠 《电网技术》 北大核心 2025年第3期1089-1097,I0069,I0070,共11页
虚拟电厂聚合分布式能源作为第三方主体参与市场,其交易过程存有多种不确定性风险因素,准确识别并有效评估其交易风险尤为重要。该文首先基于文本挖掘技术辨识风险因素,并使用失效模式与影响分析法确定关键风险因素,进而设计风险评估指... 虚拟电厂聚合分布式能源作为第三方主体参与市场,其交易过程存有多种不确定性风险因素,准确识别并有效评估其交易风险尤为重要。该文首先基于文本挖掘技术辨识风险因素,并使用失效模式与影响分析法确定关键风险因素,进而设计风险评估指标体系。其次,结合博弈论思想,对关键风险因素主客观组合赋权。再次,构建风险评估的二维云模型以描述风险发生概率的随机性和风险产生后果的模糊性问题。最后,采用所提评估方法计算多场景虚拟电厂参与市场交易情况的总体风险水平并排序,且与优劣解距离法(technique for order preference by similarity to ideal solution,TOPSIS)、秩和比综合评价法(rank sum ratio,RSR)及折衷排序方法(multi-criteria optimization and compromise solution,VIKOR)对比分析,验证了模型及方法的可行性和有效性。所做研究为VPP交易管理和风险防范提供了有益的参考,具有工程应用价值。 展开更多
关键词 虚拟电厂交易 风险评估 文本挖掘 二维云模型 风险防范
在线阅读 下载PDF
基于混沌理论和专利挖掘的技术不连续演化特征研究
18
作者 任海英 梁宇航 《情报杂志》 北大核心 2025年第4期181-189,共9页
[研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,... [研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,通过关联维数和李亚普洛夫指数识别技术演化系统的混沌特征及其局部混沌期。之后,对不同时间窗口的数据构建LDA主题模型和共词网络,分析技术主题及相关节点在局部混沌期前、中、后的演化特征,并预测潜在新兴技术。[研究结果/结论]实验结果表明,语音识别技术演化过程中,技术不连续演化阶段与局部混沌期高度重合,为“混沌是技术不连续演化的内在特征”提供实证依据。此外,新兴技术在局部混沌期内产生,并表现为技术主题的稳定发展和相关节点中心性的提升。不仅反映新兴技术对语音识别技术系统的深远影响,而且揭示其未来演化方向。 展开更多
关键词 混沌理论 专利文本 专利挖掘 技术演化 主题模型 共词网络 语音识别技术 关联维数 李亚普洛夫指数
在线阅读 下载PDF
提要式书目的人物信息挖掘 被引量:1
19
作者 卢子言 肖卓 +1 位作者 颜欣杰 徐健 《图书馆论坛》 北大核心 2025年第2期10-21,共12页
古籍提要是对其内容、著者、版本、评价等方面的简要介绍。目前对提要式书目的研究聚焦于少量提要书籍的定性分析,得到的信息有限。对此,文章首先采用文本挖掘等方法,抽取各类书目中的人物基本信息,分析高频人物的特征;其次,从提要人物... 古籍提要是对其内容、著者、版本、评价等方面的简要介绍。目前对提要式书目的研究聚焦于少量提要书籍的定性分析,得到的信息有限。对此,文章首先采用文本挖掘等方法,抽取各类书目中的人物基本信息,分析高频人物的特征;其次,从提要人物评价视角切入,剖析人物整体评价和人物写作风格评价信息;然后基于学术流派对评价进行对比,分析不同文学流派的评价。研究发现:高频文献作者往往具有高科名、广泛学术影响力、朝代分布相对集中三类显著特征;提要撰写者最倾向于关注文献作者的个人喜好、教育经历和擅长领域;提要撰写者倾向于从文学作品主要构成角度来描述人物的写作风格,《四库全书》涉及的朝代跨度最广,提要书目中的评价情感以正向和中性为主,特别是清朝、周朝和民国时期的评价更偏向正向;提要撰写者对各学术流派的评价以中性为主,对于宋明理学流派,多本提要书目的撰写者均有提及,评价较客观和正面,相较之下,对明代七子派的评价大多源于四库馆臣,评价明显更为苛刻。这些人物信息不仅多角度地展现了人物特征和人物评价的特点,还揭示了古籍提要书目中存在的人文特征和社会规律,为古籍和历史人物研究提供了新的分析视角。 展开更多
关键词 古籍提要 文本挖掘 可视化
在线阅读 下载PDF
生成式人工智能训练数据的著作权法因应:欧盟版权例外规则及其对我国的启示分析 被引量:3
20
作者 包赛君 肖冬梅 《图书馆论坛》 北大核心 2025年第6期123-132,共10页
生成式人工智能(GenAI)使用训练数据打破了著作权法构筑的利益平衡机制,遭遇合法性困境与规则适用难题,亟须立法做出回应。文章考察欧盟文本与数据挖掘(TDM)例外规则发现,其采用“双轨制”,区分科学研究目的和一般目的,规定研究组织和... 生成式人工智能(GenAI)使用训练数据打破了著作权法构筑的利益平衡机制,遭遇合法性困境与规则适用难题,亟须立法做出回应。文章考察欧盟文本与数据挖掘(TDM)例外规则发现,其采用“双轨制”,区分科学研究目的和一般目的,规定研究组织和文化遗产机构基于科学研究目的可实施TDM,而基于一般目的实施TDM则受到权利人保留的限制。这在一定程度上赋予AI开发者合理使用空间,试图维系各方主体的利益平衡,但也存在适用主体过窄、适用目的单一等不足。我国可将TDM行为纳入合理使用情形,并规定前提条件为合法访问的作品、目的为科学研究及其他合理目的,行为仅限于复制,对主体不做限制,为生成式人工智能训练数据提供制度保障。 展开更多
关键词 生成式人工智能 训练数据 著作权 文本与数据挖掘 合理使用
在线阅读 下载PDF
上一页 1 2 47 下一页 到第
使用帮助 返回顶部