期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
基于全局语义信息的GR-BERT模型 被引量:1
1
作者 王煜华 胡俊英 +2 位作者 孙凯 常培菊 费蓉蓉 《工程数学学报》 北大核心 2025年第4期751-762,共12页
关系抽取是提取实体间关系的一项重要的自然语言处理任务。最近的研究发现,预训练BERT模型在自然语言处理任务中取得了非常好的效果。此后,诞生了大量使用预训练BERT模型处理关系抽取任务的方法,其中具有代表性的是R-BERT方法。但是,该... 关系抽取是提取实体间关系的一项重要的自然语言处理任务。最近的研究发现,预训练BERT模型在自然语言处理任务中取得了非常好的效果。此后,诞生了大量使用预训练BERT模型处理关系抽取任务的方法,其中具有代表性的是R-BERT方法。但是,该方法在实现时未考虑主语实体与宾语实体在语义上的差异,以及全局语义信息对关系抽取任务准确性的影响。通过设置两个不同的全连接层来分别提取主语实体和宾语实体的信息,从而将主语实体与宾语实体在语义上的差异引入模型的学习过程中。此外,还在原有的信息融合模块后面添加了一层带有激活函数的新全连接层来将高维全局语义信息与实体对充分融合。将融合了语义差异与全局语义信息的R-BERT简称为GR-BERT。通过在中文人物关系抽取数据集上进行实验,结果表明新提出的GR-BERT的效果较原始R-BERT取得了显著提升,从而验证了新方法GR-BERT的有效性。 展开更多
关键词 bert模型 自然语言处理 关系抽取 神经网络
在线阅读 下载PDF
基于BERT模型的源代码漏洞检测技术研究
2
作者 罗乐琦 张艳硕 +2 位作者 王志强 文津 薛培阳 《信息安全研究》 CSCD 北大核心 2024年第4期294-301,共8页
源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representat... 源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法. 展开更多
关键词 漏洞检测 深度学习 PYTHON语言 bert模型 自然语言处理
在线阅读 下载PDF
基于BERT模型的“互联网+政务”群众留言文本热点追踪研究 被引量:12
3
作者 徐绪堪 印家伟 王晓娇 《情报杂志》 CSSCI 北大核心 2022年第9期136-142,78,共8页
[研究目的]大数据时代,提升政府治理能力和人民群众生活幸福感是各级政府核心任务,尤其是从群众留言文本中获取民众关注的热点问题,从而快速响应并及时解决群众反馈的问题,从群众留言文本中提取有价值的热点对政府部门显得尤其紧迫和必... [研究目的]大数据时代,提升政府治理能力和人民群众生活幸福感是各级政府核心任务,尤其是从群众留言文本中获取民众关注的热点问题,从而快速响应并及时解决群众反馈的问题,从群众留言文本中提取有价值的热点对政府部门显得尤其紧迫和必要。[研究方法]以从上海市政府信箱、上海市委信箱、上海信访的“互联网+政务”网络平台爬取的群众留言29074条数据为研究对象,对比分析BERT、LSTM以及FastText三个模型的分类效果,选择BERT模型构建群众留言热点追踪框架,对反馈最多的住房规划、医疗卫生和交通出行三类问题使用Affinity Propagation聚类算法与BERT实体命名识别相结合的方式对每个分类下的问题进行聚类,最后通过聚类形成的问题进行热度计算得出群众反馈的热点问题。[研究结论]从热点追踪的结果可知住房安全、疫情防控和两港快线设立分别为住房规划、医疗卫生和交通出行三类留言中讨论热度最高的问题,据此提出针对性建议。 展开更多
关键词 bert模型 互联网+政务 群众留言 Affinity Propagation聚类方法 文本分类
在线阅读 下载PDF
基于BERT模型的排比句自动识别方法 被引量:4
4
作者 朱晓亮 谯宇同 《计算机应用与软件》 北大核心 2021年第7期153-158,共6页
排比句的条理清晰、气势宏大,为各类文体的写作所广泛使用,但目前排比句自动识别方法的识别效率欠佳。采用深度学习的方法来优化排比句的自动识别;设计融合预处理算法与BERT模型的排比句自动识别方法,提升模型的整体表现。针对作文数据... 排比句的条理清晰、气势宏大,为各类文体的写作所广泛使用,但目前排比句自动识别方法的识别效率欠佳。采用深度学习的方法来优化排比句的自动识别;设计融合预处理算法与BERT模型的排比句自动识别方法,提升模型的整体表现。针对作文数据集的测试结果表明,其识别效果和计算性能均有所改善,从而验证了该方法的有效性。 展开更多
关键词 作文 排比句 自动抽取 bert模型
在线阅读 下载PDF
基于领域BERT模型的服务文本分类方法 被引量:5
5
作者 闫云飞 孙鹏 +2 位作者 张杰勇 马钰棠 赵亮 《空军工程大学学报》 CSCD 北大核心 2023年第1期103-111,共9页
针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BE... 针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BERT-BiLSTM模型实现服务文本分类;最后,针对数据集的类别数量不均衡和分类难易不均衡问题,在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能,在互联网获取的真实数据集上进行了大量对比试验,实验结果表明:WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比,WBBI模型具有更快的收敛速度和更好的分类效果。 展开更多
关键词 服务分类 文本分类 bert模型 双向长短时记忆网络(BiLSTM) 焦点损失函数
在线阅读 下载PDF
基于Bert模型的互联网不良信息检测 被引量:5
6
作者 蔡鑫 《电信科学》 2020年第11期121-126,共6页
针对互联网不良信息检测这一业务场景,探讨了基于网站文本内容进行检测的方法。回顾了经典的文本分析技术,重点介绍了Bert模型的关键技术特点及其两种不同用法。详细描述了利用其中的特征提取方法,进行网站不良信息检测的具体实施方案,... 针对互联网不良信息检测这一业务场景,探讨了基于网站文本内容进行检测的方法。回顾了经典的文本分析技术,重点介绍了Bert模型的关键技术特点及其两种不同用法。详细描述了利用其中的特征提取方法,进行网站不良信息检测的具体实施方案,并且与传统的TF-IDF模型以及word2vec+LSTM模型进行了对比验证,证实了这一方法的有效性。 展开更多
关键词 不良信息 bert模型 文本分析 特征提取
在线阅读 下载PDF
社交网络内容用户“茧房趋同性”——基于BERT模型的新浪微博样本研究 被引量:5
7
作者 徐翔 余珺君 《北京理工大学学报(社会科学版)》 CSSCI 北大核心 2023年第4期182-191,共10页
网络个性化信息消费时代,信息茧房带来的社会文化风险受到广泛关注。在“千人千面”的个性化表层之下,陷入“茧房”是让用户走向内容趋同还是趋异,是具有争议的学术命题和亟需检验的现实问题。基于BERT模型,以新浪微博用户(N=2 143)为样... 网络个性化信息消费时代,信息茧房带来的社会文化风险受到广泛关注。在“千人千面”的个性化表层之下,陷入“茧房”是让用户走向内容趋同还是趋异,是具有争议的学术命题和亟需检验的现实问题。基于BERT模型,以新浪微博用户(N=2 143)为样本,实证检视社交网络内容生产中的用户“茧房趋同性”现象。主要研究发现:(1)任意两个用户的内容相似程度,能够通过彼此的“茧房”程度予以表达和预测;(2)“茧房”程度越高的用户彼此的内容相似程度越高,“茧房”程度差异越大的用户彼此的内容相似程度越低。结果从相似关系视角拓展和反思对信息茧房的认知,有助于深入刻画社交媒体UGC用户趋同背后的复杂机制和实践问题。 展开更多
关键词 信息茧房 用户趋同化 内容同质化 用户内容生产 bert模型
在线阅读 下载PDF
基于机器学习的新闻论证结构研究——以Bert模型与主流媒体新闻评论为例 被引量:2
8
作者 陈阳 周子杰 +1 位作者 俞蔚捷 许洪腾 《当代传播》 CSSCI 北大核心 2023年第1期74-79,共6页
新闻报道是叙述新闻事实的文本,评论是对新闻事实进行论证的文本。新闻评论相较于新闻报道更直接表达立场、价值与意识形态,为新闻学研究提供了丰富的文本资源,对新闻论证的研究也存在较广阔的理论创新空间。本文以图尔敏模型为基础,形... 新闻报道是叙述新闻事实的文本,评论是对新闻事实进行论证的文本。新闻评论相较于新闻报道更直接表达立场、价值与意识形态,为新闻学研究提供了丰富的文本资源,对新闻论证的研究也存在较广阔的理论创新空间。本文以图尔敏模型为基础,形成一套测量新闻评论的量表,同时使用人工编码的方式处理多篇中央主流新闻媒体的新闻评论文本,形成6109个编码单元。使用机器学习算法(基于Bert模型),以监督学习的方式使机器探索并掌握人工编码的规则。机器学习共有4个独立任务,使用4个学习模型,最终调和准确率(f1 score)分别为95.758%、63.901%、83.794%和84.766%,学习效果整体较优。本文为进一步探索新闻论证提供了工具,以实现对新闻评论更广泛与深入的研究。 展开更多
关键词 新闻评论 新闻论证 图尔敏模型 bert模型
在线阅读 下载PDF
基于改进BERT模型的吸毒人员聊天文本挖掘
9
作者 张立 范馨月 《计算机应用与软件》 北大核心 2022年第11期168-172,207,共6页
对涉毒人员聊天文本进行语义分析,可快速精准地挖掘出海量复杂网络中涉毒人员并及时追踪调查。利用带有方言特色和特定语境的吸毒信息采集平台的吸毒人员聊天文本数据,采用改进BERT模型训练涉毒人员聊天文本,通过学习上下文语境,对聊天... 对涉毒人员聊天文本进行语义分析,可快速精准地挖掘出海量复杂网络中涉毒人员并及时追踪调查。利用带有方言特色和特定语境的吸毒信息采集平台的吸毒人员聊天文本数据,采用改进BERT模型训练涉毒人员聊天文本,通过学习上下文语境,对聊天文本的语义挖掘效果显著,在准确率、召回率和F1值均优于贝叶斯模型,对涉毒文本正确分类准确率达到90%。对具有方言特色暗号的聊天文本数据,BERT模型可以高效地挖掘潜在涉毒人员,为禁毒部门对涉毒人员管控提供决策辅助。 展开更多
关键词 文本挖掘 bert模型 贝叶斯分类模型 涉毒人员挖掘
在线阅读 下载PDF
融合BERT与X-means算法的微博舆情热度分析预测模型
10
作者 蒋章涛 李欣 +1 位作者 张士豪 赵心阳 《计算机应用》 北大核心 2025年第10期3138-3145,共8页
在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre... 在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre,旨在融合微博参与用户的属性特征与热度变化的时域特征,以提高热度预测的准确性。首先,对微博原文和互动用户的数据进行预处理,利用微调后的StructBERT模型对这些数据分类,从而确定参与互动的用户与微博原文的关联度,作为用户对该微博热度增长的贡献度权重计算的参考值;其次,使用X-means算法,以互动用户的特征为依据进行聚类,基于所得聚集态的同质性特征过滤水军,并引入针对水军样本的权重惩罚机制,结合标签关联度,进一步构建微博热度指标模型;最后,通过计算先验热度值随时间变化的二阶导数与真实数据的余弦相似度预测未来微博热度变化。实验结果表明,BXpre在不同用户量级下输出的微博舆情热度排序结果更贴近真实数据,在混合量级测试条件下,BXpre的预测相关性指标达到了90.88%,相较于基于长短期记忆(LSTM)网络、极限梯度提升(XGBoost)算法和时序差值排序(TDR)的3种传统方法,分别提升了12.71、14.80和11.30个百分点;相较于ChatGPT和文心一言,分别提升了9.76和11.95个百分点。 展开更多
关键词 微博舆情热度分析预测 bert模型 X-means算法 水军识别 社交网络分析
在线阅读 下载PDF
基于BERT并融合法律事件信息的罪名预测方法
11
作者 邱一卉 喻瑶瑶 《厦门大学学报(自然科学版)》 北大核心 2025年第4期642-652,共11页
[目的]罪名预测是AI&Law领域的一个关键研究内容,对于提升司法领域的判决效率具有重要意义.由于法律文本的专业性和复杂性,传统罪名预测模型在提取法律文本特征时面临挑战,因此本文提出了一个基于预训练语言模型(BERT)并融合法律事... [目的]罪名预测是AI&Law领域的一个关键研究内容,对于提升司法领域的判决效率具有重要意义.由于法律文本的专业性和复杂性,传统罪名预测模型在提取法律文本特征时面临挑战,因此本文提出了一个基于预训练语言模型(BERT)并融合法律事件信息的罪名预测模型,通过利用法律事件信息为模型提供更多的法律案件特征,提升模型对案件的理解,从而提升罪名预测的表现.[方法]首先训练了一个全局上层事件类型信息增强的法律事件检测模型,利用其对案情描述中的法律事件类型进行检测,并在此基础上构建法律事件类型序列.其次,利用双向长短期记忆模型(BiLSTM)对法律事件类型序列进行编码获取法律事件信息,并将法律事件信息与经过BERT编码后的案情描述的语义表示拼接融合,最后利用一层全连接层对罪名进行预测.[结果]在公开的刑事案件数据集CAIL2018-small上的实验结果表明,相比于领域内的其他基线模型,本文提出的模型在各个关键指标上具备更好的性能,即在Mac.F_(1)上平均提升3.12个百分点,在Mac.P上平均提升1.94个百分点,在Mac.R上平均提升3.53个百分点.[结论]验证了法律事件信息在增强模型对案件理解方面的有效性,从而提高罪名预测的准确性. 展开更多
关键词 AI&Law bert模型 罪名预测 法律事件信息
在线阅读 下载PDF
面向中文小样本命名实体识别的BERT优化方法 被引量:1
12
作者 杨三和 赖沛超 +3 位作者 傅仰耿 王一蕾 叶飞扬 张林 《小型微型计算机系统》 北大核心 2025年第3期602-611,共10页
为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于... 为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于提示学习与对比学习的BERT预训练策略.在提示学习阶段,设计掩码填充模板来训练BERT预测出每个标记对应的中文标签词.在对比学习阶段,利用引导模板训练BERT学习每个标记和标签词之间的相似性与差异性.其次,针对中文缺乏明确的词边界所带来的复杂性和挑战性,修改BERT模型的第一层Transformer结构,并设计了一种带有混合权重引导器的特征融合模块,将词典信息集成到BERT底层中.最后,实验结果验证了所提方法在中文小样本NER任务中的有效性与优越性.该方法结合BERT和条件随机场(CRF)结构,在4个采样的中文NER数据集上取得了最好的性能.特别是在Weibo数据集的3个小样本场景下,模型的F 1值分别达到了63.78%、66.27%、70.90%,与其他方法相比,平均F 1值分别提高了16.28%、14.30%、11.20%.此外,将ProConBERT应用到多个基于BERT的中文NER模型中能进一步提升实体识别的性能. 展开更多
关键词 中文小样本命名实体识别 提示学习 对比学习 预训练 特征融合 bert模型
在线阅读 下载PDF
BERT人工智能模型能识别管理层语调中的机会主义吗?——基于上市公司年报的文本分析 被引量:2
13
作者 洪康隆 《证券市场导报》 CSSCI 北大核心 2024年第10期27-37,68,共12页
以往研究发现,上市公司管理层存在通过操纵年报语调积极程度掩盖不利信息,误导投资者作出投资决策的“机会主义”现象。本文以2007—2022年我国A股上市公司年度报告“管理层讨论与分析”(MD&A)章节为样本,探讨BERT人工智能模型对管... 以往研究发现,上市公司管理层存在通过操纵年报语调积极程度掩盖不利信息,误导投资者作出投资决策的“机会主义”现象。本文以2007—2022年我国A股上市公司年度报告“管理层讨论与分析”(MD&A)章节为样本,探讨BERT人工智能模型对管理层语调中机会主义倾向的识别效果。研究发现,BERT模型度量下的管理层语调积极程度能识别管理层的机会主义倾向,并预测下一年管理层的机会主义行为,且其识别效果比传统的词袋法更好。年报文本语气可操纵程度越高,前述识别效果的差异越显著。进一步研究发现,BERT模型能更准确地预测企业未来业绩表现和股价崩盘风险。本文将BERT模型纳入财经文本情感分析领域,为MD&A语调的度量方法提供了新思路。本文的研究结论进一步完善了信号传递理论,不仅有助于报表使用者对上市公司年度报告这类复杂文本进行情感分析,减少管理层操纵文本带来的错误定价,也为监管部门通过年报文本语调识别管理层的机会主义倾向以及使用人工智能大模型助力数字化、智能化监管提供了证据。 展开更多
关键词 管理层语调 bert模型 机会主义 词袋法
在线阅读 下载PDF
面向煤矿安全隐患文本的预训练语言模型构建
14
作者 李泽荃 刘飞翔 +2 位作者 赵嘉良 祁慧 李靖 《矿业安全与环保》 北大核心 2025年第3期185-192,共8页
煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)... 煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)。利用收集到的110万余条煤矿隐患排查记录数据和自构建的1 328个领域术语词典进行模型训练,并在煤矿安全隐患文本分类和命名实体识别2个任务上分别进行对比实验。研究结果表明:在文本分类实验中,CoalBERT模型总体结果的精准率、召回率和综合评价指标F_(1)值较双向编码器表征法预训练模型(BERT)分别提高0.34%、0.21%、0.27%;在命名实体识别实验中,CoalBERT模型的精准率和F_(1)值较BERT模型分别提高3.84%、2.13%。CoalBERT模型能够有效提升煤矿安全隐患文本语义理解能力,可为煤矿安全领域文本挖掘相关任务场景提供基础参考。 展开更多
关键词 bert模型 煤矿安全隐患文本 文本分类 命名实体识别 预训练模型 任务微调
在线阅读 下载PDF
一种融合BERT和注意力机制的新闻文本分类方法
15
作者 熊亿坤 付雪峰 +2 位作者 盛黄煜 胡昊 汪涛涛 《江西师范大学学报(自然科学版)》 北大核心 2025年第1期49-57,共9页
文本分类任务是在自然语言处理中的一项重要任务,旨在将给定的文本分配到预定义的不同类别或标签中.针对近年来备受关注的注意力机制和一种基于Transformer结构的预训练模型BERT,该文提出一种基于BERT-TextRCNN-Attention混合神经网络... 文本分类任务是在自然语言处理中的一项重要任务,旨在将给定的文本分配到预定义的不同类别或标签中.针对近年来备受关注的注意力机制和一种基于Transformer结构的预训练模型BERT,该文提出一种基于BERT-TextRCNN-Attention混合神经网络的新闻文本分类方法.为了增强文本的特征表示和模型的分类效果,该分类方法首先使用BERT预训练模型对文本进行预训练,并作为TextRCNN的词向量嵌入,其次采用TextRCNN模型和注意力机制进一步对文本的上下文特征和局部关键特征进行提取,再对新闻文本进行分类;最后在THUCNews数据集上进行对比实验.实验结果表明:该文提出方法在准确率和F_(1)值上比Transformer、TextRNN、TextCNN、DPCNN等文本分类模型均有所提升. 展开更多
关键词 bert模型 基于卷积神经网络的文本分类模型 注意力机制 新闻文本分类
在线阅读 下载PDF
基于BERT和SSA-BXS的水稻表型组学实体分类研究
16
作者 祝心雨 徐达宇 张旭尧 《南方农机》 2025年第15期1-8,14,共9页
【目的】解决由于水稻表型组学数据丰富多样而导致的信息提取和利用效率较低等问题,提高水稻表型组学实体分类的准确性和效率。【方法】提出了一种基于麻雀搜索算法优化的水稻表型组学实体分类模型。该模型采用创新的混合集成学习策略,... 【目的】解决由于水稻表型组学数据丰富多样而导致的信息提取和利用效率较低等问题,提高水稻表型组学实体分类的准确性和效率。【方法】提出了一种基于麻雀搜索算法优化的水稻表型组学实体分类模型。该模型采用创新的混合集成学习策略,并引入BERT模型,以利用其深度双向编码能力高效提取水稻表型组学实体的词向量特征,实现精准分类。此外,与传统单一分类器(SVM、LGBM、XGBoost、CatBoost和MLP)进行了比较实验,验证本研究所提方法的优越性。【结果】SSA-BXS模型在准确率、精确率、召回率和F1-score等关键指标上均显著优于其他方法,分别达88.07%、90.85%、88.07%和88.32%。【结论】本研究所提出的混合整合方法在水稻表型组学实体分类任务中的表现出色,显示出其实用价值与潜力,可为未来水稻表型组学的深入研究提供有力支持。 展开更多
关键词 水稻表型组学 实体分类 麻雀搜索算法 混合集成学习 bert模型
在线阅读 下载PDF
全球战略性矿产资源信息感知技术方法构建及模型研究
17
作者 肖飞 曾建鹰 +5 位作者 李政 陈从喜 郭文华 张玉韩 朱力维 仇巍巍 《中国矿业》 北大核心 2025年第2期48-56,2,共10页
收集和分析全球战略性矿产资源信息情报对于建立战略性矿产监测预警机制至关重要。得益于互联网的飞速发展,各国政府、矿业企业和研究机构等通过互联网公开发布了海量的矿产资源信息,但这些信息具备鲜明的大数据特征,使得感知分析面临... 收集和分析全球战略性矿产资源信息情报对于建立战略性矿产监测预警机制至关重要。得益于互联网的飞速发展,各国政府、矿业企业和研究机构等通过互联网公开发布了海量的矿产资源信息,但这些信息具备鲜明的大数据特征,使得感知分析面临巨大挑战。本文研究了面向矿产资源信息感知的大数据技术方法和信息感知模型,构建了“采集—处理—存储”一体化的全球战略性矿产资源信息感知大数据技术框架,解决了全球战略性矿产资源信息实时监测和分析的数据采集和信息提取问题;面向全球战略性矿产资源全生命周期重要信息节点,针对性地提出了实体识别、关系抽取、事件抽取和文本分类四项全球战略性矿产资源信息感知任务,构建了万条规模的矿产资源信息感知数据集,建立了基于BERT的全球战略性矿产资源信息感知模型,解决了非结构化矿产资源信息语义内容的结构化提取问题。实验表明,模型在各项感知任务的精准率和召回率指标均达到0.75以上,且各项任务预测的平均值达到0.80以上,证明模型具有较强的泛化能力,能够有效理解矿产资源领域专业术语要素,精准捕捉要素关联关系,具有较高的实用价值。本文提出了一套自动化的全球战略性矿产资源信息感知技术方法和模型,可为全球战略性矿产资源安全预警提供信息感知技术支撑。 展开更多
关键词 战略性矿产资源 信息感知 大数据 感知模型 预训练 bert模型
在线阅读 下载PDF
海南黎锦色彩特征提取与配色推荐模型的构建
18
作者 罗璇 孙佳玉 +1 位作者 沈彬姿 汪怡彤 《毛纺科技》 北大核心 2025年第8期54-61,共8页
为识别和区分海南黎族五方言织锦的色彩构成差异并给出针对性配色推荐方案,基于聚类算法-高斯混合模型-双向编码器表征法(K-means-Gaussian Mixture Model-Bidirectional Encoder Representations from Transformers,KM-GMM-BERT)进行... 为识别和区分海南黎族五方言织锦的色彩构成差异并给出针对性配色推荐方案,基于聚类算法-高斯混合模型-双向编码器表征法(K-means-Gaussian Mixture Model-Bidirectional Encoder Representations from Transformers,KM-GMM-BERT)进行黎锦色彩特征提取及其配色推荐模型构建。针对黎族五方言织锦的色彩差异和文化意象,从各方言中选取共计579幅具有代表性的织锦图像;首先应用K-means和GMM算法进行色彩特征提取并构建各家方言的色彩网络关系模型;其次,采用BERT模型对海南黎族五家方言的意向词语库进行配色推荐模型训练,并构建配色推荐系统。结果显示,5家方言织锦色彩视觉上较为相似但具体用色占比及配色不尽相同,模型训练的损失函数值稳定在0.04左右,拟合效果良好。该方法能有效分析并推荐不同方言的色彩搭配,以可视化形式辅助设计流程。 展开更多
关键词 海南黎锦 色彩聚类 bert模型 配色推荐
在线阅读 下载PDF
基于BERT的农作物命名实体识别模型研究 被引量:2
19
作者 沈子雷 杜永强 《计算机应用与软件》 北大核心 2024年第6期223-229,共7页
随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出... 随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。 展开更多
关键词 命名实体识别 bert预训练语言模型 双向LSTM 农作物
在线阅读 下载PDF
基于知识注入的燃气知识双向变换器模型
20
作者 柳晓昱 庄育锋 +2 位作者 赵兴昊 王珂璠 张国开 《中国安全科学学报》 北大核心 2025年第3期204-211,共8页
为提高燃气管网领域的应急管理水平,提出燃气知识双向变换器(Gas-kBERT)模型。该模型结合聊天生成预训练转换器(ChatGPT)扩充的燃气管网领域数据,以及构建的中文燃气语言理解-三元组(CGLU-Spo)和相关语料库,通过改变模型的掩码(MASK)机... 为提高燃气管网领域的应急管理水平,提出燃气知识双向变换器(Gas-kBERT)模型。该模型结合聊天生成预训练转换器(ChatGPT)扩充的燃气管网领域数据,以及构建的中文燃气语言理解-三元组(CGLU-Spo)和相关语料库,通过改变模型的掩码(MASK)机制,成功将领域知识注入模型中。考虑到燃气管网领域的专业性和特殊性,Gas-kBERT在不同规模和内容的语料库上进行预训练,并在燃气管网领域的命名实体识别和分类任务上进行微调。结果表明:与通用的双向变换器(BERT)模型相比,Gas-kBERT在燃气管网领域的文本挖掘任务中F 1值表现出显著的提升。在命名实体识别任务中,F 1值提高29.55%;在文本分类任务中,F 1值提升高达83.33%。由此证明Gas-kBERT模型在燃气管网领域的文本挖掘任务中具有出色的表现。 展开更多
关键词 燃气管网 燃气知识双向变换器(Gas-kbert)模型 自然语言处理(NLP) 知识注入 双向变换器(bert)模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部