在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre...在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre,旨在融合微博参与用户的属性特征与热度变化的时域特征,以提高热度预测的准确性。首先,对微博原文和互动用户的数据进行预处理,利用微调后的StructBERT模型对这些数据分类,从而确定参与互动的用户与微博原文的关联度,作为用户对该微博热度增长的贡献度权重计算的参考值;其次,使用X-means算法,以互动用户的特征为依据进行聚类,基于所得聚集态的同质性特征过滤水军,并引入针对水军样本的权重惩罚机制,结合标签关联度,进一步构建微博热度指标模型;最后,通过计算先验热度值随时间变化的二阶导数与真实数据的余弦相似度预测未来微博热度变化。实验结果表明,BXpre在不同用户量级下输出的微博舆情热度排序结果更贴近真实数据,在混合量级测试条件下,BXpre的预测相关性指标达到了90.88%,相较于基于长短期记忆(LSTM)网络、极限梯度提升(XGBoost)算法和时序差值排序(TDR)的3种传统方法,分别提升了12.71、14.80和11.30个百分点;相较于ChatGPT和文心一言,分别提升了9.76和11.95个百分点。展开更多
随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出...随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。展开更多
文摘源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法.
文摘在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre,旨在融合微博参与用户的属性特征与热度变化的时域特征,以提高热度预测的准确性。首先,对微博原文和互动用户的数据进行预处理,利用微调后的StructBERT模型对这些数据分类,从而确定参与互动的用户与微博原文的关联度,作为用户对该微博热度增长的贡献度权重计算的参考值;其次,使用X-means算法,以互动用户的特征为依据进行聚类,基于所得聚集态的同质性特征过滤水军,并引入针对水军样本的权重惩罚机制,结合标签关联度,进一步构建微博热度指标模型;最后,通过计算先验热度值随时间变化的二阶导数与真实数据的余弦相似度预测未来微博热度变化。实验结果表明,BXpre在不同用户量级下输出的微博舆情热度排序结果更贴近真实数据,在混合量级测试条件下,BXpre的预测相关性指标达到了90.88%,相较于基于长短期记忆(LSTM)网络、极限梯度提升(XGBoost)算法和时序差值排序(TDR)的3种传统方法,分别提升了12.71、14.80和11.30个百分点;相较于ChatGPT和文心一言,分别提升了9.76和11.95个百分点。
文摘随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。