期刊文献+
共找到399篇文章
< 1 2 20 >
每页显示 20 50 100
基于Transformer和Text-CNN的日志异常检测
1
作者 尹春勇 张小虎 《计算机工程与科学》 北大核心 2025年第3期448-458,共11页
日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统... 日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统的基于Transformer的方法,难以捕捉日志序列的局部特征,针对上述问题,提出了基于Transformer和Text-CNN的日志异常检测方法LogTC。首先,通过规则匹配将日志转换成结构化的日志数据,并保留日志语句中的有效信息;其次,根据日志特性采用固定窗口或会话窗口将日志语句划分为日志序列;再次,使用自然语言处理技术Sentence-BERT生成日志语句的语义化表示;最后,将日志序列的语义化向量输入到LogTC日志异常检测模型中进行检测。实验结果表明,LogTC能够有效地检测日志数据中的异常,且在2个数据集上都取得了较好的结果。 展开更多
关键词 日志异常检测 深度学习 词嵌入 TRANSFORMER text-CNN
在线阅读 下载PDF
基于证据增强和局部语义交互的多模态虚假新闻检测 被引量:2
2
作者 钟将 高晋鹏 +1 位作者 黄敬旺 杨钰铭 《计算机学报》 北大核心 2025年第3期556-571,共16页
多模态虚假新闻检测的目标是判断新闻中图像和文本内容的真实性。现有虚假新闻检测方法主要存在以下两种问题:(1)现有方法通常从整体语义角度融合图文特征,忽略了图文局部语义之间的联系,导致模型不能有效捕捉图文局部语义差异性;(2)新... 多模态虚假新闻检测的目标是判断新闻中图像和文本内容的真实性。现有虚假新闻检测方法主要存在以下两种问题:(1)现有方法通常从整体语义角度融合图文特征,忽略了图文局部语义之间的联系,导致模型不能有效捕捉图文局部语义差异性;(2)新闻的真实性往往基于可靠的证据和事实,现有方法仅依赖新闻本身的图像和文本难以判断其真假。鉴于此,本研究提出了一种基于证据增强和局部语义交互的多模态虚假新闻检测模型。针对新闻缺乏事实依据的问题,该模型引入证据文本并设计了一种证据增强方法,该方法通过证据文本筛选网络,剔除证据文本中的冗余信息,并利用自注意力模块实现新闻文本的证据增强。同时,为了增强图像语义信息,该模型先从图像块中提取局部特征,再通过双向GRU图像语义增强网络,捕获图像序列特征的上下文关系,并利用自注意力模块将图像中嵌入的文字作为新闻背景信息融入图像特征。最后,针对局部语义信息交互问题,该模型使用交叉注意力模块,学习证据增强后的文本特征和语义增强后的图像特征之间的互补信息,增强细粒度的局部语义交互,实现多模态虚假新闻的精确检测。在Weibo数据集与MR2中英文数据集上的实验结果表明,本文提出的模型性能优于基线方法,在各数据集的准确率上分别提高了0.8%、2.4%、4.9%。此外,在IKCEST第五届“一带一路”国际大数据竞赛中,使用该模型指定的方案从全球3809个方案中取得第一的成绩,证实了该方案的有效性。 展开更多
关键词 多模态虚假新闻检测 证据增强 局部语义交互 证据文本筛选 图像语义增强
在线阅读 下载PDF
双域感知下多方显式信息协同的场景端到端文本识别
3
作者 陈平平 林虎 +1 位作者 陈宏辉 谢肇鹏 《电子学报》 北大核心 2025年第3期974-985,共12页
在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party... 在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取. 展开更多
关键词 计算机视觉 场景文本图像 文本检测 端到端文本识别 特征信息关联
在线阅读 下载PDF
基于视觉技术的X、γ剂量率仪数字识别系统 被引量:1
4
作者 王雨青 黄政林 +2 位作者 刘新昊 李英帼 韦应靖 《现代电子技术》 北大核心 2025年第6期118-126,共9页
为提高X、γ剂量率仪检定、校准的自动化程度,提出一种基于计算机视觉的X、γ剂量率仪数字识别系统。该系统可实现摄像头视频采集、采集图像预处理、仪表图像的文本检测与识别以及识别结果的后处理。分别采用DBNet与CRNN-CTC作为文本检... 为提高X、γ剂量率仪检定、校准的自动化程度,提出一种基于计算机视觉的X、γ剂量率仪数字识别系统。该系统可实现摄像头视频采集、采集图像预处理、仪表图像的文本检测与识别以及识别结果的后处理。分别采用DBNet与CRNN-CTC作为文本检测与文本识别的模型,比较不同骨干网络结构对模型的影响。在平衡准确性和速度指标后,选择MoblieNetV3作为文本检测和识别模型的骨干网络,对32种常见的X、γ剂量率仪进行识别实验。结果表明:经算法过滤后,仪器识别准确率可达到100%;对于绝大部分仪器,使用数字识别系统效率可以提高20%以上,但是对于显示界面刷新面积较大的仪器,摄像机难以识别,仍需要人工检定。 展开更多
关键词 数字识别系统 机器视觉技术 深度学习 图像处理 文本检测 文本识别 计量检定
在线阅读 下载PDF
基于特征过滤和自适应融合机制的不规则场景文本检测算法
5
作者 杨帅磊 李岐龙 +2 位作者 陈杰 凡高娟 张重生 《哈尔滨工业大学学报》 北大核心 2025年第10期165-170,共6页
自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network)... 自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network),其特征聚合引导模块通过空洞卷积扩大感受野、提升网络的特征表达能力,其自适应特征融合模块能够将深层的语义信息与浅层的细节信息进行综合利用,使算法获得更强的文本感知能力。结果表明,在场景文本检测方面,FGANet相较于对比算法,在ICDAR2015、CTW1500、MSRA-TD500和Total Text 4个基准数据集上的F值分别提升了2.4%、1.3%、1.8%和1.4%,性能提升较为显著。 展开更多
关键词 自然场景图像 场景文本检测 特征过滤 自适应特征融合 文本感知能力
在线阅读 下载PDF
一种古籍文字图像篡改检测识别模型
6
作者 李永博 钱永刚 +4 位作者 刘青 马雨琪 伍胜 于显平 陈善雄 《济南大学学报(自然科学版)》 北大核心 2025年第4期585-594,共10页
为了有效检测识别被篡改的古籍文字图像,提出一种可用于古籍文字图像篡改的检测识别模型MDAS-Net。首先在边缘监督分支中提出一种全新的特征融合方式即混合注意力块,以更好地提取图像中的多尺度目标信息;其次,针对边缘监督分支和噪声敏... 为了有效检测识别被篡改的古籍文字图像,提出一种可用于古籍文字图像篡改的检测识别模型MDAS-Net。首先在边缘监督分支中提出一种全新的特征融合方式即混合注意力块,以更好地提取图像中的多尺度目标信息;其次,针对边缘监督分支和噪声敏感分支的特征融合设计一种特征传递模块E-2-N/N-2-E Help Block,促进2个分支间的信息交流,以得到更高质量的融合特征。为了验证模型的有效性,创建古籍图像篡改数据集,并联合篡改图像文本数据集(TTI)进行对比实验和消融实验。结果表明,MDAS-Net模型在古籍文字图像篡改区域检测效果良好,受试者工作特性曲线下的面积(AUC)达到了0.852,F_(1)值达到了0.784,并证明了MDAS-Net在检测古籍文字图像篡改方面的实用性。 展开更多
关键词 图像处理 特征融合 图像篡改检测 古籍文字图像 深度学习
在线阅读 下载PDF
基于掩码信息熵迁移的场景文本检测知识蒸馏
7
作者 陈建炜 沈英龙 +1 位作者 杨帆 赖永炫 《软件学报》 北大核心 2025年第9期4187-4206,共20页
自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度,需要较大的计算量和存储空间,难以部署到计算资源有限的嵌入式设备上.知识蒸馏可通过引入与教师网络相关的软目标信息,辅助训练轻量级的学生网络,实现模型压缩.... 自然场景文本检测的主流方法大多使用复杂且层数较多的网络来提升检测精度,需要较大的计算量和存储空间,难以部署到计算资源有限的嵌入式设备上.知识蒸馏可通过引入与教师网络相关的软目标信息,辅助训练轻量级的学生网络,实现模型压缩.然而,现有的知识蒸馏方法主要为图像分类任务而设计,提取教师网络输出的软化概率分布作为知识,其携带的信息量与类别数目高度相关,当应用于文本检测的二分类任务时会存在信息量不足的问题.为此,针对场景文本检测问题,定义一种新的信息熵知识,并以此为基础提出基于掩码信息熵迁移的知识蒸馏方法(mask entropy transfer,MaskET).MaskET在传统蒸馏方法的基础上引入信息熵知识,以增加迁移到学生网络的信息量;同时,为了消除图像中背景信息的干扰,MaskET通过添加掩码的方法,仅提取文本区域的信息熵知识.在ICDAR 2013、ICDAR 2015、TD500、TD-TR、Total-Text和CASIA-10K这6个公开标准数据集上的实验表明,MaskET方法优于基线模型和其他知识蒸馏方法.例如,Mask ET在CASIA-10K数据集上将基于MobileNetV3的DBNet的F1得分从65.3%提高到67.2%. 展开更多
关键词 自然场景 文本检测 知识蒸馏 信息熵
在线阅读 下载PDF
基于预训练表示和宽度学习的虚假新闻早期检测 被引量:2
8
作者 胡舜邦 王琳 刘伍颖 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期31-36,共6页
为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习... 为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习的特征节点和增强节点中,利用宽度学习的特征节点和增强节点进一步提取新闻文本的线性和非线性特征并构造分类器,从而预测新闻的真实性。最后,在3个真实数据集上进行了对比实验,结果表明,所提方法可以在4 h内检测出虚假新闻,准确率超过80%,优于基线方法。 展开更多
关键词 早期检测 虚假新闻 预训练表示 宽度学习 文本分类
在线阅读 下载PDF
融合外部知识与证据的场景图注意力网络多模态谣言检测
9
作者 黄学坚 马廷淮 +3 位作者 荣欢 王根生 廖国琼 刘德喜 《计算机学报》 北大核心 2025年第9期2159-2180,共22页
社交媒体上谣言的泛滥对社会造成了严重的负面影响。随着多模态内容在社交媒体中的迅速增长,多模态谣言检测受到了越来越多的关注。目前,大多数方法主要聚焦于学习各个模态的特征,并通过特征融合实现不同模态信息的互补。然而,这些方法... 社交媒体上谣言的泛滥对社会造成了严重的负面影响。随着多模态内容在社交媒体中的迅速增长,多模态谣言检测受到了越来越多的关注。目前,大多数方法主要聚焦于学习各个模态的特征,并通过特征融合实现不同模态信息的互补。然而,这些方法存在两个关键问题:(1)不同特征空间之间的跨模态关联难以有效捕捉图文细粒度语义的一致性;(2)单纯依赖图文内容难以识别一些造谣者精心设计的深层语义不匹配的谣言。为此,本文提出了融合证据与知识的场景图注意力网络的多模态谣言检测方法。首先,基于预训练的语言和视觉模型,分别提取文本语义和图像视觉特征,并通过误差级别分析提取图像篡改特征;其次,构建了一种基于反事实推理的无偏场景图生成方法和微调的Flan-T5模型,分别将图像和文本转化为视觉场景图和文本场景图,并利用知识蒸馏从知识库中提取场景图实体的相关知识,以增强模型对场景图的深层语义理解;接着,设计了一种融合场景关系特征的场景图注意力网络,以挖掘图文间的细粒度语义匹配特征;最后,从互联网中筛选与待检验帖子相关的文本和图片证据,并通过交叉注意力机制实现证据与待检验帖子的交互对齐,提升模型对深层语义不匹配谣言的识别能力。实验表明,在Weibo和Twitter两个真实社交网络数据集上,本文提出的方法在宏准确率上比最佳基线方法分别提高了1.6%和2.2%,而在谣言类别的F1值上,分别提高了2.6%和3.0%。实验数据和代码已在GitHub上开源共享(https://github.com/xuejianhuang/SGKE)。 展开更多
关键词 多模态谣言检测 场景图注意力网络 图文语义匹配 多模态证据对齐 知识增强
在线阅读 下载PDF
外部知识与内部上下文语义聚合的短文本新闻虚假检测模型
10
作者 邱艳芳 赵振宇 +3 位作者 孙志杰 马坤 纪科 陈贞翔 《济南大学学报(自然科学版)》 北大核心 2025年第4期569-575,584,共8页
为了解决短文本新闻语义特征稀疏以及忽略了外部知识与短文本新闻语义之间同源关联性的问题,提出一种外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(EKCS-ST),构建新闻特征信息网络,包含新闻主题、作者、实体3种外部知识,丰富... 为了解决短文本新闻语义特征稀疏以及忽略了外部知识与短文本新闻语义之间同源关联性的问题,提出一种外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(EKCS-ST),构建新闻特征信息网络,包含新闻主题、作者、实体3种外部知识,丰富短文本新闻语义特征,通过图卷积生成新闻的外部知识图特征;将新闻文本输入到文本编码器中捕获新闻内部上下文语义特征;将外部知识图特征和内部上下文语义特征用于上下文感知计算,加强外部知识与上下文语义的关联性;使用注意力机制筛选和加强新闻关键特征,并且通过调高少数类新闻的损失误差,缓解数据不均衡问题。结果表明,本文所提模型的F_(1)值即精确率和召回率的调和平均值为0.86,比BERT、TextGCN等模型分别高18%、17%,验证了模型的有效性。 展开更多
关键词 短文本新闻虚假检测 外部知识 注意力机制 语义特征
在线阅读 下载PDF
基于傅里叶中心线预测的任意形状文本检测方法
11
作者 白昆 王哲 +4 位作者 马龙 薛尧 李国栋 闫天 王晓田 《液晶与显示》 北大核心 2025年第6期905-914,共10页
文本检测技术已经非常成熟,但由于文本框的几何编码限制,检测任意形状的文本仍然是文本检测任务中的主要挑战。在自然场景中,文本呈现出多种形状,并且真实场景中的文本受到拍摄角度、背景物体的物理变形以及文本本身固有曲率的影响,仅... 文本检测技术已经非常成熟,但由于文本框的几何编码限制,检测任意形状的文本仍然是文本检测任务中的主要挑战。在自然场景中,文本呈现出多种形状,并且真实场景中的文本受到拍摄角度、背景物体的物理变形以及文本本身固有曲率的影响,仅使用矩形边界框不足以包含不规则的文本实例。为了改进检测任意形状文本的问题,我们提出了一种利用频域中的傅里叶变换来构建文本特征的方法,通过预测文本的中心线来重建预测框。预测的文本中心线不仅有助于重建复杂形状的文本框,还可以通过中心线校正辅助后续的文本识别过程。本文方法在具有挑战性的任意形状文本检测数据集CTW1500、TotalText上取得了非常有竞争力的性能。 展开更多
关键词 场景文本检测 深度神经网络 任意文本形状
在线阅读 下载PDF
一种识别和检测人工智能生成文本的算法 被引量:2
12
作者 王雨欣 刘柯飞 +1 位作者 李雪莲 王红军 《电讯技术》 北大核心 2025年第3期378-384,共7页
针对目前人工智能(Artificial Intelligence,AI)生成文本的滥用导致的学术不端、侵犯版权、隐私保护和舆情监控等问题,提出了一种基于自然语言处理的AI生成文本的识别和检测算法。该算法首先采用Word2vec方法中的连续词袋模型将文本词... 针对目前人工智能(Artificial Intelligence,AI)生成文本的滥用导致的学术不端、侵犯版权、隐私保护和舆情监控等问题,提出了一种基于自然语言处理的AI生成文本的识别和检测算法。该算法首先采用Word2vec方法中的连续词袋模型将文本词转换成词向量,并将词向量累加获得文本向量。随后利用softmax函数获取文本向量的概率分布,通过统计可视化分析AI生成文本的基本规律,并采用余弦相似性来判断文本类型。其次采用支持向量机递归特征消除算法判断文本是否由AI生成,通过K-近邻算法对文本重生成次数进行判断,进一步细化了文本检测的粒度。通过仿真实验验证了算法的有效性,结果显示算法识别准确率达80%及以上。 展开更多
关键词 AI生成文本检测 文本向量 余弦相似性 支持向量机(SVM) K-近邻(KNN)算法
在线阅读 下载PDF
基于虚拟类别匹配的分布外文本检测方法
13
作者 虞佳淼 王慧芳 +3 位作者 张亦翔 周辉 罗华峰 宣佳卓 《电网技术》 北大核心 2025年第4期1681-1688,I0075,共9页
电力专业领域的文本分类任务中,建立的深度学习模型在实际应用时常出现模型性能下降的问题,亟需分布外文本检测方法对实际文本数据进行检测,以保障模型的泛化能力。以电力现场作业文本的风险等级评级为应用背景,总结分析了分布外文本产... 电力专业领域的文本分类任务中,建立的深度学习模型在实际应用时常出现模型性能下降的问题,亟需分布外文本检测方法对实际文本数据进行检测,以保障模型的泛化能力。以电力现场作业文本的风险等级评级为应用背景,总结分析了分布外文本产生的原因及检测难点,提出了基于虚拟类别匹配的分布外文本检测方法。使用特征分解方法得到主、副成分子空间,用副成分子空间构建分布外文本的虚拟类别,以放大分布内、外文本之间的差异性。分析了该方法具有融合预测概率方法与特征分布空间方法的优势。通过分布内、外文本不同词汇相似度的数据集,验证了所提方法的可行性和有效性,并展现了在电力现场作业文本自动评级中的实际应用效果,评级性能及置信度获得大幅提升。 展开更多
关键词 分布外文本检测 虚拟类别匹配 电力现场作业 电力领域文本分类 文本挖掘
在线阅读 下载PDF
基于大语言模型和数据增强的中文毒性言论检测 被引量:1
14
作者 陈慧 朱奕竹 +2 位作者 刘明宇 陈镜宇 吴越 《情报杂志》 北大核心 2025年第4期99-107,116,共10页
[研究目的]研究中文毒性言论检测模型,不仅有助于提高网络舆情监测的准确性,还有利于推动网络空间环境的现代化治理。[研究方法]在明确无毒、隐毒和显毒标注规则的基础上,构建了三类标签均匀分布的中文毒性言论数据集ImToxCN,搭建了基... [研究目的]研究中文毒性言论检测模型,不仅有助于提高网络舆情监测的准确性,还有利于推动网络空间环境的现代化治理。[研究方法]在明确无毒、隐毒和显毒标注规则的基础上,构建了三类标签均匀分布的中文毒性言论数据集ImToxCN,搭建了基于大语言模型和数据增强方法的毒性言论检测组合模型。[研究结果/结论]实验结果表明,在ImToxCN数据集上,大语言模型RoBERTa与数据增强方法GeniusAug的组合较其他基线模型的毒性言论检测准确率更高,准确率达到84.34%。此外,该组合模型还能准确地检测隐毒和显毒言论,在其他3个公开数据集上也表现出了最优的毒性检测效果。 展开更多
关键词 毒性言论检测 毒性文本 大语言模型 数据增强 检测模型
在线阅读 下载PDF
面向社交媒体多特征增强的药物不良反应检测
15
作者 李浩 邱云志 林鸿飞 《中文信息学报》 北大核心 2025年第6期148-156,共9页
社交媒体是药物不良反应(ADR)检测的重要途径之一。该文提出一个基于社交媒体的药物不良反应检测模型DMFE,以全面捕捉患者对药物使用的反馈信息。与传统的文本检测相比,社交媒体数据中通常会有语法不规范与单词拼写错误的问题。该文提... 社交媒体是药物不良反应(ADR)检测的重要途径之一。该文提出一个基于社交媒体的药物不良反应检测模型DMFE,以全面捕捉患者对药物使用的反馈信息。与传统的文本检测相比,社交媒体数据中通常会有语法不规范与单词拼写错误的问题。该文提取出社交媒体数据的抽象语义表示(AMR),使用图注意力网络(GAT)学习抽象语义特征,提高模型对语义信息的理解,使用字符级卷积神经网络(charCNN)捕获字符特征以减少单词拼写错误带来的影响。此外,该文使用提示学习的方法融入MedDRA药物不良反应领域关键词,进一步增强模型对领域知识的理解能力。经实验评估,该文模型DMFE在CADEC、TwiMed两个数据集上F_(1)值与基线模型相比取得最优效果。 展开更多
关键词 社交媒体 药物不良反应 文本检测
在线阅读 下载PDF
面向图片数据的混凝土材料文本智能识别与分析
16
作者 邓旭方 刘乐平 +3 位作者 陈正虎 钟恒 吕沅庚 封婧仪 《水利水电技术(中英文)》 北大核心 2025年第S1期85-94,共10页
在混凝土坝建设过程中,产生了大量以非结构化文本表达的材料信息,对工程质量检测与材料进一步研发具有重要意义。受数据管理技术限制,存在大量以图片形式存储的材料文本数据,难以直接编辑与利用,无法满足混凝土材料数据智能分析与管理... 在混凝土坝建设过程中,产生了大量以非结构化文本表达的材料信息,对工程质量检测与材料进一步研发具有重要意义。受数据管理技术限制,存在大量以图片形式存储的材料文本数据,难以直接编辑与利用,无法满足混凝土材料数据智能分析与管理的需求。此外,针对海量的材料文本数据,目前缺乏智能的信息提取机制,难以高效获取文本中的关键信息。因此,提出了基于图片数据的混凝土材料文本智能解译方法,识别图片数据中的文本信息,提高了倾斜材料文本的检测与识别效率。以解译的图片数据为基础,从多角度文本特征关系出发,以MMR算法为框架,结合BERT模型以及TF-IDF算法,考虑文本语义与专业术语的重要性,建立了一套混凝土材料文本智能分析技术,提取混凝土材料文本中的关键信息。以实际混凝土材料文本为基础,该方法提取关键词的准确率为86.67%,优于其他常用的关键词提取模型。研究成果为混凝土材料不可编辑文本数据的处理提供了一种新的方法,有助于提升混凝土材料数据智能化管理水平。 展开更多
关键词 混凝土坝 材料数据 文本检测 智能识别 关键信息
在线阅读 下载PDF
BotChecker:一种基于Transformer的GitHub Bot检测模型
17
作者 张锦 吴星瑾 +1 位作者 张洋 许舜宇 《计算机工程与科学》 北大核心 2025年第7期1226-1236,共11页
在开源软件中,准确识别软件开发辅助机器人(Bot)和人类贡献者对于理解和评估贡献活动至关重要。针对深度学习模型在自然语言处理和软件工程相关领域中的优异表现,提出了一种基于Transformer架构的Bot自动检测模型BotChecker。通过在Tran... 在开源软件中,准确识别软件开发辅助机器人(Bot)和人类贡献者对于理解和评估贡献活动至关重要。针对深度学习模型在自然语言处理和软件工程相关领域中的优异表现,提出了一种基于Transformer架构的Bot自动检测模型BotChecker。通过在Transformer中引入增强的全连接层和专用的二分类器结构,该模型能有效学习Bot和人类账户的评论文本数据,进而对Bot进行检测。实验验证了BotChecker在Bot检测任务中的有效性,准确率、召回率和F 1值分别达到0.941,0.894和0.938。此外,还分析了模型超参数、零样本学习对于BotChecker性能的影响。所提出的模型可为开源社区Bot账户识别提供技术支撑,并为后续研究提供方法基准。 展开更多
关键词 开源平台 Bot检测技术 实证分析 文本处理
在线阅读 下载PDF
分布外检测中训练与测试的内外数据整合
18
作者 王祉苑 彭涛 杨捷 《计算机应用》 北大核心 2025年第8期2497-2506,共10页
分布外(OOD)检测旨在识别偏离训练数据分布的外来样本,以规避模型对异常情况的错误预测。由于真实OOD数据的不可知性,目前基于预训练语言模型(PLM)的OOD检测方法尚未同时评估OOD分布在训练与测试阶段对检测性能的影响。针对这一问题,提... 分布外(OOD)检测旨在识别偏离训练数据分布的外来样本,以规避模型对异常情况的错误预测。由于真实OOD数据的不可知性,目前基于预训练语言模型(PLM)的OOD检测方法尚未同时评估OOD分布在训练与测试阶段对检测性能的影响。针对这一问题,提出一种训练与测试阶段整合内外数据的OOD文本检测框架(IEDOD-TT)。该框架分阶段采用不同的数据整合策略:在训练阶段通过掩码语言模型(MLM)在原始训练集上生成伪OOD数据集,并引入对比学习增强内外数据之间的特征差异;在测试阶段通过结合内外数据分布的密度估计设计一个综合的OOD检测评分指标。实验结果表明,所提方法在CLINC150、NEWS-TOP5、SST2和YELP这4个数据集上的综合表现与最优基线方法 doSCL-cMaha相比,平均接受者操作特征曲线下面积(AUROC)提升了1.56个百分点,平均95%真阳性率下的假阳性率(FPR95)降低了2.83个百分点;与所提方法的最佳变体IS/IEDOD-TT(ID Single/IEDOD-TT)相比,所提方法在这4个数据集上的平均AUROC提升了1.61个百分点,平均FPR95降低了2.71个百分点。实验结果证明了IEDOD-TT在处理文本分类任务时针对不同数据分布偏移的有效性,并验证了综合考虑内外数据分布的额外性能提升。 展开更多
关键词 分布外检测 预训练语言模型 内外数据整合 对比学习 文本分类
在线阅读 下载PDF
基于高分辨扩展金字塔的场景文本检测
19
作者 王满利 窦泽亚 +2 位作者 蔡明哲 刘群坡 史艳楠 《电子与信息学报》 北大核心 2025年第7期2334-2346,共13页
文本检测作为计算机视觉领域一项重要分支,在文字翻译、自动驾驶和票据信息处理等方面具有重要的应用价值。当前文本检测算法仍无法解决实际拍摄图像的部分文本分辨率低、尺度变化大和有效特征不足的问题。针对上述待解决的问题,该文提... 文本检测作为计算机视觉领域一项重要分支,在文字翻译、自动驾驶和票据信息处理等方面具有重要的应用价值。当前文本检测算法仍无法解决实际拍摄图像的部分文本分辨率低、尺度变化大和有效特征不足的问题。针对上述待解决的问题,该文提出一种基于高分辨扩展金字塔的场景文本检测方法(HREPNet)。首先,构造一种改进型特征金字塔,引入高分辨扩展层和超分辨特征模块,有效增强文本分辨率特征,解决部分文本分辨率低的问题;同时,在主干网络传递特征过程中引入多尺度特征提取模块,通过多分支空洞卷积结构与注意力机制,充分获取文本多尺度特征,解决文本尺度变化大的问题;最后,提出高效特征融合模块,选择性融合高分辨特征和多尺度特征,从而减少模型的空间信息的丢失,解决有效特征不足的问题。实验结果表明,HREPNet在公开数据集ICDAR2015,CTW1500和Total-Text上综合指标F值分别提高了7.6%,5.5%和3.0%,在准确率召回率上都得到显著提升;此外,HREPNet对不同尺度和分辨率的文本检测效果均有明显提升,对小尺度和低分辨率文本提升尤为显著。 展开更多
关键词 文本检测 高分辨扩展金字塔 多尺度特征提取模块 高效特征融合模块
在线阅读 下载PDF
TextRail:复杂自然场景下的不规则文本检测算法
20
作者 马静 薛浩 郭小宇 《计算机工程与应用》 CSCD 北大核心 2023年第21期112-122,共11页
文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出... 文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出了一种文本边轨模型(TextRail),该模型基于文本上、下边界基准点表示文本区域的思想,实现对任意形状文本的高效检测。TextRail使用全卷积网络(full convolutional network,FCN)及特征金字塔网络(feature pyramid network,FPN)提取文本图像特征;将特征送入检测头网络,实现文本区域上下边界基准点的预测,将预测结果通过位置感知非极大抑制(locality-aware non-maximum suppression,LNMS)合并,得到最终的上下边界基准点;采用薄板样条插值(thin plate spline,TPS)的方法实现对不规则文本的自动矫正。通过大量的实验验证,TextRail在F1分值上优于其他文本检测模型。同时TextRail模型可以准确表示出文字的朝向、弯曲和变形情况,有效提升了不规则文本检测的准确率和鲁棒性。 展开更多
关键词 复杂自然场景 不规则文本检测 文本矫正 基准点 textRail模型
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部