期刊文献+
共找到610篇文章
< 1 2 31 >
每页显示 20 50 100
融合BERT BiLSTM CRF的城市内涝灾害风险要素识别方法研究
1
作者 张乐 张海龙 +1 位作者 李锋 吴敏 《安全与环境学报》 北大核心 2025年第8期3176-3188,共13页
为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素... 为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素识别的专业性、精准度要求较高等问题,结合自然灾害系统理论的风险要素框架,提出了一种基于双向编码器表征法-双向长短期记忆-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field,BERT-BiLSTM-CRF)的识别方法,并开展了一系列模型验证试验。对比试验结果表明,该模型在准确率、召回率、F_(1)三项指标上均有较好表现,其中准确率为84.62%,召回率为86.19%,F_(1)为85.35%,优于其他对比模型。消融试验结果表明,BERT预训练模型对于该模型性能有着更为显著的影响。综合上述试验结果,可以验证该模型能够有效识别城市内涝舆情信息中的各类风险要素,进而为城市内涝灾害风险管控的数智化转型提供研究依据。 展开更多
关键词 公共安全 城市内涝 双向编码器表征法 双向长短期记忆网络 条件随机场 舆情信息 风险要素识别
在线阅读 下载PDF
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究 被引量:4
2
作者 余礼根 郭晓利 +3 位作者 赵红涛 杨淦 张俊 李奇峰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期287-294,共8页
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona... 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。 展开更多
关键词 畜禽疫病 文本分词 预训练语言模型 双向长短时记忆网络 条件随机场
在线阅读 下载PDF
融合多尺度CNN和CRF的通用细粒度事件检测
3
作者 任永功 阎格 何馨宇 《小型微型计算机系统》 CSCD 北大核心 2024年第4期859-864,共6页
事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CN... 事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CNN的神经网络模型(BMCC,BERT+Multi-scale CNN+CRF).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练模型来进行词向量的嵌入,并利用其双向训练的Transformer机制来提取序列的状态特征;其次使用不同尺度的卷积核在多个卷积通道中进行卷积训练,以此来提取不同视野的语义信息,丰富其语义表征.最后将BIO机制融入到条件随机场(CRF)来对序列进行标注,实现事件的检测.实验结果表明,所提出的模型在MAVEN数据集上的F1值为65.17%,表现了该模型的良好性能. 展开更多
关键词 事件检测 BERT 多尺度CNN 条件随机场(crf) 交叉验证
在线阅读 下载PDF
Fast segmentation approach for SAR image based on simple Markov random field 被引量:8
4
作者 Xiaogang Lei Ying Li Na Zhao Yanning Zhang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2010年第1期31-36,共6页
Traditional image segmentation methods based on MRF converge slowly and require pre-defined weight. These disadvantages are addressed, and a fast segmentation approach based on simple Markov random field (MRF) for S... Traditional image segmentation methods based on MRF converge slowly and require pre-defined weight. These disadvantages are addressed, and a fast segmentation approach based on simple Markov random field (MRF) for SAR image is proposed. The approach is firstly used to perform coarse segmentation in blocks. Then the image is modeled with simple MRF and adaptive variable weighting forms are applied in homogeneous and heterogeneous regions. As a result, the convergent speed is accelerated while the segmentation results in homogeneous regions and boarders are improved. Simulations with synthetic and real SAR images demonstrate the effectiveness of the proposed approach. 展开更多
关键词 SAR image segmentation simple Markov random field coarse segmentation maximum a posterior iterated condition mode.
在线阅读 下载PDF
基于CRF的中文语法错误诊断系统的实现与应用 被引量:1
5
作者 李斌 王浩畅 《计算机科学》 CSCD 北大核心 2024年第S01期1129-1134,共6页
随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状... 随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状。其次,通过对各种中文语法错误诊断方法的分析,构建了基于条件随机场的中文语法错误诊断系统,探究中文语法自动检错系统及其具体应用流程,以帮助中文学习者提高学习效率。在CGED2016数据集上的实验结果表明,该系统在检测层和识别层上的性能较好,在位置层上还需要改进。 展开更多
关键词 中文语法错误诊断 序列标注 条件随机场 自然语言处理
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的隧道施工安全领域命名实体识别 被引量:3
6
作者 张念 周彩凤 +3 位作者 万飞 刘非 王耀耀 徐栋梁 《中国安全科学学报》 CSCD 北大核心 2024年第12期56-63,共8页
为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故... 为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故文本实体识别方法。首先,利用BERT模型将隧道施工事故文本编码得到蕴含语义特征的词向量;然后,将BERT模型训练后输出的词向量输入BiLSTM模型进一步获取隧道施工事故文本的上下文特征并进行标签概率预测;最后,利用CRF层的标注规则的约束,修正BiLSTM模型的输出结果,得到最大概率序列标注结果,从而实现对隧道施工事故文本标签的智能分类。将该模型与其他4种常用的传统NER模型在隧道施工安全事故语料数据集上进行对比试验,试验结果表明:BERT-BiLSTM-CRF模型的识别准确率、召回率和F 1值分别达到88%、89%和88%,实体识别效果优于其他基准模型。利用所建立的NER模型识别实际隧道施工事故文本中的实体,验证了其在隧道施工安全领域中的应用效果。 展开更多
关键词 变换器的双向编码器表征(BERT) 双向长短时记忆(BiLSTM)网络 条件随机场(crf) 隧道施工 安全领域 命名实体识别(NER) 深度学习
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
7
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(crf)
在线阅读 下载PDF
基于随机提示的中文法律领域命名实体识别
8
作者 周鹏 何军 《计算机工程与设计》 北大核心 2025年第4期1167-1173,共7页
为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息... 为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息,结合BERT和BiLSTM,学习文本中融合实体类型解释信息的上下文语义特征。将命名实体识别任务建模为序列标注任务,通过CRF获取序列的标签信息。实验结果表明,该方法在中文法律领域命名实体识别任务中取得了显著的性能提升,F1值达到93.06%。 展开更多
关键词 中文法律实体 深度学习 命名实体识别 随机提示 双向长短时记忆网络 序列标注 条件随机场
在线阅读 下载PDF
融合数据增强的互花米草入侵关联要素实体识别方法
9
作者 李忠伟 张文丰 +1 位作者 李永 李明轩 《计算机工程与设计》 北大核心 2025年第2期603-609,共7页
为解决互花米草入侵领域的训练数据匮乏,存在实体特征提取不准确的问题,提出一种融合数据增强的互花米草入侵关联要素识别深度学习模型。将训练数据采用同类实体随机交叉互换的方法进行数据增强,利用BERT预训练获得互花米草入侵关联要... 为解决互花米草入侵领域的训练数据匮乏,存在实体特征提取不准确的问题,提出一种融合数据增强的互花米草入侵关联要素识别深度学习模型。将训练数据采用同类实体随机交叉互换的方法进行数据增强,利用BERT预训练获得互花米草入侵关联要素的上下文信息;使用BiLSTM进一步提取特征,利用CRF得到实体的标签约束。通过对比不同模型在自建数据集上的精确率、召回率和F1分数,验证了该模型在互花米草入侵领域实体识别的有效性。 展开更多
关键词 命名实体识别 互花米草入侵 深度学习 数据增强 预训练模型 双向长短期记忆网络 条件随机场
在线阅读 下载PDF
基于条件随机场(CRFs)的中文词性标注方法 被引量:58
10
作者 洪铭材 张阔 +1 位作者 唐杰 李涓子 《计算机科学》 CSCD 北大核心 2006年第10期148-151,155,共5页
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标... 本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 展开更多
关键词 词性标注 条件随机场 维特比解码
在线阅读 下载PDF
采用CRF技术的军事情报术语自动抽取研究 被引量:16
11
作者 贾美英 杨炳儒 +1 位作者 郑德权 杨靖 《计算机工程与应用》 CSCD 北大核心 2009年第32期126-129,共4页
针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用... 针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用的训练语料来自"搜狐网络军事频道"的新闻数据,测试语料选取《现代军事》杂志2007年第1~8期的所有文章。实验取得了良好的结果,准确率为73.24%,召回率为69.57%,F-测度为71.36%,表明该方法简单易行,且具有领域通用性。 展开更多
关键词 术语抽取 条件随机场 模板
在线阅读 下载PDF
CRF与规则相结合的医学病历实体识别 被引量:47
12
作者 栗伟 赵大哲 +2 位作者 李博 彭新茗 刘积仁 《计算机应用研究》 CSCD 北大核心 2015年第4期1082-1086,共5页
针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法。该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则... 针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法。该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则。实验证明,该算法对病历实体进行识别时准确率及召回率分别最高达到91.03%和87.26%,满足临床中系统应用需求,同时实验表明该算法具有很好的鲁棒性和稳定性。 展开更多
关键词 电子病历 病历实体 命名实体识别 条件随机场 决策树
在线阅读 下载PDF
SparkCRF:一种基于Spark的并行CRFs算法实现 被引量:11
13
作者 朱继召 贾岩涛 +3 位作者 徐君 乔建忠 王元卓 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1819-1828,共10页
条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本... 条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率. 展开更多
关键词 大数据 机器学习 分布式计算 SPARK 条件随机场
在线阅读 下载PDF
基于SVM和CRF的双层模型中文机构名识别 被引量:13
14
作者 黄德根 李泽中 万如 《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第5期782-787,共6页
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后... 提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性. 展开更多
关键词 机构名识别 条件随机场(crf) 支持向量机(SVM) 双层模型
在线阅读 下载PDF
CRF与规则相结合的地理空间命名实体识别 被引量:31
15
作者 鞠久朋 张伟伟 +1 位作者 宁建军 周国栋 《计算机工程》 CAS CSCD 北大核心 2011年第7期210-212,215,共4页
提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空... 提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息。实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能,准确率、召回率和F1值分别达到92.86%、90.91%、91.87%。 展开更多
关键词 条件随机场 规则 地理空间属性 命名实体识别
在线阅读 下载PDF
基于CRF和规则相结合的地理命名实体识别方法 被引量:73
16
作者 何炎祥 罗楚威 胡彬尧 《计算机应用与软件》 CSCD 2015年第1期179-185,202,共8页
为了识别文本中海量的地理命名信息,以CRF(条件随机场)模型识别为基础,加入制定的规则,来提高CRF模型识别的召回率,从而提高整体的地理命名实体识别效果。通过选取适合的地理命名实体识别的特征模板,验证特征的有效性以及分析CRF模型识... 为了识别文本中海量的地理命名信息,以CRF(条件随机场)模型识别为基础,加入制定的规则,来提高CRF模型识别的召回率,从而提高整体的地理命名实体识别效果。通过选取适合的地理命名实体识别的特征模板,验证特征的有效性以及分析CRF模型识别结果中的未识别实体样本,设计针对未识别实体的规则用以修正识别结果。实验表明,对地名和组织名结合规则进行修正后的F值达到了91.61%和85.74%,有了显著提高。 展开更多
关键词 地理命名实体识别 特征模版 条件随机场 修正规则 结合修正
在线阅读 下载PDF
基于主题标签和CRF的中文微博命名实体识别 被引量:13
17
作者 朱颢东 杨立志 +1 位作者 丁温雪 冯嘉美 《华中师范大学学报(自然科学版)》 CAS 北大核心 2018年第3期316-321,共6页
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后... 近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields,CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果. 展开更多
关键词 命名实体 中文微博 主题标签 条件随机场
在线阅读 下载PDF
基于BiLSTM-CRF的中医文言文文献分词模型研究 被引量:16
18
作者 王莉军 周越 +1 位作者 桂婕 翟云 《计算机应用研究》 CSCD 北大核心 2020年第11期3359-3362,3367,共5页
由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并... 由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。 展开更多
关键词 中医 分词 条件随机场 双向长短时记忆
在线阅读 下载PDF
基于CRFs模型的敏感话题识别研究 被引量:4
19
作者 翟东海 聂洪玉 +1 位作者 崔静静 杜佳 《计算机应用研究》 CSCD 北大核心 2014年第4期993-996,共4页
条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文... 条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。 展开更多
关键词 条件随机场 敏感话题识别 相关性概率值
在线阅读 下载PDF
基于ALBERT-BGRU-CRF的中文命名实体识别方法 被引量:18
20
作者 李军怀 陈苗苗 +2 位作者 王怀军 崔颖安 张爱华 《计算机工程》 CAS CSCD 北大核心 2022年第6期89-94,106,共7页
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词... 命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。 展开更多
关键词 命名实体识别 预训练语言模型 双向门控循环单元 条件随机场 词向量 深度学习
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部