期刊文献+
共找到610篇文章
< 1 2 31 >
每页显示 20 50 100
融合BERT BiLSTM CRF的城市内涝灾害风险要素识别方法研究
1
作者 张乐 张海龙 +1 位作者 李锋 吴敏 《安全与环境学报》 北大核心 2025年第8期3176-3188,共13页
为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素... 为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素识别的专业性、精准度要求较高等问题,结合自然灾害系统理论的风险要素框架,提出了一种基于双向编码器表征法-双向长短期记忆-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field,BERT-BiLSTM-CRF)的识别方法,并开展了一系列模型验证试验。对比试验结果表明,该模型在准确率、召回率、F_(1)三项指标上均有较好表现,其中准确率为84.62%,召回率为86.19%,F_(1)为85.35%,优于其他对比模型。消融试验结果表明,BERT预训练模型对于该模型性能有着更为显著的影响。综合上述试验结果,可以验证该模型能够有效识别城市内涝舆情信息中的各类风险要素,进而为城市内涝灾害风险管控的数智化转型提供研究依据。 展开更多
关键词 公共安全 城市内涝 双向编码器表征法 双向长短期记忆网络 条件随机场 舆情信息 风险要素识别
在线阅读 下载PDF
基于条件随机场(CRFs)的中文词性标注方法 被引量:58
2
作者 洪铭材 张阔 +1 位作者 唐杰 李涓子 《计算机科学》 CSCD 北大核心 2006年第10期148-151,155,共5页
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标... 本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 展开更多
关键词 词性标注 条件随机场 维特比解码
在线阅读 下载PDF
SparkCRF:一种基于Spark的并行CRFs算法实现 被引量:11
3
作者 朱继召 贾岩涛 +3 位作者 徐君 乔建忠 王元卓 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1819-1828,共10页
条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本... 条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率. 展开更多
关键词 大数据 机器学习 分布式计算 SPARK 条件随机场
在线阅读 下载PDF
基于CRFs模型的敏感话题识别研究 被引量:4
4
作者 翟东海 聂洪玉 +1 位作者 崔静静 杜佳 《计算机应用研究》 CSCD 北大核心 2014年第4期993-996,共4页
条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文... 条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。 展开更多
关键词 条件随机场 敏感话题识别 相关性概率值
在线阅读 下载PDF
基于层叠CRFs的中文句子评价对象抽取 被引量:19
5
作者 郑敏洁 雷志城 +1 位作者 廖祥文 陈国龙 《中文信息学报》 CSCD 北大核心 2013年第3期69-76,共8页
中文句子评价对象抽取是指在中文句子中抽取评论所针对的对象或对象的属性。目前国内相关研究工作尚未能有效识别复合词评价对象和未登陆评价对象。针对以上两种情况,该文提出了一种基于层叠条件随机场的中文句子评价对象抽取方法。该... 中文句子评价对象抽取是指在中文句子中抽取评论所针对的对象或对象的属性。目前国内相关研究工作尚未能有效识别复合词评价对象和未登陆评价对象。针对以上两种情况,该文提出了一种基于层叠条件随机场的中文句子评价对象抽取方法。该方法首先通过低层条件随机场获得候选评价对象集,然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并,最后由高层模型抽取出评价对象。实验结果显示,与基于线性链条件随机场的识别方法相比,该方法准确率、召回率和F1值分别提升1.62%、5.75%和4.17%,能有效地识别复合词评价对象和未登录评价对象,从而提高中文句子评价对象的识别精度。 展开更多
关键词 评价对象 层叠条件随机场 降噪模型 补充模型
在线阅读 下载PDF
基于CRFs边缘概率的中文分词 被引量:19
6
作者 罗彦彦 黄德根 《中文信息学报》 CSCD 北大核心 2009年第5期3-8,共6页
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,... 将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。 展开更多
关键词 计算机应用 中文信息处理 中文分词 条件随机场(crfs) 边缘概率 最大向前匹配(FMM) 全局特征
在线阅读 下载PDF
分布式策略与CRFs相结合识别汉语组块 被引量:6
7
作者 黄德根 于静 《中文信息学报》 CSCD 北大核心 2009年第1期16-22,共7页
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F... 该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 展开更多
关键词 计算机应用 中文信息处理 组块识别 条件随机域(crfs) 分布式策略 基于crfs的错误驱动 浅层句法分析
在线阅读 下载PDF
一种扩展式CRFs的短语情感倾向性分析方法研究 被引量:6
8
作者 乌达巴拉 汪增福 《中文信息学报》 CSCD 北大核心 2015年第1期155-162,共8页
短语情感倾向性分析是文本情感分析的重要研究内容。该文将短语情感倾向性分析问题视作序列标注问题,利用条件随机场模型实现短语的情感倾向性判断。条件随机场模型是利用序列特征处理序列标注问题的经典方法,然而现有条件随机场模型无... 短语情感倾向性分析是文本情感分析的重要研究内容。该文将短语情感倾向性分析问题视作序列标注问题,利用条件随机场模型实现短语的情感倾向性判断。条件随机场模型是利用序列特征处理序列标注问题的经典方法,然而现有条件随机场模型无法将词语的情感倾向性分析与短语的情感倾向性分析相结合,从而造成准确率不高。因此,该文提出一种扩展式条件随机场模型YACRFs。该模型在链式条件随机场模型的基础上进行扩充,将词语情感倾向性分析与短语情感倾向性分析有效地结合起来,引入了情感词汇、短语规则模板以及词性等特征。与传统的规则方法和统计分类方法进行对比实验,该文提出方法取得了最高准确率81.07%。进一步地,在应用于句子情感倾向性分析的实验中得到了94.30%的准确率。实验结果表明,该文所提出的YACRFs模型能够显著提高短语情感倾向性判断结果的准确率。 展开更多
关键词 短语 情感倾向性分析 条件随机场
在线阅读 下载PDF
基于CRFs和MPCP特征的和弦识别研究 被引量:1
9
作者 王峰 张雪英 李炳男 《计算机工程与应用》 CSCD 北大核心 2011年第18期198-200,共3页
和弦识别是音乐调式分析和自动标注的基础,同时在分析音乐的结构和旋律方面有着非常重要的作用。结合音乐理论和信号处理知识,提出一种基于MPCP(Mel Pitch Class Profile)特征和CRFs(Conditional Random Fields)模型的和弦识别方法。利... 和弦识别是音乐调式分析和自动标注的基础,同时在分析音乐的结构和旋律方面有着非常重要的作用。结合音乐理论和信号处理知识,提出一种基于MPCP(Mel Pitch Class Profile)特征和CRFs(Conditional Random Fields)模型的和弦识别方法。利用短时傅里叶变换(STFT)对音乐信号进行时频变换,定义了一种新的MPCP特征,最后用CRFs对和弦进行识别。实验结果表明,提出的方法在识别率上优于其他方法,具有一定的潜力。 展开更多
关键词 和弦识别 音级轮廓 Mel音级轮廓 条件随机场
在线阅读 下载PDF
基于CRFs的新闻网页主题内容自动抽取方法 被引量:1
10
作者 张春元 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期138-142,共5页
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将... 针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。 展开更多
关键词 WEB信息抽取 条件随机场 网页分块
在线阅读 下载PDF
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究 被引量:4
11
作者 余礼根 郭晓利 +3 位作者 赵红涛 杨淦 张俊 李奇峰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期287-294,共8页
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona... 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。 展开更多
关键词 畜禽疫病 文本分词 预训练语言模型 双向长短时记忆网络 条件随机场
在线阅读 下载PDF
基于多级空间上下文LR-CRFs模型的高分辨率影像分类
12
作者 杨耘 徐丽 贾鹏 《地球科学与环境学报》 CAS 2013年第4期119-126,共8页
充分表达和利用目标空间上下文及语义信息是提高高空间分辨率影像分类精度的关键技术,而条件随机场(CRFs)在目标空间上下文建模以及分类预测方面有其独特优势。但是,基于单一尺度分析的CRFs模型存在不能反映目标多层次空间结构及语义关... 充分表达和利用目标空间上下文及语义信息是提高高空间分辨率影像分类精度的关键技术,而条件随机场(CRFs)在目标空间上下文建模以及分类预测方面有其独特优势。但是,基于单一尺度分析的CRFs模型存在不能反映目标多层次空间结构及语义关系的问题,因此针对城区高分辨率影像土地利用/覆盖分类问题,在面向对象分类框架下,提出了一种多级空间上下文LRCRFs模型。该模型定义如下:首先,将影像进行对象层、目标层及场景层的分层表达及分层特征提取,并进行"对象-目标-场景"的逐层关联;其次,采用逻辑回归(LR)分类器定义CRFs模型的关联势函数,利用分层特征加权的Potts函数定义交互势函数;采用最大-积消息传递算法对该模型进行近似推理。利用IKONOS多光谱影像及大比例尺真彩色航空影像进行试验的结果表明:多级空间上下文LR-CRFs模型分类精度高于单一尺度的基于像素层或对象层分割的LR-CRFs模型,其精度平均分别提高了4.63%和2.22%;该方法在一定意义上也缓解了面向对象分类方法中分类结果对分割尺度的依赖程度。 展开更多
关键词 条件随机场 多级空间上下文 逻辑回归 分层图模型 语义信息 高分辨率遥感 影像分类
在线阅读 下载PDF
基于CRFs和歧义模型的越南语分词 被引量:2
13
作者 熊明明 李英 +2 位作者 郭剑毅 毛存礼 余正涛 《数据采集与处理》 CSCD 北大核心 2017年第3期636-642,共7页
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。... 通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。 展开更多
关键词 条件随机场模型 越南语分词 词法 基本特征 最大熵 歧义模型
在线阅读 下载PDF
基于CRFs和领域规则的业务名称识别 被引量:3
14
作者 赵延平 曹存根 谢丽聪 《计算机工程》 CAS CSCD 北大核心 2011年第11期200-202,共3页
提出一种基于条件随机场(CRFs)和领域规则的业务名称识别方法。通过实验词及词性的不同组合选择特征集合,由该特征训练得到CRFs模型,利用该模型测试得到业务术语,采用2-gram及编辑距离2种度量方式进行相似度计算,利用领域规则和相似度... 提出一种基于条件随机场(CRFs)和领域规则的业务名称识别方法。通过实验词及词性的不同组合选择特征集合,由该特征训练得到CRFs模型,利用该模型测试得到业务术语,采用2-gram及编辑距离2种度量方式进行相似度计算,利用领域规则和相似度计算方法得到业务名称。实验结果证明了该方法的有效性。 展开更多
关键词 业务名称识别 条件随机场 文本相似度 编辑距离
在线阅读 下载PDF
融合多尺度CNN和CRF的通用细粒度事件检测
15
作者 任永功 阎格 何馨宇 《小型微型计算机系统》 CSCD 北大核心 2024年第4期859-864,共6页
事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CN... 事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CNN的神经网络模型(BMCC,BERT+Multi-scale CNN+CRF).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练模型来进行词向量的嵌入,并利用其双向训练的Transformer机制来提取序列的状态特征;其次使用不同尺度的卷积核在多个卷积通道中进行卷积训练,以此来提取不同视野的语义信息,丰富其语义表征.最后将BIO机制融入到条件随机场(CRF)来对序列进行标注,实现事件的检测.实验结果表明,所提出的模型在MAVEN数据集上的F1值为65.17%,表现了该模型的良好性能. 展开更多
关键词 事件检测 BERT 多尺度CNN 条件随机场(crf) 交叉验证
在线阅读 下载PDF
Fast segmentation approach for SAR image based on simple Markov random field 被引量:8
16
作者 Xiaogang Lei Ying Li Na Zhao Yanning Zhang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2010年第1期31-36,共6页
Traditional image segmentation methods based on MRF converge slowly and require pre-defined weight. These disadvantages are addressed, and a fast segmentation approach based on simple Markov random field (MRF) for S... Traditional image segmentation methods based on MRF converge slowly and require pre-defined weight. These disadvantages are addressed, and a fast segmentation approach based on simple Markov random field (MRF) for SAR image is proposed. The approach is firstly used to perform coarse segmentation in blocks. Then the image is modeled with simple MRF and adaptive variable weighting forms are applied in homogeneous and heterogeneous regions. As a result, the convergent speed is accelerated while the segmentation results in homogeneous regions and boarders are improved. Simulations with synthetic and real SAR images demonstrate the effectiveness of the proposed approach. 展开更多
关键词 SAR image segmentation simple Markov random field coarse segmentation maximum a posterior iterated condition mode.
在线阅读 下载PDF
融合级联CRFs和U-Net深度学习模型的遥感影像建筑物自动提取 被引量:6
17
作者 陈嘉浩 邢汉发 陈相龙 《华南师范大学学报(自然科学版)》 CAS 北大核心 2022年第1期70-78,共9页
针对深度学习模型进行建筑物提取时存在的建筑物边缘模糊问题,将级联CRFs(全连接条件随机场)引入到U-Net深度模型中,提出了一种改进的U-Net模型(U-Net+级联CRFs),以用于遥感影像建筑物自动提取:构建级联CRFs并将其引入到U-Net模型的解... 针对深度学习模型进行建筑物提取时存在的建筑物边缘模糊问题,将级联CRFs(全连接条件随机场)引入到U-Net深度模型中,提出了一种改进的U-Net模型(U-Net+级联CRFs),以用于遥感影像建筑物自动提取:构建级联CRFs并将其引入到U-Net模型的解码层中,从多层结构中学习边界信息,增强模型对建筑物边界的分割能力。并以广东省佛山市为研究区,利用U-Net+级联CRFs、U-Net+CRFs、U-Net、SVM模型进行建筑物提取实验。结果表明U-Net+级联CRFs模型可以有效识别建筑物边界信息,提高建筑物提取的精度:U-Net+级联CRFs模型在准确度、召回率、F1值和交并比4个指标上的均值分别达到了93.1%、87.5%、91.4%和85.1%,均优于U-Net+CRFs、U-Net、SVM模型。 展开更多
关键词 深度学习 建筑物提取 U-Net模型 全连接条件随机场
在线阅读 下载PDF
基于CRF的中文语法错误诊断系统的实现与应用 被引量:1
18
作者 李斌 王浩畅 《计算机科学》 CSCD 北大核心 2024年第S01期1129-1134,共6页
随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状... 随着中国国际影响力的提高和汉语国际地位的提升,将中文作为第二语言学习的外国人数量逐年增加,中文已成为世界上最为流行的语言之一。基于此,中文语法错误诊断的研究备受关注。首先,从中文语法错误诊断的定义出发,总结目前的研究现状。其次,通过对各种中文语法错误诊断方法的分析,构建了基于条件随机场的中文语法错误诊断系统,探究中文语法自动检错系统及其具体应用流程,以帮助中文学习者提高学习效率。在CGED2016数据集上的实验结果表明,该系统在检测层和识别层上的性能较好,在位置层上还需要改进。 展开更多
关键词 中文语法错误诊断 序列标注 条件随机场 自然语言处理
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的隧道施工安全领域命名实体识别 被引量:3
19
作者 张念 周彩凤 +3 位作者 万飞 刘非 王耀耀 徐栋梁 《中国安全科学学报》 CSCD 北大核心 2024年第12期56-63,共8页
为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故... 为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故文本实体识别方法。首先,利用BERT模型将隧道施工事故文本编码得到蕴含语义特征的词向量;然后,将BERT模型训练后输出的词向量输入BiLSTM模型进一步获取隧道施工事故文本的上下文特征并进行标签概率预测;最后,利用CRF层的标注规则的约束,修正BiLSTM模型的输出结果,得到最大概率序列标注结果,从而实现对隧道施工事故文本标签的智能分类。将该模型与其他4种常用的传统NER模型在隧道施工安全事故语料数据集上进行对比试验,试验结果表明:BERT-BiLSTM-CRF模型的识别准确率、召回率和F 1值分别达到88%、89%和88%,实体识别效果优于其他基准模型。利用所建立的NER模型识别实际隧道施工事故文本中的实体,验证了其在隧道施工安全领域中的应用效果。 展开更多
关键词 变换器的双向编码器表征(BERT) 双向长短时记忆(BiLSTM)网络 条件随机场(crf) 隧道施工 安全领域 命名实体识别(NER) 深度学习
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
20
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(crf)
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部