期刊文献+
共找到46,882篇文章
< 1 2 250 >
每页显示 20 50 100
基于BERT-Tiny Transformer-CRF的自动化装配命名实体识别方法
1
作者 钱冠翔 于丽娅 +2 位作者 李传江 李少波 徐兆 《计算机集成制造系统》 北大核心 2025年第10期3594-3606,共13页
随着工业5.0对知识驱动的智能制造提出新要求,机械装配领域面临多模态数据稀疏、实体语义边界模糊、数据分布呈现长尾效应的挑战。为此,提出一种融合多项式损失函数的BERT-Tiny Transformer-CRF模型,旨在提升低资源场景下的领域知识抽... 随着工业5.0对知识驱动的智能制造提出新要求,机械装配领域面临多模态数据稀疏、实体语义边界模糊、数据分布呈现长尾效应的挑战。为此,提出一种融合多项式损失函数的BERT-Tiny Transformer-CRF模型,旨在提升低资源场景下的领域知识抽取效率。首先,通过知识蒸馏与语义增强技术注入领域先验知识,其次设计维度自适应特征压缩模块实现跨模态特征融合,最后构建动态边缘感知解码机制实现实体边界的精准定位。利用自主构建的自动化装配数据集,将所提方法与不同实体识别模型进行对比,实验结果表明,所提模型具有良好的泛化识别能力,以86.62%的准确率、85.27%的精确率、85.67%的召回率和85.46%的F1值优于其他模型,为工业5.0下机械自动化装配领域知识图谱的构建提供了一种有效的技术方法。 展开更多
关键词 BERT-Tiny Transformer-crf模型 数据增强 PolyLoss 自动化装配
在线阅读 下载PDF
白头翁散对腹泻仔猪脑肠互动CRF和5-HT相关基因的影响
2
作者 于滔 张昕杰 +3 位作者 张丽芳 王晨颖 赖慧明 马琪 《动物医学进展》 北大核心 2025年第10期35-42,共8页
为探究白头翁散(Pulsatilla powder,PP)对腹泻仔猪脑-肠轴的调控作用,利用Trizol试剂提取各组仔猪下丘脑、海马体、回肠、结肠组织总RNA并测定含量,使用反转录试剂盒转录,采用RT-qPCR测定各组仔猪脑和肠道组织CRFR-1、CRFR-2、TPH1、5-H... 为探究白头翁散(Pulsatilla powder,PP)对腹泻仔猪脑-肠轴的调控作用,利用Trizol试剂提取各组仔猪下丘脑、海马体、回肠、结肠组织总RNA并测定含量,使用反转录试剂盒转录,采用RT-qPCR测定各组仔猪脑和肠道组织CRFR-1、CRFR-2、TPH1、5-HT 3 R及5-HT 4 R的mRNA相对表达量。结果显示,模型组仔猪回肠中CRFR-1 mRNA表达水平升高,海马体及结肠中CRFR-2 mRNA表达水平降低。白头翁散组仔猪给药治疗后下丘脑、回肠及结肠中CRFR-1 mRNA表达水平降低,下丘脑、海马体及回肠CRFR-2 mRNA表达水平升高。5-HT相关基因中,模型组仔猪海马体中5-HT 3 R mRNA表达水平升高,回肠中5-HT 4 R mRNA表达水平降低,TPH1 mRNA表达水平在下丘脑中升高,而海马体中表达降低。白头翁散组仔猪给药治疗后海马体和结肠中5-HT 3 R mRNA表达水平降低,回肠中5-HT 4 R mRNA表达水平升高,TPH1 mRNA表达水平在回肠中升高,下丘脑中表达降低。表明白头翁散可以调节腹泻仔猪脑和肠道组织中CRF和5-HT相关基因的mRNA表达量而影响腹泻仔猪的脑肠互动,从而改善仔猪腹泻状况。 展开更多
关键词 白头翁散 腹泻仔猪 促肾上腺皮质激素释放因子 5-羟色胺 脑-肠轴
在线阅读 下载PDF
FedCLCC:A personalized federated learning algorithm for edge cloud collaboration based on contrastive learning and conditional computing
3
作者 Kangning Yin Xinhui Ji +1 位作者 Yan Wang Zhiguo Wang 《Defence Technology(防务技术)》 2025年第1期80-93,共14页
Federated learning(FL)is a distributed machine learning paradigm for edge cloud computing.FL can facilitate data-driven decision-making in tactical scenarios,effectively addressing both data volume and infrastructure ... Federated learning(FL)is a distributed machine learning paradigm for edge cloud computing.FL can facilitate data-driven decision-making in tactical scenarios,effectively addressing both data volume and infrastructure challenges in edge environments.However,the diversity of clients in edge cloud computing presents significant challenges for FL.Personalized federated learning(pFL)received considerable attention in recent years.One example of pFL involves exploiting the global and local information in the local model.Current pFL algorithms experience limitations such as slow convergence speed,catastrophic forgetting,and poor performance in complex tasks,which still have significant shortcomings compared to the centralized learning.To achieve high pFL performance,we propose FedCLCC:Federated Contrastive Learning and Conditional Computing.The core of FedCLCC is the use of contrastive learning and conditional computing.Contrastive learning determines the feature representation similarity to adjust the local model.Conditional computing separates the global and local information and feeds it to their corresponding heads for global and local handling.Our comprehensive experiments demonstrate that FedCLCC outperforms other state-of-the-art FL algorithms. 展开更多
关键词 Federated learning Statistical heterogeneity Personalized model conditional computing Contrastive learning
在线阅读 下载PDF
基于BiLSTM-CRF和Neo4j的脾胃病知识图谱构建
4
作者 谭平 刘惠娜 韦昌法 《科学技术与工程》 北大核心 2025年第22期9436-9444,共9页
为了推动中医药文本数据的分析和挖掘,实现知识的智能化提取和处理。通过采用BIO(begin,inside,outside)序列标记法、BiLSTM-CRF模型和人工定义规则的方法完成知识抽取任务。利用Python3.6中Py2neo库与Neo4j数据库等技术,构建了基于Neo4... 为了推动中医药文本数据的分析和挖掘,实现知识的智能化提取和处理。通过采用BIO(begin,inside,outside)序列标记法、BiLSTM-CRF模型和人工定义规则的方法完成知识抽取任务。利用Python3.6中Py2neo库与Neo4j数据库等技术,构建了基于Neo4j的脾胃病知识图谱,并使用Flask框架开发了中医药脾胃病命名实体识别系统。结果表明:模型(BiLSTM-CRF)在测试集上取得了高性能和良好的泛化能力,其准确率、精确率、查全率和F_(1)分数分别为96.19%、86.64%、88.82%和87.71%。构建出的知识图谱包含了方剂或中成药、中药、临床表现等8种节点标签以及10种关系类型,可支持中医药治疗脾胃病西医诊断、中医证候、中医治则等节点及各节点之间关系的查询与发现。可见BiLSTM-CRF模型在中医药脾胃病命名实体识别方面展现出了良好的通用性,它在处理复杂文本结构和领域术语上表现出了出色的能力,为中医药脾胃病知识提取和知识图谱构建研究提供了有力支持。 展开更多
关键词 中医药 脾胃病 BIO序列标记法 人工定义规则 BiLSTM-crf模型 知识图谱
在线阅读 下载PDF
Optimal Receiver Operating Characteristic Curve of Classical Conditional Power under Normal Models
5
作者 ZHANG Ying-Ying 《应用概率统计》 北大核心 2025年第2期277-304,共28页
A Receiver Operating Characteristic(ROC)analysis of a power is important and useful in clinical trials.A Classical Conditional Power(CCP)is a probability of a classical rejection region given values of true treatment ... A Receiver Operating Characteristic(ROC)analysis of a power is important and useful in clinical trials.A Classical Conditional Power(CCP)is a probability of a classical rejection region given values of true treatment effect and interim result.For hypotheses and reversed hypotheses under normal models,we obtain analytical expressions of the ROC curves of the CCP,find optimal ROC curves of the CCP,investigate the superiority of the ROC curves of the CCP,calculate critical values of the False Positive Rate(FPR),True Positive Rate(TPR),and cutoff of the optimal CCP,and give go/no go decisions at the interim of the optimal CCP.In addition,extensive numerical experiments are carried out to exemplify our theoretical results.Finally,a real data example is performed to illustrate the go/no go decisions of the optimal CCP. 展开更多
关键词 area under the curve(AUC) classical conditional power(CCP) go/no go decisions historical and interim data receiver operating characteristic(ROC)curve
在线阅读 下载PDF
融合BERT BiLSTM CRF的城市内涝灾害风险要素识别方法研究 被引量:1
6
作者 张乐 张海龙 +1 位作者 李锋 吴敏 《安全与环境学报》 北大核心 2025年第8期3176-3188,共13页
为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素... 为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素识别的专业性、精准度要求较高等问题,结合自然灾害系统理论的风险要素框架,提出了一种基于双向编码器表征法-双向长短期记忆-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field,BERT-BiLSTM-CRF)的识别方法,并开展了一系列模型验证试验。对比试验结果表明,该模型在准确率、召回率、F_(1)三项指标上均有较好表现,其中准确率为84.62%,召回率为86.19%,F_(1)为85.35%,优于其他对比模型。消融试验结果表明,BERT预训练模型对于该模型性能有着更为显著的影响。综合上述试验结果,可以验证该模型能够有效识别城市内涝舆情信息中的各类风险要素,进而为城市内涝灾害风险管控的数智化转型提供研究依据。 展开更多
关键词 公共安全 城市内涝 双向编码器表征法 双向长短期记忆网络 条件随机场 舆情信息 风险要素识别
在线阅读 下载PDF
基于CRF算法的汉语比较句识别和关系抽取 被引量:22
7
作者 黄高辉 姚天昉 刘全升 《计算机应用研究》 CSCD 北大核心 2010年第6期2061-2064,共4页
比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以... 比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。 展开更多
关键词 比较句 比较关系 crf模型 比较主体 比较基准
在线阅读 下载PDF
基于SVM和CRF的双层模型中文机构名识别 被引量:14
8
作者 黄德根 李泽中 万如 《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第5期782-787,共6页
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后... 提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性. 展开更多
关键词 机构名识别 条件随机场(crf) 支持向量机(SVM) 双层模型
在线阅读 下载PDF
基于CRF模型的半监督学习迭代观点句识别研究 被引量:6
9
作者 丁晟春 文能 +1 位作者 蒋婷 孟美任 《情报学报》 CSSCI 北大核心 2012年第10期1071-1076,共6页
本文从句子级的角度进行了中文文本的情感倾向分析,提出以HowNet中的情感词表为种子情感词集,采用基于CRF模型的半监督学习迭代方法获取大量评价词,然后依据中文词间的语义规则判断句子的极性的方法。将该方法应用于COAE2011中任务2... 本文从句子级的角度进行了中文文本的情感倾向分析,提出以HowNet中的情感词表为种子情感词集,采用基于CRF模型的半监督学习迭代方法获取大量评价词,然后依据中文词间的语义规则判断句子的极性的方法。将该方法应用于COAE2011中任务2-观点句识别,在评价词的识别和观点句极性判断都取得了很好的结果。 展开更多
关键词 crf 观点句 半监督 情感倾向性
在线阅读 下载PDF
LDA-CRF:一种基于概率图模型的目标检测方法 被引量:4
10
作者 郭乔进 李宁 +1 位作者 杨育彬 武港山 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2296-2304,共9页
目标检测和识别是计算机视觉和机器学习的研究热点.近年来,主题模型(如LDA等)在无监督的图像识别和定位等应用中获得了巨大的成功.然而,LDA忽略了图像区域之间的空间关系,并且不能处理连续值的视觉特征或特征向量.而条件随机场(CRF)能... 目标检测和识别是计算机视觉和机器学习的研究热点.近年来,主题模型(如LDA等)在无监督的图像识别和定位等应用中获得了巨大的成功.然而,LDA忽略了图像区域之间的空间关系,并且不能处理连续值的视觉特征或特征向量.而条件随机场(CRF)能够利用图像区域之间的局部相关性来提高分类准确性.基于LDA和CRF提出了一种LDA-CRF模型.通过利用LDA生成的主题信息来辅助CRF的分类,同时结合图像区域之间结构化的类别信息来改进LDA的主题生成机制.实验结果表明,LDA-CRF模型的检测效果要优于CRF. 展开更多
关键词 LDA crf 目标检测 变分推论 概率图模型
在线阅读 下载PDF
基于CRFs和跨事件的事件识别研究 被引量:12
11
作者 侯立斌 李培峰 朱巧明 《计算机工程》 CAS CSCD 2012年第24期191-195,共5页
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,... 事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。 展开更多
关键词 事件抽取 触发词检测 事件类型识别 跨事件 crfs模型 LDA模型
在线阅读 下载PDF
基于条件随机场(CRFs)的中文词性标注方法 被引量:58
12
作者 洪铭材 张阔 +1 位作者 唐杰 李涓子 《计算机科学》 CSCD 北大核心 2006年第10期148-151,155,共5页
本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标... 本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。 展开更多
关键词 词性标注 条件随机场 维特比解码
在线阅读 下载PDF
采用CRF技术的军事情报术语自动抽取研究 被引量:16
13
作者 贾美英 杨炳儒 +1 位作者 郑德权 杨靖 《计算机工程与应用》 CSCD 北大核心 2009年第32期126-129,共4页
针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用... 针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用的训练语料来自"搜狐网络军事频道"的新闻数据,测试语料选取《现代军事》杂志2007年第1~8期的所有文章。实验取得了良好的结果,准确率为73.24%,召回率为69.57%,F-测度为71.36%,表明该方法简单易行,且具有领域通用性。 展开更多
关键词 术语抽取 条件随机场 模板
在线阅读 下载PDF
基于CRFs和领域本体的中文微博评价对象抽取研究 被引量:12
14
作者 丁晟春 吴婧婵媛 李霄 《中文信息学报》 CSCD 北大核心 2016年第4期159-166,共8页
微博情感分析是对微博内容进行细粒度的挖掘,有着重要的研究价值。微博评价对象的抽取是微博情感分析研究的关键问题之一。为了提高中文微博评价对象抽取的准确率,该文在中文微博特征分析和微博评论本体构建研究的基础上,尝试从词、词... 微博情感分析是对微博内容进行细粒度的挖掘,有着重要的研究价值。微博评价对象的抽取是微博情感分析研究的关键问题之一。为了提高中文微博评价对象抽取的准确率,该文在中文微博特征分析和微博评论本体构建研究的基础上,尝试从词、词性、情感词以及本体四个方面进行特征选择,采用CRFs模型对评价对象进行抽取。该文将提出的方法运用到COAE2014测评的Task5评价对象抽取任务中,宏平均准确率达到61.20%,在所有测评队伍中居第一。实验结果表明,将本体特征引入到CRFs模型中,能够有效地提高评价对象抽取的准确率。 展开更多
关键词 crfs模型 本体 特征选择 评价对象抽取 信息抽取
在线阅读 下载PDF
CRF和词典相结合的蒙古文地名识别研究 被引量:4
15
作者 吴金星 丽丽 杨振新 《计算机工程与科学》 CSCD 北大核心 2016年第5期1046-1051,共6页
蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对... 蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。 展开更多
关键词 蒙古文地名 识别 crf 特征 词典
在线阅读 下载PDF
基于CRFs边缘概率的中文分词 被引量:19
16
作者 罗彦彦 黄德根 《中文信息学报》 CSCD 北大核心 2009年第5期3-8,共6页
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,... 将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。 展开更多
关键词 计算机应用 中文信息处理 中文分词 条件随机场(crfs) 边缘概率 最大向前匹配(FMM) 全局特征
在线阅读 下载PDF
分布式策略与CRFs相结合识别汉语组块 被引量:6
17
作者 黄德根 于静 《中文信息学报》 CSCD 北大核心 2009年第1期16-22,共7页
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F... 该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 展开更多
关键词 计算机应用 中文信息处理 组块识别 条件随机域(crfs) 分布式策略 基于crfs的错误驱动 浅层句法分析
在线阅读 下载PDF
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究 被引量:66
18
作者 吴俊 程垚 +3 位作者 郝瀚 艾力亚尔·艾则孜 刘菲雪 苏亦坡 《情报学报》 CSSCI CSCD 北大核心 2020年第4期409-418,共10页
专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练... 专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。 展开更多
关键词 BERT BiLSTM crf 专业术语抽取
在线阅读 下载PDF
SparkCRF:一种基于Spark的并行CRFs算法实现 被引量:11
19
作者 朱继召 贾岩涛 +3 位作者 徐君 乔建忠 王元卓 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1819-1828,共10页
条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本... 条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率. 展开更多
关键词 大数据 机器学习 分布式计算 SPARK 条件随机场
在线阅读 下载PDF
CRF与规则相结合的医学病历实体识别 被引量:48
20
作者 栗伟 赵大哲 +2 位作者 李博 彭新茗 刘积仁 《计算机应用研究》 CSCD 北大核心 2015年第4期1082-1086,共5页
针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法。该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则... 针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法。该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则。实验证明,该算法对病历实体进行识别时准确率及召回率分别最高达到91.03%和87.26%,满足临床中系统应用需求,同时实验表明该算法具有很好的鲁棒性和稳定性。 展开更多
关键词 电子病历 病历实体 命名实体识别 条件随机场 决策树
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部