期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
大模型增强的跨模态图文检索方法 被引量:1
1
作者 罗文培 黄德根 《小型微型计算机系统》 北大核心 2025年第7期1544-1553,共10页
在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-... 在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-图像数据作为预训练数据;其次,提出了一种两阶段训练方法,结合了知识蒸馏和对比学习,在该文产出的数据集上进行训练,从而进一步提升模型性能.提出的模型在包括COCO-CN和Flickr30K-CN在内的中文文本-图像检索数据集上取得了SOTA. 展开更多
关键词 图像-文本检索 预训练 知识蒸馏 对比学习
在线阅读 下载PDF
基于数据增强和两阶段训练的摘要忠实度评估
2
作者 赵金爽 黄德根 《计算机科学》 北大核心 2025年第10期266-274,共9页
文本摘要的忠实度,即其与原文在事实层面的一致性,对于自动文本摘要的实际应用具有重要意义。现有的摘要忠实度评估方法在利用文本摘要数据集方面存在不足,且构建的不忠实摘要与原文差异显著,这限制了评估方法的有效性。针对此问题,提... 文本摘要的忠实度,即其与原文在事实层面的一致性,对于自动文本摘要的实际应用具有重要意义。现有的摘要忠实度评估方法在利用文本摘要数据集方面存在不足,且构建的不忠实摘要与原文差异显著,这限制了评估方法的有效性。针对此问题,提出一种基于数据增强和两阶段训练的摘要忠实度评估模型——FaithEval。首先,定义两种数据增强方法,即同主题相似检索和外插掩码填充,用于生成与原文内容相关联的不忠实摘要,应用这些方法从文本摘要数据集中提取训练数据;然后,充分利用数据集的信息,基于原文和参考摘要构建的训练数据,分两个阶段对模型进行训练,逐步强化模型的忠实度评估能力;最后,人工构建摘要忠实度评估测试集SFETS,为检验模型性能提供基准。实验结果表明,在SFETS和Rank19数据集上,FaithEval均表现出色,尤其在SFETS数据集上,达到了当前最优的效果。 展开更多
关键词 文本摘要 忠实度评估 数据增强 两阶段训练 基准测试集
在线阅读 下载PDF
基于统计方法的中文姓名识别 被引量:34
3
作者 黄德根 杨元生 +2 位作者 王省 张艳丽 钟万勰 《中文信息学报》 CSCD 北大核心 2001年第2期31-37,44,共8页
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式... 专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式精确率和召回率分别达 95 .97%和 95 .5 2 % ,开式精确率和召回率分别达 92 .37%和 88.6 2 % 展开更多
关键词 双词同现频度 单词频度 学习机制 中文姓名识别 自动分词 统计模型 召回率 可信度
在线阅读 下载PDF
基于最长次长匹配的汉语自动分词 被引量:14
4
作者 黄德根 朱和合 +2 位作者 王昆仑 杨元生 钟万勰 《大连理工大学学报》 CAS CSCD 北大核心 1999年第6期831-835,共5页
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹... 汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹配原则的汉语自动分词方法,分词效果较好. 展开更多
关键词 语言处理 自动分词 机器翻译 最长匹配法 汉语
在线阅读 下载PDF
基于统计的中文地名识别 被引量:49
5
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
在线阅读 下载PDF
基于互信息的中文姓名识别方法 被引量:12
6
作者 黄德根 马玉霞 杨元生 《大连理工大学学报》 EI CAS CSCD 北大核心 2004年第5期744-748,共5页
提出并实现了一个基于互信息的中文姓名识别方法.该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数... 提出并实现了一个基于互信息的中文姓名识别方法.该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数.开放测试结果表明,该方法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率. 展开更多
关键词 中文 姓名 函数 动态评价 挖掘 开放 互信息 上下文 召回 识别方法
在线阅读 下载PDF
基于子词的双层CRFs中文分词 被引量:23
7
作者 黄德根 焦世斗 周惠巍 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期962-968,共7页
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词... 提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度. 展开更多
关键词 中文分词 条件随机场 双层条件随机场 子词 子词过滤
在线阅读 下载PDF
基于SVM和CRF的双层模型中文机构名识别 被引量:13
8
作者 黄德根 李泽中 万如 《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第5期782-787,共6页
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后... 提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性. 展开更多
关键词 机构名识别 条件随机场(CRF) 支持向量机(SVM) 双层模型
在线阅读 下载PDF
规则与统计相结合的兼类词处理机制 被引量:6
9
作者 黄德根 张丽静 +1 位作者 张艳丽 杨元生 《小型微型计算机系统》 CSCD 北大核心 2003年第7期1252-1255,共4页
兼类词处理是词性标注的关键所在 ,本文对兼类词排岐进行了研究 ,介绍了规则和统计相结合的排岐策略 .按照上述策略 ,实现了一个兼类词处理系统 .实验测试结果表明 ,利用规则与统计相结合的兼类词处理机制可以有效地提高排岐正确率和词... 兼类词处理是词性标注的关键所在 ,本文对兼类词排岐进行了研究 ,介绍了规则和统计相结合的排岐策略 .按照上述策略 ,实现了一个兼类词处理系统 .实验测试结果表明 ,利用规则与统计相结合的兼类词处理机制可以有效地提高排岐正确率和词性标注正确率 ,在封闭测试和开放测试中兼类词的排歧正确率分别达到了 93.91%和 91.16 % ,标注正确率分别达到了 97.85 %和 96 .71% . 展开更多
关键词 词性标注 兼类词 规则 n-元模型
在线阅读 下载PDF
中文地名的自动识别 被引量:10
10
作者 黄德根 孙迎红 《计算机工程》 CAS CSCD 北大核心 2006年第3期220-222,共3页
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放... 以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。 展开更多
关键词 地名识别 规则量化 自动分词 中文信息处理
在线阅读 下载PDF
基于规则推理网络的分类模型 被引量:7
11
作者 黄德根 张云霞 +2 位作者 林红梅 邹丽 刘壮 《软件学报》 EI CSCD 北大核心 2020年第4期1063-1078,共16页
为了缓解神经网络的“黑盒子”机制引起的算法可解释性低的问题,基于使用证据推理算法的置信规则库推理方法(以下简称RIMER)提出了一个规则推理网络模型.该模型通过RIMER中的置信规则和推理机制提高网络的可解释性.首先证明了基于证据... 为了缓解神经网络的“黑盒子”机制引起的算法可解释性低的问题,基于使用证据推理算法的置信规则库推理方法(以下简称RIMER)提出了一个规则推理网络模型.该模型通过RIMER中的置信规则和推理机制提高网络的可解释性.首先证明了基于证据推理的推理函数是可偏导的,保证了算法的可行性;然后,给出了规则推理网络的网络框架和学习算法,利用RIMER中的推理过程作为规则推理网络的前馈过程,以保证网络的可解释性;使用梯度下降法调整规则库中的参数以建立更合理的置信规则库,为了降低学习复杂度,提出了“伪梯度”的概念;最后,通过分类对比实验,分析了所提算法在精确度和可解释性上的优势.实验结果表明,当训练数据集规模较小时,规则推理网络的表现良好,当训练数据规模扩大时,规则推理网络也能达到令人满意的结果. 展开更多
关键词 规则推理 RIMER 可解释性网络 机器学习 不确定性分类
在线阅读 下载PDF
分布式策略与CRFs相结合识别汉语组块 被引量:6
12
作者 黄德根 于静 《中文信息学报》 CSCD 北大核心 2009年第1期16-22,共7页
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F... 该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 展开更多
关键词 计算机应用 中文信息处理 组块识别 条件随机域(CRFs) 分布式策略 基于CRFs的错误驱动 浅层句法分析
在线阅读 下载PDF
基于SVM的组块识别及其错误驱动学习方法 被引量:6
13
作者 黄德根 王莹莹 《中文信息学报》 CSCD 北大核心 2006年第6期17-24,共8页
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集... 给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。 展开更多
关键词 计算机应用 中文信息处理 组块分析 错误驱动学习 支持向量机(SVM) 规则集
在线阅读 下载PDF
汉英机器翻译中趋向动词处理研究 被引量:1
14
作者 黄德根 刘小华 李丽双 《大连理工大学学报》 EI CAS CSCD 北大核心 2006年第5期756-759,共4页
在大规模语料的基础上,对趋向动词的用法和上下文信息进行了统计和分析,得到了趋向动词在谓词后面作趋向补语的概率、小概率作趋向补语(即趋向动词在谓词后面作补语的概率介于两个阈值之间)时的上下文信息;建立了一个基于趋向动词在谓... 在大规模语料的基础上,对趋向动词的用法和上下文信息进行了统计和分析,得到了趋向动词在谓词后面作趋向补语的概率、小概率作趋向补语(即趋向动词在谓词后面作补语的概率介于两个阈值之间)时的上下文信息;建立了一个基于趋向动词在谓词后面作趋向补语的概率统计模型来识别趋向动词用法.同时,根据趋向动词与谓词搭配后词义变化情况,对词典进行了补充.封闭测试识别精确率达99.01%,召回率达96.67%;开放测试识别精确率达98.14%,召回率达96.19%. 展开更多
关键词 机器翻译 中文趋向动词 词典
在线阅读 下载PDF
一种机器翻译系统用词典的设计及其结构 被引量:1
15
作者 黄德根 简幼良 蒙家玉 《大连理工大学学报》 EI CAS CSCD 北大核心 1997年第6期714-718,共5页
提出了机器翻译系统的词典设计目标,讨论了大型动态词典文件的组织方法.根据汉语词分布不均匀的特点,提出一种扩充的B+树索引词典文件结构,并给出该词典的查询算法及词典结构的评估.实践证明该词典结构达到了机器翻译系统的要求... 提出了机器翻译系统的词典设计目标,讨论了大型动态词典文件的组织方法.根据汉语词分布不均匀的特点,提出一种扩充的B+树索引词典文件结构,并给出该词典的查询算法及词典结构的评估.实践证明该词典结构达到了机器翻译系统的要求,其结构是合理的. 展开更多
关键词 信息处理 词典结构 机器翻译 电子词典 设计
在线阅读 下载PDF
基于面向对象机制构造机器翻译系统词典类库
16
作者 黄德根 杨元生 施勇 《小型微型计算机系统》 CSCD 北大核心 2001年第7期845-847,共3页
本文提出用面向对象理论来建立机器翻译词典基类的方法 ,成功地用一种通用的模式来实现机器翻译中各种电子词典的管理 .新方法较大地提高了机器翻译系统的可靠性、可维护性与可重用性 ,并已在 NHWIN中日 -日中机器翻译系统中得到了很好... 本文提出用面向对象理论来建立机器翻译词典基类的方法 ,成功地用一种通用的模式来实现机器翻译中各种电子词典的管理 .新方法较大地提高了机器翻译系统的可靠性、可维护性与可重用性 ,并已在 NHWIN中日 -日中机器翻译系统中得到了很好的应用 . 展开更多
关键词 信息处理 电子词典 机器翻译 机器翻译系统 面向对象 词典类库
在线阅读 下载PDF
开放式汉语自动分词的学习机制
17
作者 黄德根 岳函 李丽双 《小型微型计算机系统》 CSCD 北大核心 2005年第8期1406-1410,共5页
针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部分三元语法信息的多元... 针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部分三元语法信息的多元分词模型,讨论了切分算法和人机交互中的具体问题,并通过实验确定模型系数和阈值.实验结果表明,该分词模型经三次学习后,闭式分词中的切分错误有78.44%得到纠正,切分正确率达到99.43%,开式分词中的切分错误有63.56%得到纠正,切分正确率达到98.46%.系统具有较高的实用价值. 展开更多
关键词 自动分词 开放式 学习机制 错误驱动
在线阅读 下载PDF
CRF与规则相结合的中文地名识别 被引量:17
18
作者 李丽双 党延忠 +2 位作者 廖文平 黄德根 张颖 《大连理工大学学报》 EI CAS CSCD 北大核心 2012年第2期285-289,共5页
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地... 采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%. 展开更多
关键词 中文信息处理 中文地名识别 条件随机域 基于规则的后处理
在线阅读 下载PDF
SVM与规则相结合的中文地名自动识别 被引量:32
19
作者 李丽双 黄德根 +1 位作者 陈春荣 杨元生 《中文信息学报》 CSCD 北大核心 2006年第5期51-57,共7页
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对... 在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 支持向量机 机器学习 基于规则的后处理
在线阅读 下载PDF
基于支持向量机的中文文本中地名识别 被引量:16
20
作者 李丽双 黄德根 +1 位作者 陈春荣 杨元生 《大连理工大学学报》 EI CAS CSCD 北大核心 2007年第3期433-438,共6页
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多... 提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69%和93.82%,F-值为90.12%. 展开更多
关键词 支持向量机 中文文本 地名识别 机器学习
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部