期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
面向标记语言的机器翻译方法研究
1
作者 杜权 曾信 +4 位作者 李北 刘辉 李垠桥 肖桐 朱靖波 《中文信息学报》 CSCD 北大核心 2024年第8期68-75,共8页
标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准... 标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F_(1)值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。 展开更多
关键词 标记语言 机器翻译 基于泛化的建模方法
在线阅读 下载PDF
稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究 被引量:10
2
作者 李强 王强 +1 位作者 肖桐 朱靖波 《计算机学报》 EI CSCD 北大核心 2017年第4期925-938,共14页
该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中... 该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中,通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高翻译系统的翻译性能.在传统的短语级中间语方法中,由于存在无法进行融合的中间语短语从而导致很多高质量短语对无法生成的问题,该文提出的改进方法通过解码生成的方式来扩大短语翻译表,继而提高翻译质量.该文系统地比较了3种中间语方法的优缺点,通过人工分析发现,任何一种方法无法在所有的翻译任务上取得最佳的翻译性能,故文中提出了语料级-短语级融合的中间语方法,该方法在所有翻译任务上取得了最优的翻译性能.最终,文中成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译系统.与基线系统相比,文中提出的方法在4种外国语的测试集上获得了0.8至2.8个BLEU点的上涨. 展开更多
关键词 自然语言处理 统计机器翻译 外国语翻译 中间语言 语料构建
在线阅读 下载PDF
端到端语音翻译中辅助数据的使用策略研究
3
作者 刘晓倩 韩宇晨 +7 位作者 朱靖波 许晨 张裕浩 杜扬帆 赫洱锋 马安香 张春良 肖桐 《中文信息学报》 北大核心 2025年第5期60-71,共12页
端到端语音翻译模型由于数据稀缺问题很难直接进行有效训练。为此,已有方法基于利用辅助数据进行改进的思路,采取了多种不同的策略,但如何将这些策略有机地结合起来仍是一个难题。该文基于编码分解的统一建模架构,实现了对数据增强、预... 端到端语音翻译模型由于数据稀缺问题很难直接进行有效训练。为此,已有方法基于利用辅助数据进行改进的思路,采取了多种不同的策略,但如何将这些策略有机地结合起来仍是一个难题。该文基于编码分解的统一建模架构,实现了对数据增强、预训练和多任务学习三个关键技术的有效联合。在MuST-C英-中语音翻译数据集上的实验结果表明,数据增强在三种方法中具有最大的潜力,能够显著提升语音翻译模型的性能(5.18 BLEU),并通过联合预训练技术实现了在单个模型上最大程度的性能提升(5.48 BLEU),使模型获得更好的泛化性。尽管进一步结合多任务学习无法带来正向效果,但通过对多种模型进行集成仍可获得5.61 BLEU提升。 展开更多
关键词 语音翻译 预训练 数据增强 多任务学习
在线阅读 下载PDF
基于数据并行的神经语言模型多卡训练分析 被引量:2
4
作者 李垠桥 阿敏巴雅尔 +3 位作者 肖桐 薄乐 朱靖波 张俐 《中文信息学报》 CSCD 北大核心 2018年第7期37-43,共7页
数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,... 数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X(Pascal)GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25%和41%的速度提升。同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论。 展开更多
关键词 数据并行 神经语言模型 All-Reduce 采样
在线阅读 下载PDF
预训练神经机器翻译研究进展分析
5
作者 曹智泉 穆永誉 +3 位作者 肖桐 李北 张春良 朱靖波 《中文信息学报》 CSCD 北大核心 2024年第6期1-23,共23页
神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下... 神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。 展开更多
关键词 自然语言处理 预训练模型 神经机器翻译
在线阅读 下载PDF
基于领域词典的文本特征表示 被引量:23
6
作者 陈文亮 朱靖波 +1 位作者 朱慕华 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2155-2160,共6页
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———... 为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%· 展开更多
关键词 文本分类 知识获取 领域知识 文本表示
在线阅读 下载PDF
基于领域类别信息C-value的多词串自动抽取 被引量:7
7
作者 李超 王会珍 +2 位作者 朱慕华 张俐 朱靖波 《中文信息学报》 CSCD 北大核心 2010年第1期94-98,共5页
该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价... 该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点。实验结果验证了方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 多词串抽取 多类别C-value 领域信息
在线阅读 下载PDF
面向统计机器翻译的重对齐方法研究 被引量:5
8
作者 肖桐 李天宁 +2 位作者 陈如山 朱靖波 王会珍 《中文信息学报》 CSCD 北大核心 2010年第1期110-116,共7页
词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,... 词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,该文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,该文提出的方法可以使统计机器翻译系统得到更高的翻译准确率。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 词对齐 重对齐 IBMmodels
在线阅读 下载PDF
基于Bootstrapping的文本分类模型 被引量:6
9
作者 陈文亮 朱慕华 +1 位作者 朱靖波 姚天顺 《中文信息学报》 CSCD 北大核心 2005年第2期86-92,共7页
本文提出一种基于Bootstrapping的文本分类模型 ,该模型采用最大熵模型作为分类器 ,从少量的种子集出发 ,自动学习更多的文本作为新的种子样本 ,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样... 本文提出一种基于Bootstrapping的文本分类模型 ,该模型采用最大熵模型作为分类器 ,从少量的种子集出发 ,自动学习更多的文本作为新的种子样本 ,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明 ,在相同的手工训练语料的条件下 ,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势 ,仅使用每类10 0篇种子训练集 ,分类结果的F1值为 70 5 6 % ,比传统模型高出 4 70 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。 展开更多
关键词 计算机应用 中文信息处理 文本分类 最大熵模型 权重因子
在线阅读 下载PDF
基于句对质量和覆盖度的统计机器翻译训练语料选取 被引量:11
10
作者 姚树杰 肖桐 朱靖波 《中文信息学报》 CSCD 北大核心 2011年第2期72-77,共6页
该文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。该文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规... 该文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。该文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模训练子集的方法。在CWMT2008汉英翻译任务上的实验结果表明,利用本文的方法能够从现有大规模语料中选取高质量的子集,在减少80%训练语料的情况下达到与Baseline系统(使用全部训练语料)相当的翻译性能(BLEU值)。 展开更多
关键词 句对质量评价 覆盖度 统计机器翻译 线性句对质量评价模型 训练语料选取
在线阅读 下载PDF
基于维基百科类别的文本特征表示 被引量:16
11
作者 王锦 王会珍 张俐 《中文信息学报》 CSCD 北大核心 2011年第2期27-31,共5页
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百... 该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。 展开更多
关键词 文本分类 维基百科类别 文本表示
在线阅读 下载PDF
统计机器翻译中实例短语对研究 被引量:3
12
作者 李强 李沐 +1 位作者 张冬冬 朱靖波 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期113-119,共7页
针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题,在基于短语的统计机器翻译系统中,通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作,生成传统方法无法抽取的实例短语对。在汉英新闻... 针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题,在基于短语的统计机器翻译系统中,通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作,生成传统方法无法抽取的实例短语对。在汉英新闻和汉英口语翻译任务上,与基线系统相比,该方法在多个测试集上明显提高了翻译系统的翻译质量,在部分测试集上BLEU值可提高1%左右。 展开更多
关键词 统计机器翻译 基于短语 基于实例 短语对
在线阅读 下载PDF
基于实例的中文分词-词性标注方法的应用研究 被引量:4
13
作者 姜涛 姚天顺 张俐 《小型微型计算机系统》 CSCD 北大核心 2007年第11期2090-2093,共4页
通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训... 通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训练语料的标注保持了很好的一致性.这使得EBST系统非常适合于在基于实例的机器翻译(Example-Based Machine Translation,EBMT)系统中的应用.本文给出了EBST在EBMT系统中的应用实例及相应的实验结果. 展开更多
关键词 中文分词-词性标注 语料库 EBMT
在线阅读 下载PDF
向上学习方法改进移进-归约中文句法分析 被引量:2
14
作者 朱慕华 王会珍 朱靖波 《中文信息学报》 CSCD 北大核心 2015年第2期33-39,共7页
基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数... 基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进-归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进-归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。 展开更多
关键词 中文句法分析 移进-归约分析 伯克利句法分析器 向上学习 无标注数据
在线阅读 下载PDF
多维度等级评分模型优化技术 被引量:1
15
作者 王会珍 朱靖波 《软件学报》 EI CSCD 北大核心 2013年第7期1545-1556,共12页
研究了多维度等级评分模型的训练学习优化技术.为了解决不同用户之间的评分标注所存在的不一致性,提出两种简单、有效的模型训练优化技术,包括基于容忍度的样本选择方法和基于排序损失的样本选择方法.另外,为了充分利用不同特征的用户... 研究了多维度等级评分模型的训练学习优化技术.为了解决不同用户之间的评分标注所存在的不一致性,提出两种简单、有效的模型训练优化技术,包括基于容忍度的样本选择方法和基于排序损失的样本选择方法.另外,为了充分利用不同特征的用户评分标注之间的相关性,提出了一个面向属性的协同过滤技术以改善多维度等级评分模型.在两个公开的英语和汉语真实餐馆评论数据集上进行实验验证,实验结果表明,所提出的方法有效地改善了等级评分的性能. 展开更多
关键词 排序学习 有序回归模型 多维度等级评分模型 情感分析 协同过滤
在线阅读 下载PDF
基于序列相交的短语译文获取 被引量:3
16
作者 王辰 宋国龙 +2 位作者 吴宏林 张俐 刘绍明 《中文信息学报》 CSCD 北大核心 2009年第1期38-43,共6页
短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对... 短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。 展开更多
关键词 计算机应用 中文信息处理 EBMT 短语译文获取 序列相交
在线阅读 下载PDF
面向移进—归约句法分析器的单模型系统整合算法 被引量:5
17
作者 马骥 朱慕华 +1 位作者 肖桐 朱靖波 《中文信息学报》 CSCD 北大核心 2012年第3期9-15,共7页
该文提出了一种面向移进—归约句法分析器的单模型系统整合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于整合的多个移进—归约句法分析器。在解码阶段,该方法首先使用各个移进—归约句法分析器对待分析的句子进行句法分析... 该文提出了一种面向移进—归约句法分析器的单模型系统整合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于整合的多个移进—归约句法分析器。在解码阶段,该方法首先使用各个移进—归约句法分析器对待分析的句子进行句法分析,然后利用一个线性模型对各句法分析器输出的句法树进行评分,从中选出得分最高的句法树作为最终结果。该文中的实验是在宾州英文树库上进行的。实验结果表明,该文中的方法能够显著改善基准系统的性能。 展开更多
关键词 句法分析 系统整合 移进—归约句法分析器
在线阅读 下载PDF
面向人名消歧任务的人名识别系统 被引量:4
18
作者 时迎超 王会珍 +1 位作者 肖桐 胡明涵 《中文信息学报》 CSCD 北大核心 2011年第3期17-22,共6页
CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中... CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。 展开更多
关键词 人名识别 人名消歧 系统整合 启发式规则
在线阅读 下载PDF
基于多层次特征集成的中文实体指代识别 被引量:1
19
作者 张海雷 曹菲菲 +3 位作者 陈文亮 任飞亮 王会珍 朱靖波 《中文信息学报》 CSCD 北大核心 2007年第5期126-130,共5页
实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符... 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。 展开更多
关键词 计算机应用 中文信息处理 实体指代识别 多任务标注 条件随机场模型 ACE评测
在线阅读 下载PDF
面向神经机器翻译的集成学习方法分析 被引量:10
20
作者 李北 王强 +5 位作者 肖桐 姜雨帆 张哲旸 刘继强 张俐 于清 《中文信息学报》 CSCD 北大核心 2019年第3期42-51,共10页
集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的... 集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究。该文主要针对机器翻译任务中的参数平均与模型融合两种集成学习方法进行大量的实验,分别从模型与数据层面、多样性与模型数量层面对集成学习的策略进行了深入探索。实验结果表明在WMT中英新闻任务上,所提模型相比Transformer单模型有3.19个BLEU值的提升。 展开更多
关键词 集成学习 参数平均 模型融合 多样性
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部