期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
多民族语言本体知识库构建技术 被引量:15
1
作者 赵小兵 邱莉榕 赵铁军 《中文信息学报》 CSCD 北大核心 2011年第4期71-74,共4页
语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统... 语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等。 展开更多
关键词 知识库 语义本体 词典扩充 本体学习
在线阅读 下载PDF
基于一种混合语言模型的自动文本分类技术研究 被引量:2
2
作者 郑德权 李生 +1 位作者 赵铁军 于浩 《电子与信息学报》 EI CSCD 北大核心 2007年第3期601-605,共5页
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获... 随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。 展开更多
关键词 文本分类 水体 混合语言模型 上下文 多元信息
在线阅读 下载PDF
采用CRF技术的军事情报术语自动抽取研究 被引量:16
3
作者 贾美英 杨炳儒 +1 位作者 郑德权 杨靖 《计算机工程与应用》 CSCD 北大核心 2009年第32期126-129,共4页
针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用... 针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用的训练语料来自"搜狐网络军事频道"的新闻数据,测试语料选取《现代军事》杂志2007年第1~8期的所有文章。实验取得了良好的结果,准确率为73.24%,召回率为69.57%,F-测度为71.36%,表明该方法简单易行,且具有领域通用性。 展开更多
关键词 术语抽取 条件随机场 模板
在线阅读 下载PDF
结合本体论和统计方法的跨语言信息检索模型 被引量:5
4
作者 郑德权 李生 +1 位作者 赵铁军 于浩 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2008年第1期77-80,共4页
为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等... 为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等多元信息,建立了源语言本体知识库.在跨语言信息检索的实际应用中,利用本体表示,获得初始的检索文档集,再基于源语言本体知识库,对全部候选文档重新排序,以提高TopN排列的精确度.利用NTCIR-3Workshop中的中英文跨语言信息检索数据集对该语言模型进行了评价,相关实验结果表明,该方法取得了较满意的实验效果. 展开更多
关键词 跨语言信息检索 本体 统计方法 语言模型 知识获取
在线阅读 下载PDF
基于浅层分析的多文档自动文摘技术 被引量:5
5
作者 张姝 赵铁军 +1 位作者 郑德权 杨沐昀 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1102-1105,共4页
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-... 提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值. 展开更多
关键词 多文档文摘 浅层分析 MMR方法 自动评测
在线阅读 下载PDF
生物医学文本挖掘技术的研究与进展 被引量:23
6
作者 王浩畅 赵铁军 《中文信息学报》 CSCD 北大核心 2008年第3期89-98,共10页
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技... 生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。 展开更多
关键词 计算机应用 中文信息处理 生物信息学 文本挖掘 信息抽取 机器学习
在线阅读 下载PDF
Blog网页分类与识别技术研究 被引量:6
7
作者 郑德权 张迪 +1 位作者 赵铁军 于浩 《通信学报》 EI CSCD 北大核心 2007年第12期156-160,共5页
为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达... 为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。 展开更多
关键词 Blog网页识别 相似度计算 网页分类
在线阅读 下载PDF
基于自然语言理解的实体自动摆放的研究 被引量:2
8
作者 李晗静 李生 +3 位作者 赵铁军 韩延海 叶利军 李理 《电子与信息学报》 EI CSCD 北大核心 2007年第8期1845-1849,共5页
论文针对三维场景中实体自动摆放的实际应用,研究了基于自然语言理解的空间关系可视化问题,并用二步法实现了三维空间中的实体自动摆放。首先是摆放范围的确定,然后是实体的准确定位。该文主要阐述3个方面的内容:基于线性分类方法识别... 论文针对三维场景中实体自动摆放的实际应用,研究了基于自然语言理解的空间关系可视化问题,并用二步法实现了三维空间中的实体自动摆放。首先是摆放范围的确定,然后是实体的准确定位。该文主要阐述3个方面的内容:基于线性分类方法识别篇章中实体间的空间关系;基于包围盒确定实体的空间摆放区域;基于遗传算法实现实体准确摆放。实验结果证明了系统方法的可行性,达到了令人满意的效果。 展开更多
关键词 空间关系 Winnow分类器 遗传算法 自然语言理解 三维可视化
在线阅读 下载PDF
基于上下文多元信息的文档相似度计算研究 被引量:2
9
作者 于凤 郑德权 +1 位作者 赵铁军 李生 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期397-402,共6页
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成... 提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%-18.49%和11.96%~15.35%;在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上. 展开更多
关键词 相似度计算 上下文 多元信息 相似函数 知识获取
在线阅读 下载PDF
以机器翻译技术为核心的多语信息处理研究 被引量:2
10
作者 赵铁军 曹海龙 《中文信息学报》 CSCD 北大核心 2011年第6期81-89,110,共10页
该文介绍了哈尔滨工业大学教育部—微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。
关键词 机器翻译 多语信息处理 自然语言处理
在线阅读 下载PDF
树-串句法统计翻译模型的正向贪心解码算法
11
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第5期803-807,共5页
为了有效利用句法信息指导翻译过程,提出了基于贪心搜索的树-串句法统计翻译模型的正向解码算法.该算法以对数线性模型为整体框架,采用翻译模型概率、语言模型概率和空译文罚分作为特征函数.在解码过程中首先生成初始译文,然后通过遍历... 为了有效利用句法信息指导翻译过程,提出了基于贪心搜索的树-串句法统计翻译模型的正向解码算法.该算法以对数线性模型为整体框架,采用翻译模型概率、语言模型概率和空译文罚分作为特征函数.在解码过程中首先生成初始译文,然后通过遍历句法分析树反复迭代来改进译文.重点研究了解码过程中译文片断的打分方法.实验在IW SLT2004数据集上进行并采用BLEU方法评价翻译结果.实验结果表明正向贪心解码算法在翻译质量和速度上均好于现有的反向解码算法,这说明正向贪心解码算法能够更为有效地利用句法结构信息,更适合于树-串统计翻译模型. 展开更多
关键词 统计机器翻译 句法 贪心 解码
在线阅读 下载PDF
基于对等模式的汉-英译文调序
12
作者 张春祥 赵铁军 +1 位作者 卢志茂 高雪瑶 《高技术通讯》 CAS CSCD 北大核心 2013年第1期29-34,共6页
为了提高机器翻译质量,提出了一种基于对等模式的汉-英译文调序方法:从短语翻译对中抽取汉.英语序对应关系,利用语言学特征和错误驱动学习相结合的方式获取对等模式,使用对等模式来改变汉语句法树结构,使其生成的译文符合英语语... 为了提高机器翻译质量,提出了一种基于对等模式的汉-英译文调序方法:从短语翻译对中抽取汉.英语序对应关系,利用语言学特征和错误驱动学习相结合的方式获取对等模式,使用对等模式来改变汉语句法树结构,使其生成的译文符合英语语序要求。使用该方法对500个汉.英双语句对中的汉语句子进行调序的实验结果表明,词链交叉率降低了10.56%。经过调序之后,汉语句子的译文质量有所提高。 展开更多
关键词 对等模式 译文调序 短语翻译对 词链交叉率 译文质量
在线阅读 下载PDF
基于上下文的查询扩展 被引量:32
13
作者 李卫疆 赵铁军 王宪刚 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期300-304,共5页
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关... 针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率. 展开更多
关键词 信息检索 查询扩展 上下文 语言模型 伪反馈
在线阅读 下载PDF
基于无向图序列标注模型的中文分词词性标注一体化系统 被引量:12
14
作者 朱聪慧 赵铁军 郑德权 《电子与信息学报》 EI CSCD 北大核心 2010年第3期700-704,共5页
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模... 在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。 展开更多
关键词 中文分词 词性标注 一体化系统 无向图模型
在线阅读 下载PDF
短语统计机器翻译的句法调序模型 被引量:6
15
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《通信学报》 EI CSCD 北大核心 2008年第1期7-14,共8页
为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的... 为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高。结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。 展开更多
关键词 人工智能 统计翻译模型 句法调序 短语
在线阅读 下载PDF
基于链接分析的重要Blog信息源发现 被引量:6
16
作者 杨宇航 赵铁军 +1 位作者 郑德权 于浩 《中文信息学报》 CSCD 北大核心 2007年第5期68-72,共5页
本文提出了一种基于链接分析的对Blog信息源进行量化评估的方法,在此基础之上发现重要Blog信息源,既体现了Blog信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可望为Blog信息检索提供一种... 本文提出了一种基于链接分析的对Blog信息源进行量化评估的方法,在此基础之上发现重要Blog信息源,既体现了Blog信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可望为Blog信息检索提供一种新的思路。为了证明该评估方法的有效性,本文还提出了Blog信息源重要性的评价指标,对比了重要Blog信息源量化评估方法和评价指标的评分结果,通过相关性分析,表明此方法和评价指标存在高度的一致性。 展开更多
关键词 计算机应用 中文信息处理 重要Blog信息源 链接分析 评价指标 相关性分析
在线阅读 下载PDF
基于等价伪译词模型的无指导译文消歧研究 被引量:3
17
作者 刘鹏远 赵铁军 +1 位作者 杨沐昀 李壮 《电子与信息学报》 EI CSCD 北大核心 2008年第7期1690-1694,共5页
该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的... 该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的目标语语义知识,可直接形成该等价伪译词的语义分类器。利用Hownet可将含目标歧义词的英语实例映射成汉语词集合,然后利用这个语义分类器进行译文消歧。在国际标准语义评测集上进行的测试表明,该方法优于其余两种自动获取已标注语料的系统,且与Senseval-2 ELS上可比较的最好无指导系统的性能相当。 展开更多
关键词 词义消歧 无指导 译文消歧 等价伪译词 目标语
在线阅读 下载PDF
基于多重特征选择和多分类器融合的文本层次分类研究 被引量:3
18
作者 贾美英 杨炳儒 +1 位作者 郑德权 陈庆轩 《计算机应用研究》 CSCD 北大核心 2009年第12期4467-4470,共4页
针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表... 针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表明,相对于单分类器,该方法无论在平面分类和层次分类语料上都获得了更好的分类精度,且具有较好的时间复杂性,有很好的实际应用前景。 展开更多
关键词 文本自动分类 文本层次分类 多重特征选择 可信度函数 多分类器融合
在线阅读 下载PDF
基于中心语块扩展的短语对齐 被引量:3
19
作者 张春祥 李生 赵铁军 《计算机研究与发展》 EI CSCD 北大核心 2006年第9期1658-1665,共8页
短语等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用.提出了一种新的短语对齐方法,使用可信度较高的词典对齐结果来抽取源语言短语的译文中心语块,依据译文扩展可信度来确定源语言短语的译文统计边界.从译文中心语块出发... 短语等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用.提出了一种新的短语对齐方法,使用可信度较高的词典对齐结果来抽取源语言短语的译文中心语块,依据译文扩展可信度来确定源语言短语的译文统计边界.从译文中心语块出发,结合译文统计边界生成源语言短语的所有候选译文.对候选译文进行评价,从中选出最可靠的译文.同时利用贪心算法消除源语言短语译文边界之间的交叉冲突.实验结果表明,所提出的方法在开放测试中其正确率达到了82.76%,性能好于其他方法. 展开更多
关键词 短语等价对 译文中心语块 贪心算法
在线阅读 下载PDF
基于中心驱动模型的宾州中文树库(CTB)句法分析 被引量:3
20
作者 曹海龙 赵铁军 李生 《高技术通讯》 CAS CSCD 北大核心 2007年第1期15-20,共6页
报告了依托宾州中文树库进行句法分析研究的最新进展。以著名的中心驱动模型为基础,首次在宾州中文树库5.0上进行了句法分析实验。同前人的工作相比,这次实验取得了更加成功的结果,极大缩小了中、英文句法分析的差距。在公共的测试... 报告了依托宾州中文树库进行句法分析研究的最新进展。以著名的中心驱动模型为基础,首次在宾州中文树库5.0上进行了句法分析实验。同前人的工作相比,这次实验取得了更加成功的结果,极大缩小了中、英文句法分析的差距。在公共的测试集上对句法分析器的性能进行了评价,对于正确分词和词性标注的句子,句法分析的精确率和召回率分别达到85.89%和85.61%。介绍了模型的实现过程,并进一步分析了模型中决策表和基本名词短语(BNP)两个关键环节在句法分析器中所起到的作用。本文的工作对于研制实用化句法分析系统具有一定参考价值。 展开更多
关键词 中心驱动模型 宾州中文树库 句法分析 结构模式识别
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部