期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
结合本体论和统计方法的跨语言信息检索模型 被引量:5
1
作者 郑德权 李生 +1 位作者 赵铁军 于浩 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2008年第1期77-80,共4页
为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等... 为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等多元信息,建立了源语言本体知识库.在跨语言信息检索的实际应用中,利用本体表示,获得初始的检索文档集,再基于源语言本体知识库,对全部候选文档重新排序,以提高TopN排列的精确度.利用NTCIR-3Workshop中的中英文跨语言信息检索数据集对该语言模型进行了评价,相关实验结果表明,该方法取得了较满意的实验效果. 展开更多
关键词 跨语言信息检索 本体 统计方法 语言模型 知识获取
在线阅读 下载PDF
多民族语言本体知识库构建技术 被引量:15
2
作者 赵小兵 邱莉榕 赵铁军 《中文信息学报》 CSCD 北大核心 2011年第4期71-74,共4页
语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统... 语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等。 展开更多
关键词 知识库 语义本体 词典扩充 本体学习
在线阅读 下载PDF
基于自然语言理解的实体自动摆放的研究 被引量:2
3
作者 李晗静 李生 +3 位作者 赵铁军 韩延海 叶利军 李理 《电子与信息学报》 EI CSCD 北大核心 2007年第8期1845-1849,共5页
论文针对三维场景中实体自动摆放的实际应用,研究了基于自然语言理解的空间关系可视化问题,并用二步法实现了三维空间中的实体自动摆放。首先是摆放范围的确定,然后是实体的准确定位。该文主要阐述3个方面的内容:基于线性分类方法识别... 论文针对三维场景中实体自动摆放的实际应用,研究了基于自然语言理解的空间关系可视化问题,并用二步法实现了三维空间中的实体自动摆放。首先是摆放范围的确定,然后是实体的准确定位。该文主要阐述3个方面的内容:基于线性分类方法识别篇章中实体间的空间关系;基于包围盒确定实体的空间摆放区域;基于遗传算法实现实体准确摆放。实验结果证明了系统方法的可行性,达到了令人满意的效果。 展开更多
关键词 空间关系 Winnow分类器 遗传算法 自然语言理解 三维可视化
在线阅读 下载PDF
采用CRF技术的军事情报术语自动抽取研究 被引量:16
4
作者 贾美英 杨炳儒 +1 位作者 郑德权 杨靖 《计算机工程与应用》 CSCD 北大核心 2009年第32期126-129,共4页
针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用... 针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用的训练语料来自"搜狐网络军事频道"的新闻数据,测试语料选取《现代军事》杂志2007年第1~8期的所有文章。实验取得了良好的结果,准确率为73.24%,召回率为69.57%,F-测度为71.36%,表明该方法简单易行,且具有领域通用性。 展开更多
关键词 术语抽取 条件随机场 模板
在线阅读 下载PDF
基于无向图序列标注模型的中文分词词性标注一体化系统 被引量:12
5
作者 朱聪慧 赵铁军 郑德权 《电子与信息学报》 EI CSCD 北大核心 2010年第3期700-704,共5页
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模... 在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。 展开更多
关键词 中文分词 词性标注 一体化系统 无向图模型
在线阅读 下载PDF
基于链接分析的重要Blog信息源发现 被引量:6
6
作者 杨宇航 赵铁军 +1 位作者 郑德权 于浩 《中文信息学报》 CSCD 北大核心 2007年第5期68-72,共5页
本文提出了一种基于链接分析的对Blog信息源进行量化评估的方法,在此基础之上发现重要Blog信息源,既体现了Blog信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可望为Blog信息检索提供一种... 本文提出了一种基于链接分析的对Blog信息源进行量化评估的方法,在此基础之上发现重要Blog信息源,既体现了Blog信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可望为Blog信息检索提供一种新的思路。为了证明该评估方法的有效性,本文还提出了Blog信息源重要性的评价指标,对比了重要Blog信息源量化评估方法和评价指标的评分结果,通过相关性分析,表明此方法和评价指标存在高度的一致性。 展开更多
关键词 计算机应用 中文信息处理 重要Blog信息源 链接分析 评价指标 相关性分析
在线阅读 下载PDF
生物医学文本挖掘技术的研究与进展 被引量:23
7
作者 王浩畅 赵铁军 《中文信息学报》 CSCD 北大核心 2008年第3期89-98,共10页
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技... 生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。 展开更多
关键词 计算机应用 中文信息处理 生物信息学 文本挖掘 信息抽取 机器学习
在线阅读 下载PDF
动态多文档文摘模型 被引量:9
8
作者 刘美玲 郑德权 +1 位作者 赵铁军 于洋 《软件学报》 EI CSCD 北大核心 2012年第2期289-298,共10页
从网络信息的动态演化性出发,对同一话题不同时序阶段的文档集合进行识别和分析,在度量演化内容差异性的基础上实现动态性,给出了两种实现动态多文档文摘的模型,即基于矩阵子空间分析和基于文本相似度累加的动态多文档文摘模型.在此基础... 从网络信息的动态演化性出发,对同一话题不同时序阶段的文档集合进行识别和分析,在度量演化内容差异性的基础上实现动态性,给出了两种实现动态多文档文摘的模型,即基于矩阵子空间分析和基于文本相似度累加的动态多文档文摘模型.在此基础上,提出了高效的动态句子加权方法.TAC 2008的Update Summarization测试数据上的实验证明了所提出的动态多文档文摘模型的有效性. 展开更多
关键词 多文档文摘 差异性分析 矩阵模型 相似度累加 动态演化
在线阅读 下载PDF
基于多重特征选择和多分类器融合的文本层次分类研究 被引量:3
9
作者 贾美英 杨炳儒 +1 位作者 郑德权 陈庆轩 《计算机应用研究》 CSCD 北大核心 2009年第12期4467-4470,共4页
针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表... 针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表明,相对于单分类器,该方法无论在平面分类和层次分类语料上都获得了更好的分类精度,且具有较好的时间复杂性,有很好的实际应用前景。 展开更多
关键词 文本自动分类 文本层次分类 多重特征选择 可信度函数 多分类器融合
在线阅读 下载PDF
基于上下文多元信息的文档相似度计算研究 被引量:2
10
作者 于凤 郑德权 +1 位作者 赵铁军 李生 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期397-402,共6页
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成... 提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%-18.49%和11.96%~15.35%;在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上. 展开更多
关键词 相似度计算 上下文 多元信息 相似函数 知识获取
在线阅读 下载PDF
动词次范畴英汉论元对应关系获取 被引量:1
11
作者 朱聪慧 赵铁军 +1 位作者 韩习武 郑德权 《中文信息学报》 CSCD 北大核心 2010年第2期91-95,121,共6页
动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取... 动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取方法,这种方法可以在双语平行语料上,几乎不需要任何先验的语言学知识的情况下,自动获取英汉论元的对应关系。然后我们将这些对应关系加入了统计机器翻译系统。实验结果表明,融合了英汉动词次范畴论元对应关系的SMT系统在性能上有明显的提升,证明了自动抽取的对应关系的有效性,也为SMT提供了新的研究方向。 展开更多
关键词 人工智能 机器翻译 动词次范畴化 跨语言论元对应关系 自动获取 统计机器翻译
在线阅读 下载PDF
以机器翻译技术为核心的多语信息处理研究 被引量:2
12
作者 赵铁军 曹海龙 《中文信息学报》 CSCD 北大核心 2011年第6期81-89,110,共10页
该文介绍了哈尔滨工业大学教育部—微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。
关键词 机器翻译 多语信息处理 自然语言处理
在线阅读 下载PDF
基于ART网络的无指导中文共指消解方法
13
作者 李世奇 赵铁军 +1 位作者 陈晨 刘鹏远 《高技术通讯》 EI CAS CSCD 北大核心 2009年第9期926-932,共7页
提出了一种基于自适应谐振理论(ART)网络的无指导中文名词短语共指消解方法。该方法充分利用名词短语自身特征,通过改变网络参数动态调节聚类数量,有效地解决了目前聚类共指消解中输出类别数目难以确定的难题。另外采用了一种基于信息... 提出了一种基于自适应谐振理论(ART)网络的无指导中文名词短语共指消解方法。该方法充分利用名词短语自身特征,通过改变网络参数动态调节聚类数量,有效地解决了目前聚类共指消解中输出类别数目难以确定的难题。另外采用了一种基于信息增益率的特征选择方法,减少了区分度较弱特征给聚类所带来的干扰。该方法在保证了识别正确率的前提下,不依赖人工标注语料,可直接应用于跨领域的真实文本。最后在ACE中文语料上进行了相关实验,并取得了较好的结果。 展开更多
关键词 共指消解 无指导学习 自适应谐振理论(ART) 自然语言处理
在线阅读 下载PDF
基于加权子序列核函数的次范畴论元分析
14
作者 朱聪慧 赵铁军 +1 位作者 韩习武 郑德权 《高技术通讯》 EI CAS CSCD 北大核心 2010年第2期127-132,共6页
为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于... 为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于间隙加权子序列核函数可以考虑跨距离的词之间的依赖关系,加之机器学习方法的引入,使得论元识别精度从55.16%提到了93.43%,并且极大提高了次范畴整句获取精度。 展开更多
关键词 汉语动词次范畴(SCF) 论元分析 主动学习 间隔加权子序列
在线阅读 下载PDF
汉语中方位参考点恢复研究
15
作者 李晗静 李生 赵铁军 《计算机研究与发展》 EI CSCD 北大核心 2007年第2期265-268,共4页
方位参考点恢复是自然语言空间语义理解中十分重要问题.方位参考点恢复是在篇章中找方位词的参考点并补充上,得到完整的空间表达式.目前,自然语言处理技术大多面向句子级,导致省略参考点空间表达式独立出现,使空间语义理解困难.方位参... 方位参考点恢复是自然语言空间语义理解中十分重要问题.方位参考点恢复是在篇章中找方位词的参考点并补充上,得到完整的空间表达式.目前,自然语言处理技术大多面向句子级,导致省略参考点空间表达式独立出现,使空间语义理解困难.方位参考点恢复无疑可以解决类似问题.在此提出基于有限知识的方位参考点恢复方法.在句法分析基础上,以知网为常识库,结合有限知识识别空间表达式以及恢复方位参考点.实验结果表明该方法比较令人满意. 展开更多
关键词 空间表达式 方位参考点 省略 义原 上位关系
在线阅读 下载PDF
基于TSVM与主动学习融合的蛋白质交互作用关系抽取
16
作者 刘健苗 王浩畅 赵铁军 《高技术通讯》 EI CAS CSCD 北大核心 2009年第5期480-486,共7页
针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最... 针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能。实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能。 展开更多
关键词 蛋白质交互作用关系抽取 半监督学习 直推式支持向量机(TSVM) 主动学习
在线阅读 下载PDF
基于网络的动态多文档文摘系统框架 被引量:3
17
作者 刘美玲 任洪娥 +2 位作者 于洋 郑德权 赵铁军 《软件学报》 EI CSCD 北大核心 2013年第5期1006-1021,共16页
在自然语言处理和计算语言学相关技术支撑下,研究基于网络的动态多文档文摘系统框架,重点描述动态多文档文摘系统框架的相关内容,介绍利用矩阵子空间方法进行动态演化建模,利用相似度和质心整体优选计算方法进行信息过滤,并利用动态流... 在自然语言处理和计算语言学相关技术支撑下,研究基于网络的动态多文档文摘系统框架,重点描述动态多文档文摘系统框架的相关内容,介绍利用矩阵子空间方法进行动态演化建模,利用相似度和质心整体优选计算方法进行信息过滤,并利用动态流形排序方法进行句子加权的动态多文档文摘生成系统.按照多文档文摘生成步骤的划分,对3种创新的模型方法进行融合,综合起来从不同侧重点考虑,形成互补,提高系统性能.在网络环境下,此框架保证了动态演化的多文档文摘具有较高的信息新颖性和历史信息的演化性. 展开更多
关键词 模型框架 矩阵子空间 整体优选 动态演化
在线阅读 下载PDF
统计机器翻译中多分词结果的融合 被引量:2
18
作者 马永亮 赵铁军 《中文信息学报》 CSCD 北大核心 2010年第1期104-109,共6页
汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化... 汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化。在该文中,从另外的角度研究中文分词对统计机器翻译的影响。基本思想是利用多分词结果作为额外的语言知识,提出一种简单而有效的方法使这些知识为统计机器翻译所用,使用了一系列策略融合多分词结果,并将融合结果应用在统计机器翻译系统中。实验结果表明这种方法比没有使用多分词结果融合的系统提高1.89个BLEU分数。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 中文分词 翻译模型特征插值 多策略特征融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部