题名 跨语言信息检索研究进展
被引量:17
1
作者
张俊林
曲为民
杜林
孙玉芳
机构
中科院软件所开放系统与中文信息处理中心
出处
《计算机科学》
CSCD
北大核心
2004年第7期16-19,共4页
基金
863计划(No.2001AA114040)
国家自然科学基金(69983009)
文摘
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研究领域。本文介绍了该领域为解决语言间的翻译障碍而研究的各种解决方法并且对汉英跨语言信息检索所面对的独特难点进行了分析,同时本文对国际上重要的跨语言信息检索系统评测会议进行了简单介绍。
关键词
跨语言信息检索
汉英跨语言检索
中文信息处理
受控词汇检索
Keywords
cross-language information retrieval , Chinese-english clir , Chinese information processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 跨语言信息检索理论与应用研究
被引量:9
2
作者
郭宇锋
黄敏
机构
上海交通大学情报科学技术研究所
出处
《图书与情报》
CSSCI
2006年第2期79-81,84,共4页
文摘
随着互联网的全球化发展趋势,跨语言信息检索日益成为信息检索领域中的重要课题,跨语言检索可用一种提问语言检索出用另一种语言书写的信息。文章主要对跨语言信息检索理论应用研究进行了探讨,并对其在专业领域数据库中的应用提出一种思路。
关键词
跨语言
信息检索
查询翻译
机器人信息数据库
Keywords
cross-language
information retrieval
clir
query translation
分类号
G354
[文化科学—情报学]
题名 基于Lucene的英汉跨语言信息检索
被引量:13
3
作者
陈士杰
张玥杰
机构
复旦大学计算机科学与工程系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第13期62-64,共3页
基金
国家自然科学基金资助项目(60203010)
文摘
描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。
关键词
信息检索
跨语言信息检索
自然语言处理
机器翻译
Keywords
information retrieval (IR)
cross-language information retrieval (clir )
Natural language processing (NLP)
Machine translation (MT)
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 跨语言信息检索研究与应用
被引量:9
4
作者
郭华庚
赵英
机构
四川大学公共管理学院
出处
《现代情报》
北大核心
2008年第9期142-145,共4页
文摘
本文在介绍跨语言信息检索(CLIR)的相关概念、实现步骤和方式的基础上,重点阐述CLIR的关键问题和对策以及相关翻译技术,并就其在元搜索引擎中的应用进行探讨,将CLIR的技术平台与元搜索引擎的系统结构相结合,设计出基于CLIR的元搜索引擎系统模型。
关键词
跨语言信息检索
clir
元搜索引擎
Keywords
Cross- Language information retrieval
clir
meta- search engine
分类号
G252.7
[文化科学—图书馆学]
题名 一种基于语义扩展的跨语言自动检索方法的设计
被引量:3
5
作者
宁琳
机构
重庆交通大学图书馆
出处
《现代情报》
CSSCI
2014年第1期155-158,共4页
文摘
跨语言检索是一种重要的信息检索手段之一。为了提高跨语言检索效率,采用语义扩展的方法,通过分析其设计思想和工作流程,构建出一种基于语义扩展的跨语言自动检索模型,重点对其语义扩展、知识库和结果聚类等设计进行了阐述,提出了语义理解切分法的分词方法,采用了Single-Pass算法进行聚类,实验结果表明,该模型能有效提高跨语言检索的查全率和查准率。
关键词
跨语言信息检索
语义扩展
分词
Keywords
clir (Cross - Language information retrieval )
semantic extension
segmentation
分类号
G252.7
[文化科学—图书馆学]
题名 基于维基百科的未登录词译文挖掘
被引量:2
6
作者
孙常龙
洪宇
葛运东
姚建民
朱巧明
机构
苏州大学江苏省计算机信息处理重点实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第6期1067-1076,共10页
基金
国家自然科学基金项目(60970057
61003152)
文摘
未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进.
关键词
未登录词
维基百科
跨语言信息检索
译文挖掘
目标缺失环境
Keywords
out of vocabulary(OOV)
Wikipedia
cross-language information retrieval(clir)
translation mining
target-deficit environment
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于词典的英汉双向跨语言信息检索方法
被引量:3
7
作者
杨辉
张玥杰
张涛
机构
复旦大学计算机科学技术学院
上海财经大学信息管理与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第16期273-274,277,共3页
基金
国家自然科学基金资助项目(60773124,70501018)
上海市科技攻关计划基金资助项目(07dz15007)
文摘
基于文本检索会议关于英汉跨语言信息检索的任务评价,分别以英汉双向查询翻译和英汉查询为主导策略与翻译对象,采用英汉电子词典作为获取翻译知识的知识源,结合构建的英汉单语信息检索系统,实现完整的英汉双向跨语言信息检索过程。实验结果验证了该系统的有效性。
关键词
跨语言信息检索
查询翻译
电子词典
汉语分词
Keywords
cross-language information retrieval(clir)
query translation
electronic dictionary
Chinese word segmentation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于LSI的代码-文档可追溯关联挖掘研究
被引量:1
8
作者
杨雪敏
张毅坤
崔颖安
张保卫
夏辉
机构
西安理工大学计算机科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第8期34-36,共3页
基金
陕西省自然科学基金资助项目(2009JM8003-1)
陕西省教育厅专项基金资助项目(09JK679)
文摘
软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此,提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法,该方法是对向量空间模型的改进,通过分析文本间隐含的语义结构来确定关联度,而不依赖于词项的匹配。实验结果表明,该方法不依赖于代码和文档预先定义的同义词库和知识库,并能一定程度上提高查全率和查准率。
关键词
软件维护
可追溯关联挖掘
隐含语义索引
信息检索
跨语言信息检索
Keywords
software maintenance
traceability association mining
Latent Semantic Indexing(LSl)
information retrieval( IR)
cross-language information retrieval(clir)
分类号
TP311
[自动化与计算机技术—计算机软件与理论]