期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告
1
作者 张志昌 张宇 +4 位作者 高立琦 袁新成 胡晓光 刘挺 李生 《中文信息学报》 CSCD 北大核心 2006年第B03期83-90,共8页
首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,远回融合结果的前1000篇文档作为最终结果集。构造查询输入时,从主题的〈title〉字段和〈dese〉字段选... 首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,远回融合结果的前1000篇文档作为最终结果集。构造查询输入时,从主题的〈title〉字段和〈dese〉字段选择关键词,并依据tf*idf的思想对关键词赋予权值。时正式评测的50个主题集检索,获得的三项评价指标为:程序自动构造查询时,MAP=0.3107,P@10=0.624,R-Preeision=0.3672;人工构造查询时,MAP=0.3538,P@10=0.684,R-Preelsion=0.4078。 展开更多
关键词 查询构造 向量空间模型 语言模型 结果融合
在线阅读 下载PDF
基于人工标注的个性化检索系统评测的研究 被引量:7
2
作者 张宇 范基礼 +2 位作者 郑伟 邹博伟 刘挺 《中文信息学报》 CSCD 北大核心 2009年第2期62-68,101,共8页
个性化信息检索可以根据用户的检索兴趣返回个性化的检索结果。该文构建了个性化检索标注系统和个性化检索评测系统,生成个性化检索系统所需的语料集;并提出了以用户为中心的基于人工标注的个性化检索评价方法。个性化检索评测系统采用... 个性化信息检索可以根据用户的检索兴趣返回个性化的检索结果。该文构建了个性化检索标注系统和个性化检索评测系统,生成个性化检索系统所需的语料集;并提出了以用户为中心的基于人工标注的个性化检索评价方法。个性化检索评测系统采用了NIST所建立的评价体系,根据用户的标注结果对个性化检索系统的性能进行自动评价,并给出量化、直观的性能指标。 展开更多
关键词 计算机应用 中文信息处理 个性化信息检索 以用户为中心 评价方法
在线阅读 下载PDF
面向中文特定信息变异的过滤技术研究 被引量:7
3
作者 陈儒 张宇 刘挺 《高技术通讯》 CAS CSCD 北大核心 2005年第9期7-12,共6页
研究了如何快速识别并过滤经过变异处理的中文信息的技术,并将变异规则限定在当前中文网络最常见的5种变异方法上.提出了一个快速而准确的中文信息多模式模糊匹配算法,该算法在WM算法的基础上融合了压缩编码的思想,适于实时地对网络信... 研究了如何快速识别并过滤经过变异处理的中文信息的技术,并将变异规则限定在当前中文网络最常见的5种变异方法上.提出了一个快速而准确的中文信息多模式模糊匹配算法,该算法在WM算法的基础上融合了压缩编码的思想,适于实时地对网络信息进行处理.实验表明,基于该算法的信息过滤系统能够支持大量的输入模式,系统对模式的识别准确率超过了99%,并且达到了很高的执行效率.该算法在中文信息过滤领域有着广阔的应用前景. 展开更多
关键词 多模式匹配 模糊匹配 信息过滤 中文信息 变异方法 过滤技术 匹配算法 识别准确率 快速识别 中文网络 压缩编码
在线阅读 下载PDF
基于改进TextTiling方法的用户新兴趣发现的研究 被引量:5
4
作者 邹博伟 张宇 +2 位作者 范基礼 郑伟 刘挺 《计算机研究与发展》 EI CSCD 北大核心 2009年第9期1594-1600,共7页
个性化信息检索可以根据用户的检索兴趣返回个性化的检索结果.提出了用户新兴趣发现子任务,根据用户检索对象的变化识别包含新检索兴趣的查询.同时,引入TextTiling方法并对其进行改进,使系统可以自动选择合适的动态阈值并准确发现用户... 个性化信息检索可以根据用户的检索兴趣返回个性化的检索结果.提出了用户新兴趣发现子任务,根据用户检索对象的变化识别包含新检索兴趣的查询.同时,引入TextTiling方法并对其进行改进,使系统可以自动选择合适的动态阈值并准确发现用户检索兴趣的转移.在构建的标准评测集上的实验结果表明,改进的TextTiling方法使得用户新兴趣发现系统性能提高了16.4%,而且此子任务使得最终的个性化检索系统的性能提高了3.8%. 展开更多
关键词 个性化信息检索 用户新兴趣发现 TextTiling算法 动态阈值 检索兴趣转移
在线阅读 下载PDF
面向协作式问答的问题理解技术研究
5
作者 张宇 赵鑫 刘挺 《中文信息学报》 CSCD 北大核心 2009年第2期28-33,共6页
问题理解是问答系统中的重要组成部分,尤其对于协作式问答。在协作式问答中用户对所提出的问题进行了详细的说明和描述。如何利用这些描述信息来提高系统的性能,是一个很重要的问题。该文提出了一种基于词典和句法分析的方法,来对用户... 问题理解是问答系统中的重要组成部分,尤其对于协作式问答。在协作式问答中用户对所提出的问题进行了详细的说明和描述。如何利用这些描述信息来提高系统的性能,是一个很重要的问题。该文提出了一种基于词典和句法分析的方法,来对用户的问题进行分析,从中提取出有价值的关键词,以提高包含候选答案网页的召回率。通过实验对比分析,该方法的MPP值和MAP值都有了较大的提高。 展开更多
关键词 计算机应用 中文信息处理 协作式问答 问题理解 句法分析
在线阅读 下载PDF
基于句法结构分析的中文问题分类 被引量:83
6
作者 文勖 张宇 +1 位作者 刘挺 马金山 《中文信息学报》 CSCD 北大核心 2006年第2期33-39,共7页
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减... 问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。 展开更多
关键词 计算机应用 中文信息处理 问答系统 问题分类 特征提取 句法分析
在线阅读 下载PDF
基于依存分析和错误驱动的中文时间表达式识别 被引量:21
7
作者 贺瑞芳 秦兵 +2 位作者 刘挺 潘越群 李生 《中文信息学报》 CSCD 北大核心 2007年第5期36-40,共5页
时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效... 时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效果;然后,采用错误驱动学习来进一步增强识别效果,根据错误识别结果和人工标注的差异自动地获取和改进规则,使系统的性能又提高了近3.5%。最终在封闭测试集和开放测试集上,F1值达到了76.38%和76.57%。 展开更多
关键词 计算机应用 中文信息处理 时间表达式识别 触发词 依存分析 错误驱动学习
在线阅读 下载PDF
基于类别特征域的文本分类特征选择方法 被引量:21
8
作者 赵世奇 张宇 +3 位作者 刘挺 陈毅恒 黄永光 李生 《中文信息学报》 CSCD 北大核心 2005年第6期21-27,共7页
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,... 特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。 展开更多
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别特征域
在线阅读 下载PDF
基于词汇支配度的汉语依存分析模型 被引量:25
9
作者 刘挺 马金山 李生 《软件学报》 EI CSCD 北大核心 2006年第9期1876-1883,共8页
如何应用句法结构和词汇化是句法分析建模所面临的两个主要问题,汉语依存分析对这两方面做了初步的探索.首先通过对大规模依存树库的统计学习,获取其中的词汇依存信息,建立了一个词汇化的概率分析模型.然后引入词汇支配度的概念,以充分... 如何应用句法结构和词汇化是句法分析建模所面临的两个主要问题,汉语依存分析对这两方面做了初步的探索.首先通过对大规模依存树库的统计学习,获取其中的词汇依存信息,建立了一个词汇化的概率分析模型.然后引入词汇支配度的概念,以充分利用了句子中的结构信息.词汇化方法有效地弥补了以前工作中词性信息的粒度过粗问题.同时,词汇支配度增强了对句法结构的识别,有效地避免了非法结构的生成.在4000句的测试集上,依存分析获得了约74%的正确率. 展开更多
关键词 依存语法 句法分析 支配度 动态规划
在线阅读 下载PDF
集成多种背景语义知识的共指消解 被引量:8
10
作者 郎君 忻舟 +2 位作者 秦兵 刘挺 李生 《中文信息学报》 CSCD 北大核心 2009年第3期3-9,109,共8页
共指消解是信息抽取中一个重要子任务。近年来,许多学者尝试利用统计机器学习的方法来进行共指消解并取得了一定的进展。背景知识作为新的研究热点已经被越来越多地利用在自然语言处理的各个领域。该文集成多种背景语义知识作为基于二... 共指消解是信息抽取中一个重要子任务。近年来,许多学者尝试利用统计机器学习的方法来进行共指消解并取得了一定的进展。背景知识作为新的研究热点已经被越来越多地利用在自然语言处理的各个领域。该文集成多种背景语义知识作为基于二元分类的共指消解框架的特征,分别在WordNet、维基百科上提取背景知识,同时利用句子中的浅层语义关系、常见文本模式以及待消解词上下文文本特征。并利用特征选择算法自动选择最优的特征组合,同时对比同样的特征下最大熵模型与支持向量机模型的表现。在ACE数据集上实验结果表明,通过集成各种经过特征选择后的背景语义知识,共指消解的结果有进一步提高。 展开更多
关键词 计算机应用 中文信息处理 共指消解 背景语义知识 WORDNET 维基百科
在线阅读 下载PDF
中文人称名词短语单复数自动识别 被引量:4
11
作者 郎君 秦兵 +2 位作者 刘挺 李正华 李生 《自动化学报》 EI CSCD 北大核心 2008年第8期972-979,共8页
名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automatic content extraction,ACE)语料上抽取得到人称名... 名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automatic content extraction,ACE)语料上抽取得到人称名词短语的单复数信息,分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别,基于规则的方法,在一些知识资源的基础上定义了规则模板库,每条规则采用槽和槽值的方法米进行体现;机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征.两种方法分别达到了48.24%和87.48%的正确率.实验结果显示,基于规则的方法能够保证精确率而不能保证召回率,机器学习的方法可以更好地完成单复数信息的识别任务. 展开更多
关键词 人称名词短语 单复数 机器学习
在线阅读 下载PDF
基于依存分析和贝叶斯网络的无指导汉语词义消歧 被引量:3
12
作者 卢志茂 刘挺 +1 位作者 丁江伟 李生 《高技术通讯》 EI CAS CSCD 2004年第2期7-11,共5页
采用基于依存分析改进贝叶斯网络的无指导的机器学习方法对汉语大规模真实文本进行词义消歧实验。该学习算法充分利用依存文法分析确定能够对词语词义构成内在限制的上下文,有效地克服了简单贝叶斯分类器中无关上下文造成的噪声影响。... 采用基于依存分析改进贝叶斯网络的无指导的机器学习方法对汉语大规模真实文本进行词义消歧实验。该学习算法充分利用依存文法分析确定能够对词语词义构成内在限制的上下文,有效地克服了简单贝叶斯分类器中无关上下文造成的噪声影响。实验结果证明基于依存改进的贝叶斯模型在汉语词义消歧上表现良好,开放测试正确率可达86.27%。 展开更多
关键词 词义消歧 自然语言处理 无指导学习算法 依存文法分析 简单贝叶斯网络 汉语
在线阅读 下载PDF
ACL-08:HLT会议概述
13
作者 郎君 《中文信息学报》 CSCD 北大核心 2008年第6期123-124,共2页
关键词 计算语言学 学术会议 俄亥俄州 技术会议 人类语言 哥伦布
在线阅读 下载PDF
命名实体识别和指代消解在文摘系统中的应用 被引量:7
14
作者 于海滨 秦兵 +1 位作者 刘挺 郎君 《计算机应用研究》 CSCD 北大核心 2006年第4期180-182,195,共4页
介绍了一个基于句子抽取的单文档自动文摘系统,在该系统基础上应用了命名实体识别和指代消解技术,最后通过人工评价和自动评价结果讨论命名实体识别和指代消解对文摘系统的贡献。
关键词 自动文摘 命名实体识别 指代消解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部