期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于改进编辑距离的中文相似句子检索 被引量:65
1
作者 车万翔 刘挺 +1 位作者 秦兵 李生 《高技术通讯》 EI CAS CSCD 2004年第7期15-19,共5页
中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义... 中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义信息,使之更加符合中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相比,具有便于扩展,准确率高等优点。在基于大规模双语句对检索的英文辅助写作系统中使用该算法进行中文句子检索,最后获得了81.33%的查准率和95.31%的查全率。 展开更多
关键词 改进编辑距离 中文 相似句子 检索 英文 辅助写作 机器翻译
在线阅读 下载PDF
开放域问答技术研究进展 被引量:17
2
作者 张志昌 张宇 +1 位作者 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2009年第5期1058-1069,共12页
问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足... 问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足.最后,对问答技术未来的研究趋势进行了分析与展望. 展开更多
关键词 开放域问答 问题分析 相关文档检索 句段检索 答案抽取
在线阅读 下载PDF
统计词义消歧的研究进展 被引量:28
3
作者 卢志茂 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2006年第2期333-343,共11页
本文参考大量的文献资料,分析了当前国内外统计词义消歧研究中采用的多种方法和技术,指出了统计词义消歧研究的关键问题,并围绕关键问题阐述了统计词义消歧的研究进展,探讨了研究中存在的问题和未来研究的重点.
关键词 统计词义消歧 自然语言处理 综述
在线阅读 下载PDF
神经网络和贝叶斯网络在汉语词义消歧上的对比研究 被引量:9
4
作者 卢志茂 刘挺 +1 位作者 郎君 李生 《高技术通讯》 EI CAS CSCD 2004年第8期15-19,共5页
神经网络和贝叶斯网络是两种经典的机器学习方法。本文通过实验考察了这两种网络模型在汉语词义消歧上的应用效果。实验对象是通过特定规则构造的6个伪词。使用伪词可以避免有指导的词义消歧方法中的数据稀疏问题,充分验证词义分类器... 神经网络和贝叶斯网络是两种经典的机器学习方法。本文通过实验考察了这两种网络模型在汉语词义消歧上的应用效果。实验对象是通过特定规则构造的6个伪词。使用伪词可以避免有指导的词义消歧方法中的数据稀疏问题,充分验证词义分类器的实验效果。贝叶斯网络用于词义分类简单高效,模型容易构造,而神经网络的结构则相对复杂,用于词义消歧需要先解决输入问题。实验中采用词间互信息成功构造了神经网络的输入模型,实验效果较为理想。实验数据表明贝叶斯网络比神经网络更适合解决汉语词义消歧问题。但贝叶斯网络的抗噪声能力却明显逊色于神经网络。 展开更多
关键词 神经网络 贝叶斯网络 汉语 互信息 词义消歧 机器学习
在线阅读 下载PDF
基于线索词识别和训练集扩展的中文问题分类 被引量:6
5
作者 张志昌 张宇 +1 位作者 刘挺 李生 《高技术通讯》 EI CAS CSCD 北大核心 2009年第2期111-118,共8页
针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问... 针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。 展开更多
关键词 问题分类 焦点词 词义距离 训练集扩展
在线阅读 下载PDF
基于网络挖掘的实体关系元组自动获取 被引量:7
6
作者 李维刚 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2007年第11期2111-2116,共6页
二元实体关系元组可以应用到知识库构建,数据挖掘,模式抽取等多个领域.本文利用特定关系的一个元组和一个关键词作为种子,结合多种自然语言处理底层技术,采取改进的模式获取方法和自举迭代策略,提出了一种新的从Web上抽取实体关系元组... 二元实体关系元组可以应用到知识库构建,数据挖掘,模式抽取等多个领域.本文利用特定关系的一个元组和一个关键词作为种子,结合多种自然语言处理底层技术,采取改进的模式获取方法和自举迭代策略,提出了一种新的从Web上抽取实体关系元组的方法.基准方法的平均准确率达到了78.12%,采用过滤措施后抽取方法的平均准确率达到了98.42%.实验结果表明,利用网络挖掘方法获取的实体关系元组能够很好满足信息抽取的应用,对抽取出的元组进一步处理,能够获取更多有价值的信息. 展开更多
关键词 自举方法 实体关系 元组 信息抽取 网络挖掘
在线阅读 下载PDF
基于SVM的汉语句子片段划分
7
作者 马金山 刘挺 李生 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2009年第5期52-55,共4页
针对长句子引起句法分析性能下降的问题,本文提出了一种基于SVM的句子片段划分方法:先根据语法结构将句子划分为多个片段,识别出每个片段的类别;然后根据片段的类别将句子分割为几个部分,每个部分作为句法分析的基本单元;最后将句法分... 针对长句子引起句法分析性能下降的问题,本文提出了一种基于SVM的句子片段划分方法:先根据语法结构将句子划分为多个片段,识别出每个片段的类别;然后根据片段的类别将句子分割为几个部分,每个部分作为句法分析的基本单元;最后将句法分析之后的各个部分进行合并,形成完整的分析结果.该方法减小了句法分析的复杂度,提高了分析的准确率. 展开更多
关键词 依存句法分析 句子片段 依存关系 支持向量机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部