期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于改进编辑距离的中文相似句子检索 被引量:66
1
作者 车万翔 刘挺 +1 位作者 秦兵 李生 《高技术通讯》 EI CAS CSCD 2004年第7期15-19,共5页
中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义... 中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义信息,使之更加符合中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相比,具有便于扩展,准确率高等优点。在基于大规模双语句对检索的英文辅助写作系统中使用该算法进行中文句子检索,最后获得了81.33%的查准率和95.31%的查全率。 展开更多
关键词 改进编辑距离 中文 相似句子 检索 英文 辅助写作 机器翻译
在线阅读 下载PDF
神经网络和贝叶斯网络在汉语词义消歧上的对比研究 被引量:9
2
作者 卢志茂 刘挺 +1 位作者 郎君 李生 《高技术通讯》 EI CAS CSCD 2004年第8期15-19,共5页
神经网络和贝叶斯网络是两种经典的机器学习方法。本文通过实验考察了这两种网络模型在汉语词义消歧上的应用效果。实验对象是通过特定规则构造的6个伪词。使用伪词可以避免有指导的词义消歧方法中的数据稀疏问题,充分验证词义分类器... 神经网络和贝叶斯网络是两种经典的机器学习方法。本文通过实验考察了这两种网络模型在汉语词义消歧上的应用效果。实验对象是通过特定规则构造的6个伪词。使用伪词可以避免有指导的词义消歧方法中的数据稀疏问题,充分验证词义分类器的实验效果。贝叶斯网络用于词义分类简单高效,模型容易构造,而神经网络的结构则相对复杂,用于词义消歧需要先解决输入问题。实验中采用词间互信息成功构造了神经网络的输入模型,实验效果较为理想。实验数据表明贝叶斯网络比神经网络更适合解决汉语词义消歧问题。但贝叶斯网络的抗噪声能力却明显逊色于神经网络。 展开更多
关键词 神经网络 贝叶斯网络 汉语 互信息 词义消歧 机器学习
在线阅读 下载PDF
基于潜在语义索引和自组织映射网的检索结果聚类方法 被引量:4
3
作者 陈毅恒 秦兵 +2 位作者 刘挺 王平 李生 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1176-1183,共8页
随着互联网的不断发展和数据量的不断增加,搜索引擎的作用日益明显,用户更多地依靠搜索引擎来查找需要的信息.利用潜在语义索引(LSI)理论和自组织映射神经网络(SOM)理论,提出了一种文本聚类的新方法——LSOM.该方法应用SOM网络来实现检... 随着互联网的不断发展和数据量的不断增加,搜索引擎的作用日益明显,用户更多地依靠搜索引擎来查找需要的信息.利用潜在语义索引(LSI)理论和自组织映射神经网络(SOM)理论,提出了一种文本聚类的新方法——LSOM.该方法应用SOM网络来实现检索结果文本聚类,不必预先给定类别个数,具有聚类灵活和精度高等特点;同时,该方法应用LSI理论来建立向量空间模型,在词条的权重中引入了语义关系,对于高维的文本特征向量,消减原词条矩阵中包含的噪声,提高聚类速度.LSOM使用一种新的类别标签提取方法,并将提取的标签用于解决SOM基本类划分问题,算法在类别标签和聚类效果评价指标上都比已有的算法有所提高. 展开更多
关键词 检索结果聚类 潜在语义索引 自组织映射网 标签 边界划分
在线阅读 下载PDF
基于线索词识别和训练集扩展的中文问题分类 被引量:6
4
作者 张志昌 张宇 +1 位作者 刘挺 李生 《高技术通讯》 EI CAS CSCD 北大核心 2009年第2期111-118,共8页
针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问... 针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。 展开更多
关键词 问题分类 焦点词 词义距离 训练集扩展
在线阅读 下载PDF
基于无指导机器学习的全文词义自动标注方法 被引量:2
5
作者 卢志茂 刘挺 李生 《自动化学报》 EI CSCD 北大核心 2006年第2期228-236,共9页
为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法.实验中建立了四个词义排歧模型,并对其测试结果进行了比较.其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分... 为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法.实验中建立了四个词义排歧模型,并对其测试结果进行了比较.其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分析手段对上下文特征词进行选择.最终确定的词义标注方法可以使用大规模语料对模型进行训练,较好的解决了数据稀疏问题,并且该方法具有标注正确率高、扩展性能好等优点,适合大规模文本的词义标注工作. 展开更多
关键词 词义标注 无指导学习算法 单纯贝叶斯模型 依存文法
在线阅读 下载PDF
基于SVM的汉语句子片段划分
6
作者 马金山 刘挺 李生 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2009年第5期52-55,共4页
针对长句子引起句法分析性能下降的问题,本文提出了一种基于SVM的句子片段划分方法:先根据语法结构将句子划分为多个片段,识别出每个片段的类别;然后根据片段的类别将句子分割为几个部分,每个部分作为句法分析的基本单元;最后将句法分... 针对长句子引起句法分析性能下降的问题,本文提出了一种基于SVM的句子片段划分方法:先根据语法结构将句子划分为多个片段,识别出每个片段的类别;然后根据片段的类别将句子分割为几个部分,每个部分作为句法分析的基本单元;最后将句法分析之后的各个部分进行合并,形成完整的分析结果.该方法减小了句法分析的复杂度,提高了分析的准确率. 展开更多
关键词 依存句法分析 句子片段 依存关系 支持向量机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部