期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于跨语言广义向量空间模型的跨语言文档聚类方法 被引量:6
1
作者 唐国瑜 夏云庆 +1 位作者 张民 郑方 《中文信息学报》 CSCD 北大核心 2012年第2期116-120,共5页
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual ... 跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 展开更多
关键词 语言文档聚类 跨语言广义向量空间模型 文档聚类 语言信息检索
在线阅读 下载PDF
基于表征空间结构对齐的跨语言知识迁移方法
2
作者 任思远 彭程 +1 位作者 陈科 何智毅 《计算机应用》 CSCD 北大核心 2024年第S2期18-23,共6页
在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据... 在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据,在大多数非英语语言上难以有效利用对比学习获得高质量的句子表征。针对此问题,提出一种适用于对比学习模型的跨语言知识迁移方法——通过对齐不同语言表征空间的结构进行跨语言知识迁移,并基于此方法设计了一个简单有效的跨语言知识迁移框架——TransCSE,旨在将有监督英语对比学习模型的知识迁移到非英语模型上。通过英语到英语、法语、阿拉伯语、西班牙语、土耳其语、汉语等6个方向的知识迁移实验,TransCSE将有监督英语对比学习模型SimCSE(Simple Contrastive learning of Sentence Embeddings)的知识迁移到了多语言预训练语言模型mBERT(multilingual Bidirectional Encoder Representations from Transformers)上。实验结果表明,与原始的mBERT相比,利用TransCSE框架训练完成的模型在XNLI(Cross-lingual Natural Language Inference)和STS(Semantic Textual Similarity) 2017这2个基准数据集上分别获得了17.95和43.27个百分点的准确率提升,验证了TransCSE的有效性;同时,相较于基于共享参数和基于表征对齐的跨语言知识迁移方法,TransCSE在2个数据集上均取得了最佳表现。 展开更多
关键词 自然语言处理 对比学习 语言知识迁移 语言预训练模型 表征空间结构对齐
在线阅读 下载PDF
基于双语主题模型和双语词向量的跨语言知识链接 被引量:7
3
作者 余圆圆 巢文涵 +1 位作者 何跃鹰 李舟军 《计算机科学》 CSCD 北大核心 2019年第1期238-244,共7页
跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该... 跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。 展开更多
关键词 语言知识链接 语言信息检索 双语主题模型 双语词向量
在线阅读 下载PDF
基于向量空间模型的有导词义消歧 被引量:37
4
作者 鲁松 白硕 +1 位作者 黄雄 张健 《计算机研究与发展》 EI CSCD 北大核心 2001年第6期662-667,共6页
词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消... 词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。 展开更多
关键词 词义消歧 向量空间模型 义项矩阵 自然语言理解 有导机器学习
在线阅读 下载PDF
一个基于向量空间模型的中文文本自动分类系统 被引量:45
5
作者 朱华宇 孙正兴 张福炎 《计算机工程》 CAS CSCD 北大核心 2001年第2期15-17,63,共4页
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。
关键词 中文文本自动分类系统 向量空间模型 自然语言处理
在线阅读 下载PDF
基于向量空间模型中义项词语的无导词义消歧 被引量:37
6
作者 鲁松 白硕 黄雄 《软件学报》 EI CSCD 北大核心 2002年第6期1082-1089,共8页
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下... 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 展开更多
关键词 向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理
在线阅读 下载PDF
基于多语义空间的机器译文质量估计
7
作者 陈康 刘尧舜 +2 位作者 李茂西 王倩 吴水秀 《中文信息学报》 北大核心 2025年第5期72-81,共10页
在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量... 在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量估计的准确性和可靠性不足。针对这个问题,该文提出基于多语义空间的机器译文质量估计方法,通过融合源语言、目标语言和跨语言语义空间质量特征,更准确地评估机器译文的质量。该文方法借助大语言模型和相应提示对源语言句子进行翻译生成伪参考译文,对机器译文进行翻译生成回译;利用跨语言预训练模型X-MOD表征源语言句子和回译提取在源语言语义空间的机器译文质量特征、利用X-MOD表征源语言句子和机器译文提取在跨语言语义空间的机器译文质量特征、利用X-MOD表征机器译文和伪参考译文提取在目标语言语义空间的机器译文质量特征;通过多头自注意力机制和前馈神经网络融合多语义空间特征构建端到端的机器译文质量估计神经网络模型。在WMT′23句子级别机器译文质量估计任务基准数据集上的实验结果表明,该文方法性能超过了当前先进的机器译文质量估计方法TransQuest和UniTE,并超过了参与评测的最优系统。 展开更多
关键词 机器译文质量估计 语言预训练模型 多语义空间特征 伪参考译文 回译
在线阅读 下载PDF
基于统计语言模型的信息检索 被引量:9
8
作者 李晓光 王大玲 于戈 《计算机科学》 CSCD 北大核心 2005年第8期124-127,共4页
本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信... 本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信息检索的研究方向。 展开更多
关键词 统计语言模型 信息检索 平滑技术 布尔模型 概率模型 向量空间模型 信息检索模型 模型估计
在线阅读 下载PDF
自然语言网络答疑系统的研究与实现 被引量:10
9
作者 郑庆华 胡云华 张素娟 《小型微型计算机系统》 CSCD 北大核心 2005年第3期554-560,共7页
网络答疑是现代远程教育的重要组成部分,本文提出了一种基于自然语言的新型网络答疑系统的实现模型,介绍其实现原理及框架,并提出了从关键词、提问方式、提问重点三个层次对用户提问进行语义分析、特征向量提取及语义匹配的分析方法.实... 网络答疑是现代远程教育的重要组成部分,本文提出了一种基于自然语言的新型网络答疑系统的实现模型,介绍其实现原理及框架,并提出了从关键词、提问方式、提问重点三个层次对用户提问进行语义分析、特征向量提取及语义匹配的分析方法.实验结果表明,本文提出的关键技术解决方案能有效分析自然语言提问,提高问题答案匹配的精确率及召回率. 展开更多
关键词 网络答疑 自然语言处理 分词 提问方式 语义分析 向量空间模型 概念背景网
在线阅读 下载PDF
基于《知网》义原空间的文本相似度计算 被引量:9
10
作者 肖志军 冯广丽 《科学技术与工程》 北大核心 2013年第29期8651-8656,共6页
针对向量空间模型特征项正交的假设和缺乏语义的缺点,在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量... 针对向量空间模型特征项正交的假设和缺乏语义的缺点,在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。 展开更多
关键词 向量空间模型 广义向量空间模型 正交特征项 《知网》 文本语义相似度
在线阅读 下载PDF
基于自然语言提问的自动答疑系统设计 被引量:10
11
作者 田俊华 《现代远程教育研究》 2005年第1期48-51,共4页
本文针对传统的基于布尔检索模型的自动答疑系统存在的不足,提出了开发智能型自动答疑系统的设计原则,阐述了该系统涉及的关键技术。在此基础上,作者提出了自己的系统设计架构,并进而提出了系统的优化策略。
关键词 自然语言 中文分词 向量空间模型 自动答疑
在线阅读 下载PDF
自然语言处理中的文本表示研究 被引量:68
12
作者 赵京胜 宋梦雪 +1 位作者 高祥 朱巧明 《软件学报》 EI CSCD 北大核心 2022年第1期102-128,共27页
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示... 自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力. 展开更多
关键词 自然语言处理 文本表示 向量空间模型 主题模型 模型 深度学习 表示学习
在线阅读 下载PDF
一个结合信息相关性分析的快速文本分类模型
13
作者 李雪岩 孙济庆 《计算机应用与软件》 CSCD 北大核心 2004年第11期12-13,69,共3页
如何准确地实现文本的有序组织 ,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状 ,讨论了基于向量空间模型的分类法的基本思想。在此基础上 ,通过对文本识别本质的研究 ,在向量空间模型的基础上 ,提出一种新的结... 如何准确地实现文本的有序组织 ,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状 ,讨论了基于向量空间模型的分类法的基本思想。在此基础上 ,通过对文本识别本质的研究 ,在向量空间模型的基础上 ,提出一种新的结合了信息相关性分析的文本分类模型ICFM(InformationCorrelationbasedFasttextcategorizationModel) 。 展开更多
关键词 文本分类 模型 向量空间模型 自然语言处理 Model) 快速 识别 质的研究 信息 分类法
在线阅读 下载PDF
VN结构识别的一种概率分布模型
14
作者 陈丽江 陈小荷 《计算机工程与应用》 CSCD 北大核心 2009年第17期49-51,共3页
正确识别汉语里的VN结构等基本名词短语可以帮助提高句法分析的准确率。提出并验证了如果动名组合的上下文词语的分布类似,那么它们的结构也类似的假设。结合动词、名词本身,构造了一种基于概率分布的结构向量空间模型,用于VN结构的识... 正确识别汉语里的VN结构等基本名词短语可以帮助提高句法分析的准确率。提出并验证了如果动名组合的上下文词语的分布类似,那么它们的结构也类似的假设。结合动词、名词本身,构造了一种基于概率分布的结构向量空间模型,用于VN结构的识别。实验结果表明,虽然没有使用其他外部资源,该方法仍取得了理想的识别效果,精确率和召回率分别达到了95.2%和93.0%。 展开更多
关键词 自然语言处理 向量空间模型 定中(VN)结构 上下文
在线阅读 下载PDF
基于百度百科的词语相似度计算 被引量:22
15
作者 詹志建 梁丽娜 杨小平 《计算机科学》 CSCD 北大核心 2013年第6期199-202,共4页
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度... 词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。 展开更多
关键词 词语相似度 语言网络 百度百科 向量空间模型
在线阅读 下载PDF
基于句类特征的作者写作风格分类研究 被引量:20
16
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
在线阅读 下载PDF
基于语义理解的智能搜索引擎研究 被引量:13
17
作者 陈林 杨丹 赵俊芹 《计算机科学》 CSCD 北大核心 2008年第6期152-154,共3页
本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文... 本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。 展开更多
关键词 自然语言处理 分词 语义分析 向量空间模型
在线阅读 下载PDF
自动文摘方法分析 被引量:8
18
作者 金旭 杨炳儒 菅志刚 《计算机应用研究》 CSCD 北大核心 2004年第9期5-6,11,共3页
介绍了目前自动文摘的四种实现方法,并对这四种方法的优缺点进行了较为详细的分析与比较,介绍了它们的应用实例。最后讨论了一种面向非受限领域的综合式中文自动文摘方法。
关键词 自动文摘 向量空间模型 自然语言理解
在线阅读 下载PDF
词性标注对信息检索系统性能的影响 被引量:8
19
作者 苏祺 昝红英 +1 位作者 胡景贺 项锟 《中文信息学报》 CSCD 北大核心 2005年第2期58-65,共8页
在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检... 在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。 展开更多
关键词 人工智能 自然语言处理 信息检索 向量空间模型 词性标注 SMART
在线阅读 下载PDF
基于指代消解和篇章结构分析的自动摘录算法 被引量:2
20
作者 郑诚 刘福君 李清 《计算机工程》 CAS CSCD 2012年第16期170-173,共4页
传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文... 传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文摘语义不连贯问题,以提高句子权重计算的准确性,对文章做主题划分时进行篇章结构识别,按照段落标题信息划分段落结构。实验结果表明,该算法在受限金融领域文本自动摘录中,具有较高的准确率和召回率。 展开更多
关键词 自然语言处理 自动摘录 向量空间模型 主题划分 篇章结构 指代消解
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部