题名 基于跨语言广义向量空间模型的跨语言文档聚类方法
被引量:6
1
作者
唐国瑜
夏云庆
张民
郑方
机构
清华大学计算机科学与技术系
资讯通信研究院
出处
《中文信息学报》
CSCD
北大核心
2012年第2期116-120,共5页
基金
科技部资助项目(2009DFA12970)
文摘
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。
关键词
跨 语言 文档聚类
跨语言广义向量空间模型
文档聚类
跨 语言 信息检索
Keywords
Cross-lingual document clustering
CLGVSM
text similarity
document clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于表征空间结构对齐的跨语言知识迁移方法
2
作者
任思远
彭程
陈科
何智毅
机构
中国科学院成都计算机应用研究所
中国科学院大学
出处
《计算机应用》
CSCD
北大核心
2024年第S2期18-23,共6页
文摘
在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据,在大多数非英语语言上难以有效利用对比学习获得高质量的句子表征。针对此问题,提出一种适用于对比学习模型的跨语言知识迁移方法——通过对齐不同语言表征空间的结构进行跨语言知识迁移,并基于此方法设计了一个简单有效的跨语言知识迁移框架——TransCSE,旨在将有监督英语对比学习模型的知识迁移到非英语模型上。通过英语到英语、法语、阿拉伯语、西班牙语、土耳其语、汉语等6个方向的知识迁移实验,TransCSE将有监督英语对比学习模型SimCSE(Simple Contrastive learning of Sentence Embeddings)的知识迁移到了多语言预训练语言模型mBERT(multilingual Bidirectional Encoder Representations from Transformers)上。实验结果表明,与原始的mBERT相比,利用TransCSE框架训练完成的模型在XNLI(Cross-lingual Natural Language Inference)和STS(Semantic Textual Similarity) 2017这2个基准数据集上分别获得了17.95和43.27个百分点的准确率提升,验证了TransCSE的有效性;同时,相较于基于共享参数和基于表征对齐的跨语言知识迁移方法,TransCSE在2个数据集上均取得了最佳表现。
关键词
自然语言 处理
对比学习
跨 语言 知识迁移
多语言 预训练模型
表征空间 结构对齐
Keywords
Natural Language Processing(NLP)
contrastive learning
cross-lingual knowledge transfer
multilingual pre-trained model
alignment of representational space structures
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 基于双语主题模型和双语词向量的跨语言知识链接
被引量:7
3
作者
余圆圆
巢文涵
何跃鹰
李舟军
机构
北京航空航天大学计算机学院
国家计算机网络应急技术处理协调中心
出处
《计算机科学》
CSCD
北大核心
2019年第1期238-244,共7页
文摘
跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。
关键词
跨 语言 知识链接
跨 语言 信息检索
双语主题模型
双语词向量
Keywords
Cross-language knowledge linking
Cross-language information retrieval
Bilingual topic model
Bilingual embedding
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于向量空间模型的有导词义消歧
被引量:37
4
作者
鲁松
白硕
黄雄
张健
机构
中国科学院计算技术研究所软件研究室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第6期662-667,共6页
基金
国家"九七三"重点基础研究发展规化项目基金! (G19980 3 0 5 10 )
国家自然科学基金! (69773 0 0 8)
国家"八六三"高技术研究发
文摘
词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。
关键词
词义消歧
向量 空间 模型
义项矩阵
自然语言 理解
有导机器学习
Keywords
word sense disambiguation(WSD), vector space model, sense-matrix, weight of context position, supervised machine learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一个基于向量空间模型的中文文本自动分类系统
被引量:45
5
作者
朱华宇
孙正兴
张福炎
机构
南京大学计算机软件新技术国家重点实验室
南京大学多媒体技术研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期15-17,63,共4页
基金
国家自然科学基金项目!(69903006)
江苏省"九五"重点科技攻关项目!(BE96017)
教育部高等学校骨干教师资助计划项目!(教技司[2
文摘
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。
关键词
中文文本自动分类系统
向量 空间 模型
自然语言 处理
Keywords
Text categorization;Chinese text;Vector space model;Feature extraction
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 基于向量空间模型中义项词语的无导词义消歧
被引量:37
6
作者
鲁松
白硕
黄雄
机构
中国科学院计算技术研究所
出处
《软件学报》
EI
CSCD
北大核心
2002年第6期1082-1089,共8页
基金
国家自然科学基金资助项目(69773008)
国家863高科技发展计划资助项目(863-306-2D02-01-3)
国家重点基础研究发展规划973资助项目(G1998030510)~~
文摘
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果.
关键词
向量 空间 模型
义项词语
无导词义消歧
义项词语
自然语言 处理
Keywords
word sense disambiguation
unsupervised approach
sense-word
weight of context position
vector space model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多语义空间的机器译文质量估计
7
作者
陈康
刘尧舜
李茂西
王倩
吴水秀
机构
江西师范大学数字产业学院
江西师范大学计算机信息工程学院
江西师范大学管理科学与工程研究中心
出处
《中文信息学报》
北大核心
2025年第5期72-81,共10页
基金
国家自然科学基金(62366020)
江西省教育厅科技项目(GJJ210306)。
文摘
在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的质量进行评估是机器译文质量估计任务的目标。当前的机器译文质量估计方法仅在单个语义空间内比较源语言句子和机器译文,难以全面捕捉不同语言的语义特征,导致译文质量估计的准确性和可靠性不足。针对这个问题,该文提出基于多语义空间的机器译文质量估计方法,通过融合源语言、目标语言和跨语言语义空间质量特征,更准确地评估机器译文的质量。该文方法借助大语言模型和相应提示对源语言句子进行翻译生成伪参考译文,对机器译文进行翻译生成回译;利用跨语言预训练模型X-MOD表征源语言句子和回译提取在源语言语义空间的机器译文质量特征、利用X-MOD表征源语言句子和机器译文提取在跨语言语义空间的机器译文质量特征、利用X-MOD表征机器译文和伪参考译文提取在目标语言语义空间的机器译文质量特征;通过多头自注意力机制和前馈神经网络融合多语义空间特征构建端到端的机器译文质量估计神经网络模型。在WMT′23句子级别机器译文质量估计任务基准数据集上的实验结果表明,该文方法性能超过了当前先进的机器译文质量估计方法TransQuest和UniTE,并超过了参与评测的最优系统。
关键词
机器译文质量估计
跨 语言 预训练模型
多语义空间 特征
伪参考译文
回译
Keywords
quality estimation of machine translation
cross-lingual pre-trained language model
multi-semantic space features
pseudo reference translation
back translation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于统计语言模型的信息检索
被引量:9
8
作者
李晓光
王大玲
于戈
机构
东北大学信息科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2005年第8期124-127,共4页
基金
国家自然科学基金(No.60173051)
教育部高等学校优秀青年教师教学和科研奖励基金
文摘
本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信息检索的研究方向。
关键词
统计语言 模型
信息检索
平滑技术
布尔模型
概率模型
向量 空间 模型
信息检索模型
模型 估计
Keywords
Statistical language model, Information retrieval, Smoothing, Boolean model, Probabilistic model, Vector space model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
G354
[文化科学—情报学]
题名 自然语言网络答疑系统的研究与实现
被引量:10
9
作者
郑庆华
胡云华
张素娟
机构
西安交通大学计算机系
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第3期554-560,共7页
基金
国家自然科学基金项目(60373105
60473136)资助
+1 种基金
国家"十五"重大科技攻关项目(2001BA101A01)资助
教育部优秀青年教师基金项目资助.
文摘
网络答疑是现代远程教育的重要组成部分,本文提出了一种基于自然语言的新型网络答疑系统的实现模型,介绍其实现原理及框架,并提出了从关键词、提问方式、提问重点三个层次对用户提问进行语义分析、特征向量提取及语义匹配的分析方法.实验结果表明,本文提出的关键技术解决方案能有效分析自然语言提问,提高问题答案匹配的精确率及召回率.
关键词
网络答疑
自然语言 处理
分词
提问方式
语义分析
向量 空间 模型
概念背景网
Keywords
web answering
natural language process
word segmentation
question type
semantic analysis
VSM
background concep network
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于《知网》义原空间的文本相似度计算
被引量:9
10
作者
肖志军
冯广丽
机构
玉林师范学院计算机科学与工程学院
河南工程学院计算机学院
出处
《科学技术与工程》
北大核心
2013年第29期8651-8656,共6页
基金
广西教育厅科研项目(201204LX350)
广西自然科学基金项目(2013GXNSFAA019078)
广西高等学校科研项目(201204LX342)资助
文摘
针对向量空间模型特征项正交的假设和缺乏语义的缺点,在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。
关键词
向量 空间 模型
广义 向量 空间 模型
正交特征项
《知网》
文本语义相似度
Keywords
VSM
GVSM
orthogonal term
HowNet
text semantic similarity
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 基于自然语言提问的自动答疑系统设计
被引量:10
11
作者
田俊华
机构
南京师范大学
出处
《现代远程教育研究》
2005年第1期48-51,共4页
文摘
本文针对传统的基于布尔检索模型的自动答疑系统存在的不足,提出了开发智能型自动答疑系统的设计原则,阐述了该系统涉及的关键技术。在此基础上,作者提出了自己的系统设计架构,并进而提出了系统的优化策略。
关键词
自然语言
中文分词
向量 空间 模型
自动答疑
Keywords
natural language
Chinese words
vector space model (VSM)
auto-answer
分类号
G434
[文化科学—教育技术学]
题名 自然语言处理中的文本表示研究
被引量:68
12
作者
赵京胜
宋梦雪
高祥
朱巧明
机构
青岛理工大学信息与控制工程学院
苏州大学计算机科学与技术学院
出处
《软件学报》
EI
CSCD
北大核心
2022年第1期102-128,共27页
基金
国家自然科学基金(61773276,61836007)。
文摘
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力.
关键词
自然语言 处理
文本表示
向量 空间 模型
主题模型
图模型
深度学习
表示学习
Keywords
natural language processing
text representation
vector space model
topic model
graph model
deep learning
representation learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一个结合信息相关性分析的快速文本分类模型
13
作者
李雪岩
孙济庆
机构
华东理工大学信息科学与工程学院
出处
《计算机应用与软件》
CSCD
北大核心
2004年第11期12-13,69,共3页
文摘
如何准确地实现文本的有序组织 ,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状 ,讨论了基于向量空间模型的分类法的基本思想。在此基础上 ,通过对文本识别本质的研究 ,在向量空间模型的基础上 ,提出一种新的结合了信息相关性分析的文本分类模型ICFM(InformationCorrelationbasedFasttextcategorizationModel) 。
关键词
文本分类
类模型
向量 空间 模型
自然语言 处理
Model)
快速
识别
质的研究
信息
分类法
Keywords
Text categorization VSM Information word ICFM model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP311
[自动化与计算机技术—计算机软件与理论]
题名 VN结构识别的一种概率分布模型
14
作者
陈丽江
陈小荷
机构
南京师范大学文学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第17期49-51,共3页
基金
国家社会科学基金项目(No.07BYY050)
文摘
正确识别汉语里的VN结构等基本名词短语可以帮助提高句法分析的准确率。提出并验证了如果动名组合的上下文词语的分布类似,那么它们的结构也类似的假设。结合动词、名词本身,构造了一种基于概率分布的结构向量空间模型,用于VN结构的识别。实验结果表明,虽然没有使用其他外部资源,该方法仍取得了理想的识别效果,精确率和召回率分别达到了95.2%和93.0%。
关键词
自然语言 处理
向量 空间 模型
定中(VN)结构
上下文
Keywords
natural language processing
vector space model
VN structure
context
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于百度百科的词语相似度计算
被引量:22
15
作者
詹志建
梁丽娜
杨小平
机构
中国人民大学信息学院北京
出处
《计算机科学》
CSCD
北大核心
2013年第6期199-202,共4页
基金
国家自然科学基金(70871115)资助
文摘
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。
关键词
词语相似度
语言 网络
百度百科
向量 空间 模型
Keywords
Word similarity, Language network, BaiduBaike, VSM
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于句类特征的作者写作风格分类研究
被引量:20
16
作者
张运良
朱礼军
乔晓东
张全
机构
中国科学技术信息研究所
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2009年第22期129-131,223,共4页
基金
国家重点基础研究发展规划(973)No.2004CB318104
国家"十一五"科技支撑计划项目资助No.2006BAH03B03~~
文摘
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。
关键词
文本分类
作者写作风格
句类
向量 空间 模型
概念层次网络(HNC)理论
自然语言 理解
Keywords
text classification
authorship
sentence category
Vector Space Model (VSM)
Hierarchical Network of Concepts ( HNC ) theory
nature language processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于语义理解的智能搜索引擎研究
被引量:13
17
作者
陈林
杨丹
赵俊芹
机构
重庆大学软件学院
出处
《计算机科学》
CSCD
北大核心
2008年第6期152-154,共3页
文摘
本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。
关键词
自然语言 处理
分词
语义分析
向量 空间 模型
Keywords
Natural language process, Word segmentation, Semantic analysis, Vector space model
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
TP391
[自动化与计算机技术—计算机应用技术]
题名 自动文摘方法分析
被引量:8
18
作者
金旭
杨炳儒
菅志刚
机构
北京科技大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2004年第9期5-6,11,共3页
基金
国家自然科学基金重点项目(69835001)
国家教育部科技重点项目(教技司[2000]175)Method)
文摘
介绍了目前自动文摘的四种实现方法,并对这四种方法的优缺点进行了较为详细的分析与比较,介绍了它们的应用实例。最后讨论了一种面向非受限领域的综合式中文自动文摘方法。
关键词
自动文摘
向量 空间 模型
自然语言 理解
Keywords
Automatic Abstracting
Vector Space Model
NLP
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 词性标注对信息检索系统性能的影响
被引量:8
19
作者
苏祺
昝红英
胡景贺
项锟
机构
北京大学计算语言学研究所
出处
《中文信息学报》
CSCD
北大核心
2005年第2期58-65,共8页
基金
国家"86 3"计划资助项目 (2 0 0AA114 2 10
2 0 0 2AA1170 10 - 8)
国家自然科学基金资助项目 (6 0 2 0 30 2 2 )
文摘
在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。
关键词
人工智能
自然语言 处理
信息检索
向量 空间 模型
词性标注
SMART
Keywords
artificial intelligence
natural language processing
information retrieval
vector space model
part-of-speech tagging
SMART
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于指代消解和篇章结构分析的自动摘录算法
被引量:2
20
作者
郑诚
刘福君
李清
机构
安徽大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
2012年第16期170-173,共4页
基金
安徽省自然科学基金资助项目(11040606M133)
文摘
传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文摘语义不连贯问题,以提高句子权重计算的准确性,对文章做主题划分时进行篇章结构识别,按照段落标题信息划分段落结构。实验结果表明,该算法在受限金融领域文本自动摘录中,具有较高的准确率和召回率。
关键词
自然语言 处理
自动摘录
向量 空间 模型
主题划分
篇章结构
指代消解
Keywords
Natural Language Processing(NLP)
automatic extraction
Vector Space ModeI(VSM)
topic segmentation
text structure
anaphoraresolution
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]