一种基于大规模标注语料库的词语聚类方法被引量：3

A Novel Approach For Word Clustering Based On Large Tagged Corpus

在线阅读下载PDF

导出

摘要提出了一种基于大规模标注语料库的词语聚类方法。文中根据专家群体对某一具体问题进行决策的需要,回顾了国内外几种基于分布的词语聚类方法,并给出我们的算法原理及实现步骤。首先人工抽取某一类内词语中的几个,从语料库找到这些词的修饰词,组成修饰词向量,然后对于每一个词语,统计修饰词向量中的每个修饰词和该词语在语料库中同现的频率,组成特征向量,最后进行聚类分析。支持宏观经济决策的试验表明该算法能有效地实现词语的聚类。 This paper proposes a novel approach for word clustering based on large tagged corpus. According to the need of decision-making support for a specific problem, this paper review several algorithms developed by previous works, after that, our algorithm is rendered. Firstly, we manually extract several words from a specified class, and then search the corpus for the modifiers of those words to construct modifier vector, for each of other words, count the frequency of its co-occurrence with each modifier in the modifier vector to construct its characteristic vector, finally, apply clustering algorithm to those characteristic vectors to get the result. Proved by experiment carried out on Decision-making Support for Macro Economics, this algorithm is effective for word clustering.

作者康铁钢戴汝为

机构地区中国科学院自动化研究所复杂系统实验室

出处《系统仿真学报》 CAS CSCD 2003年第10期1439-1442,共4页 Journal of System Simulation

基金国家自然科学基金重大项目(79990581)

关键词语义聚类语料库 N元模型语义相似语义相关 semantic clustering corpus n-gram model semantic similarity semantic relatedness

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1钱学森,于景元,戴汝为.一个科学新领域——开放的复杂巨系统及其方法论[J].自然杂志,1990,13(1):3-10. 被引量：1328
2戴汝为,操龙兵.一个开放的复杂巨系统[J].系统工程学报,2001,16(5):376-381. 被引量：46
3王丹力,戴汝为.群体一致性及其在研讨厅中的应用[J].系统工程与电子技术,2001,23(7):33-37. 被引量：36
4.人民日报标注语料库(1998年1月份).http://www.fujitsu.corn.on,[EB／OL],2001.
5.Word Clustering.http://www.ilc.pi.cnr.it/EAGLES96/ rep2/node37.html [EB/OL].,.
6闻扬,苑春法,黄昌宁.基于搭配对的汉语形容词-名词聚类[J].中文信息学报,2000,14(6):45-50. 被引量：11
7Donald Hindle. Noun classification from predicate-argument structures [C]. In proceedings of ACL, 1990, 268-275.
8Jianfeng Gao et al. Toward a Unified Approach to Statistical Language Modeling for Chinese [C]. ACM Transactions on Asian Language Information Processing 1, Issue 1, 2002.
9Deerwester S, Dumais S T, Furnas G W, Landauer T K, Harshman R.Indexing by latent semantic analysis [C]. Journal of the American Society for Information Science, 1990.
10Khaled Alsabti, Sanjay Ranka, Vineet Singh. An Efficient K-Means Clustering Algorithm [C]. 11th International Parallel Processing Symposium, 1998.

二级参考文献13

1戴汝为,王珏.关于智能系统的综合集成[J].科学通报,1993,38(14):1249-1256. 被引量：52
2许伟.句法-语义一体化的汉语句法分析研究[硕士学位论文].北京:清华大学,1997..
3边肇祺.模式识别[M].北京:清华大学出版社,1997..
4Li Hang，Clustering Words with the MDL Principle ,cmplg/ 960 50 14，1996年
5姬东鸿，汉语形容词和名词的语义组合模型，1996年
6倪文杰，现代汉语辞海，1994年
7边肇祺，模式识别，1998年
8李涓子，基于组合实例的双向优化聚类 .JSCL - 97，1997年
9许伟，硕士学位论文，1997年
10钱学森,于景元,戴汝为.一个科学新领域——开放的复杂巨系统及其方法论[J].自然杂志,1990,13(1):3-10. 被引量：1328

共引文献1390

1李瑞.新形势下科技创新治理复杂性及“元治理”体系构建[J].自然辩证法研究,2021,37(5):60-66. 被引量：25
2闫广芬,石慧,杨院.跨学科研究与职业教育学学科建设:语境、回归、变革[J].中国职业技术教育,2021(9):11-17. 被引量：1
3王豪.复杂性科学视野下政治系统的发展——从政治能量到政治势能[J].系统科学学报,2020,28(1):98-103. 被引量：4
4汪同三.中国经济问题的跨学科研究[J].天津社会科学,2021(1):10-14. 被引量：2
5桑田.理论史视野中的系统论法学[J].人大法律评论,2019(2):209-235. 被引量：5
6黄欣荣.钱学森系统思想及其在智能时代的意义[J].钱学森研究,2019,0(1):38-56. 被引量：1
7汪琪,陈晨子.高校志愿服务内涵发展及对策探析[J].中国轻工教育,2023,26(6):8-14.
8周彦,李亮.2022年版课标是在怎样的背景下修订的?[J].七彩语文,2022(40):3-4.
9刘中云.以央企为核心的举国科技创新生态体系研究[J].科教发展研究,2022(1):44-69. 被引量：5
10章诗谣,张华.线、面、体空间降维变奏曲[J].建筑技艺,2022,28(S01):234-237.

同被引文献34

1李文中.语料库、学习者语料库与外语教学[J].外语界,1999(1):51-55. 被引量：157
2刘立平,易华容,何文斌.一种基于向量空间模型的文本聚类方法[J].株洲师范高等专科学校学报,2004,9(5):23-25. 被引量：4
3钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：11
4李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：277
5杨敏,丁月华,文贵华.有关关联规则挖掘的研究[J].计算机时代,2005(2):5-7. 被引量：2
6赵岩,王晓龙,刘秉权,关毅.基于矢量空间模型和最大熵模型的词义问题解决策略[J].高技术通讯,2005,15(1):1-6. 被引量：1
7Corcho,O.,M.Femandez-Lopez & A.Comez-Perez.Methodologies,tools and languages for building ontologies:Where is their meeting point[J].Data and Knowledge Engineering.2003.(46):41-64.
8Hindle.Donald.Noun classification from predicate□argument structures[C].In Proceedings of ACL,1990.268-275.
9Fonseca,F.,M.Egenhofer,P.Agouris &.G.Camara.Using Ontologies for Intergrated Geographic Information Systems[J].Transactions in CIS,2002.(6):3.
10Gruber,T.R.A translation approach to portable ontologies[J].Knowledge Acquisition,1993,5(2):199-220.

引证文献3

1刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：23
2徐建民,成岳鹏,辛丽军.一种基于术语簇和关联规则的文档聚类方法[J].计算机工程与应用,2007,43(5):178-181.
3梁晓波,张飞,刘伍颖,马晓雷.基于语料库的军事本体构建[J].国防科技,2010,31(1):24-28. 被引量：3

二级引证文献26

1刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
2殷蜀梅.判断新兴研究趋势的技术框架研究[J].图书情报知识,2008,25(3):76-80. 被引量：17
3殷蜀梅,张智雄,吴振新.一种从医学文本中实现自动关键词抽取和筛选的技术方法[J].现代图书情报技术,2008(8):31-36. 被引量：3
4刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5
5张红鹰.基于模糊处理的中文文本关键词提取算法[J].现代图书情报技术,2009(5):39-43. 被引量：6
6盛宇,刘俊熙,郭金兰,龙怡.自然语言理解心理学在短文本分类中的实证研究[J].现代情报,2009,29(8):4-7. 被引量：2
7马续补,郭菊娥.基于《知网》语义相似度的企业事实主题诊断研究[J].情报杂志,2010,29(5):54-57. 被引量：1
8杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12
9王凌燕,方曙,季培培.利用专利文献识别新兴技术主题的技术框架研究[J].图书情报工作,2011,55(18):74-78. 被引量：51
10李华昱,刘亚南,欧阳纯萍.一种χ2统计-遗传算法的特征提取技术研究[J].微型电脑应用,2012,28(2):55-58. 被引量：2

1曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
2杜璞.中文信息处理的主流技术[J].科技创新导报,2009,6(24):172-172. 被引量：1
3曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
4王成平.计算机彝文信息处理主流技术的分析与探讨[J].信息系统工程,2012,25(7):148-150. 被引量：1
5王雷,池天河.地方政府政务信息共享平台建设[J].科学对社会的影响,2001,45(3):18-21. 被引量：4
6多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009,31(4):117-119. 被引量：19
7刘伟涛,顾鸿,李春洪.基于德尔菲法的专家评估方法[J].计算机工程,2011,37(S1):189-191. 被引量：192
8李成林.专家系统基本原理与应用[J].创新科技,2004(10):56-57. 被引量：3
9贾剑峰,史晓东,赖兴邦.基于HMM的汉语整句拼音输入法研究[J].现代计算机,2008,14(4):4-6.
10尼加提·纳吉米,买合木提·买买提,吐尔根·依布拉音.基于N元模型的维吾尔语词性标注实验研究[J].计算机工程与应用,2012,48(25):137-140. 被引量：2

系统仿真学报

2003年第10期

浏览历史

内容加载中请稍等...

一种基于大规模标注语料库的词语聚类方法被引量：3

参考文献10

二级参考文献13

共引文献1390

同被引文献34

引证文献3

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种基于大规模标注语料库的词语聚类方法 被引量：3

参考文献10

二级参考文献13

共引文献1390

同被引文献34

引证文献3

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种基于大规模标注语料库的词语聚类方法被引量：3