期刊文献+

一种基于大规模标注语料库的词语聚类方法 被引量:3

A Novel Approach For Word Clustering Based On Large Tagged Corpus
在线阅读 下载PDF
导出
摘要 提出了一种基于大规模标注语料库的词语聚类方法。文中根据专家群体对某一具体问题进行决策的需要,回顾了国内外几种基于分布的词语聚类方法,并给出我们的算法原理及实现步骤。首先人工抽取某一类内词语中的几个,从语料库找到这些词的修饰词,组成修饰词向量,然后对于每一个词语,统计修饰词向量中的每个修饰词和该词语在语料库中同现的频率,组成特征向量,最后进行聚类分析。支持宏观经济决策的试验表明该算法能有效地实现词语的聚类。 This paper proposes a novel approach for word clustering based on large tagged corpus. According to the need of decision-making support for a specific problem, this paper review several algorithms developed by previous works, after that, our algorithm is rendered. Firstly, we manually extract several words from a specified class, and then search the corpus for the modifiers of those words to construct modifier vector, for each of other words, count the frequency of its co-occurrence with each modifier in the modifier vector to construct its characteristic vector, finally, apply clustering algorithm to those characteristic vectors to get the result. Proved by experiment carried out on Decision-making Support for Macro Economics, this algorithm is effective for word clustering.
出处 《系统仿真学报》 CAS CSCD 2003年第10期1439-1442,共4页 Journal of System Simulation
基金 国家自然科学基金重大项目(79990581)
关键词 语义 聚类 语料库 N元模型 语义相似 语义相关 semantic clustering corpus n-gram model semantic similarity semantic relatedness
  • 相关文献

参考文献10

  • 1钱学森,于景元,戴汝为.一个科学新领域——开放的复杂巨系统及其方法论[J].自然杂志,1990,13(1):3-10. 被引量:1328
  • 2戴汝为,操龙兵.一个开放的复杂巨系统[J].系统工程学报,2001,16(5):376-381. 被引量:46
  • 3王丹力,戴汝为.群体一致性及其在研讨厅中的应用[J].系统工程与电子技术,2001,23(7):33-37. 被引量:36
  • 4.人民日报标注语料库(1998年1月份).http://www.fujitsu.corn.on,[EB/OL],2001.
  • 5.Word Clustering.http://www.ilc.pi.cnr.it/EAGLES96/ rep2/node37.html [EB/OL].,.
  • 6闻扬,苑春法,黄昌宁.基于搭配对的汉语形容词-名词聚类[J].中文信息学报,2000,14(6):45-50. 被引量:11
  • 7Donald Hindle. Noun classification from predicate-argument structures [C]. In proceedings of ACL, 1990, 268-275.
  • 8Jianfeng Gao et al. Toward a Unified Approach to Statistical Language Modeling for Chinese [C]. ACM Transactions on Asian Language Information Processing 1, Issue 1, 2002.
  • 9Deerwester S, Dumais S T, Furnas G W, Landauer T K, Harshman R.Indexing by latent semantic analysis [C]. Journal of the American Society for Information Science, 1990.
  • 10Khaled Alsabti, Sanjay Ranka, Vineet Singh. An Efficient K-Means Clustering Algorithm [C]. 11th International Parallel Processing Symposium, 1998.

二级参考文献13

  • 1戴汝为,王珏.关于智能系统的综合集成[J].科学通报,1993,38(14):1249-1256. 被引量:52
  • 2许伟.句法-语义一体化的汉语句法分析研究[硕士学位论文].北京:清华大学,1997..
  • 3边肇祺.模式识别[M].北京:清华大学出版社,1997..
  • 4Li Hang,Clustering Words with the MDL Principle ,cmplg/ 960 50 14,1996年
  • 5姬东鸿,汉语形容词和名词的语义组合模型,1996年
  • 6倪文杰,现代汉语辞海,1994年
  • 7边肇祺,模式识别,1998年
  • 8李涓子,基于组合实例的双向优化聚类 .JSCL - 97,1997年
  • 9许伟,硕士学位论文,1997年
  • 10钱学森,于景元,戴汝为.一个科学新领域——开放的复杂巨系统及其方法论[J].自然杂志,1990,13(1):3-10. 被引量:1328

共引文献1390

同被引文献34

引证文献3

二级引证文献26

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部