摘要
本文提出了一种基于关联规则的中文概念集生成算法。该算法首先产生文档的中文关键词集,采用向量空间模型VSM(vector space model)表示文档;然后以中文关键词为事务项,以中文文档为事务,采用成熟的关联规则算法发现中文关键词频繁集;再生成原始概念集并对原始概念集进行聚类,最终实现了中文概念集的自生成.同时该算法能引入增量更新的特性,对概念集进行增量更新。通过实验,表明该算法能有效地生成中文概念集.可以用之于对表示中文文档的高维特征向量的语义降维,具有一定的使用价值。
This paper proposes a Chinese conception sets-generating algorithm based on association rule. The authors adopt VSM(vector space model) to represent document. Each keyword corresponds to a transaction and each document corresponds to a transaction-item. The authors use the association rules discovery algorithm to find the frequency Chinese conception sets, and use k-means clustering algorithm to cluster the original conception sets. Noteworthily, this algorithm can introduce the characteristic of increment updating to generate conception sets. The experiment results show this algorithm is effective for generating the Chinese conception sets.
出处
《计算机科学》
CSCD
北大核心
2004年第7期175-177,共3页
Computer Science
基金
国家自然科学基金(No.90104030)