针对现有社区发现依靠出度、入度、介数来进行社会划分的一些不足,研究了依靠信息熵来对社区进行度量,提出了基于信息熵的社区发现算法CDBE(Community Detection Based on Entropy)。如果社区内部信息量大,熵就大。不确定事件发生的概...针对现有社区发现依靠出度、入度、介数来进行社会划分的一些不足,研究了依靠信息熵来对社区进行度量,提出了基于信息熵的社区发现算法CDBE(Community Detection Based on Entropy)。如果社区内部信息量大,熵就大。不确定事件发生的概率就大。社区具有凝聚力,信息的熵相对稳定,不会出现熵剧烈增加或减少的情况,根据节点集合熵的变化是否剧烈,可以判断节点是否是社区的成员,从而实现社区的发现。实验表明,CDBE能够发现有价值的社区。展开更多
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设...为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。展开更多
文摘针对现有社区发现依靠出度、入度、介数来进行社会划分的一些不足,研究了依靠信息熵来对社区进行度量,提出了基于信息熵的社区发现算法CDBE(Community Detection Based on Entropy)。如果社区内部信息量大,熵就大。不确定事件发生的概率就大。社区具有凝聚力,信息的熵相对稳定,不会出现熵剧烈增加或减少的情况,根据节点集合熵的变化是否剧烈,可以判断节点是否是社区的成员,从而实现社区的发现。实验表明,CDBE能够发现有价值的社区。
文摘为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。