观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该...观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。展开更多
文摘观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。