-
题名情感词发现与极性权重自动计算算法研究
被引量:8
- 1
-
-
作者
张华平
李恒训
李清敏
-
机构
北京理工大学计算机学院
北京市海量语言信息处理与云计算应用工程研究中心
公安部第一研究所信安部
工业和信息化部电子科学技术情报研究所
-
出处
《中文信息学报》
CSCD
北大核心
2017年第3期48-54,共7页
-
基金
国家重点基础研究发展计划(973计划)(2013CB329601)
-
文摘
随着互联网电子商务和各种社交网络应用的快速发展,产生了大量的用户评价信息。为满足快速整理这些评价信息的需求,情感倾向性分析应运而生。情感词典是各类情感倾向性识别算法的基础,收集一部全面且权重合理的情感词典,往往可以简单快速而有效地解决情感分析问题。但情感词典规模有限,而网络上新的情感词层出不穷,语言使用不规范,人工整理耗时耗力。已有的情感词收集方法较复杂,且领域性强,收集的情感词可扩展性差。本文提出一种自动挖掘潜在情感词并计算其极性权重的算法,该算法与应用领域无关,具有良好的扩展性。该方法利用共现特性,基于朴素贝叶斯公式能检测出未知的情感词,并根据其情感权重值的大小判断其情感极性,可有效地扩展情感词典,将已有的情感词典进一步量化。在理论研究的基础上,本文分别针对京东、豆瓣及大众点评网三组评论语料做了实验,其结果的准确率都基本在90%以上,验证了该方法的有效性和实用性,为情感倾向性分析提供了知识库基础。
-
关键词
情感词
情感权重
情感程度判别
情感词典
-
Keywords
sentiment lexicon
polarity weight
emotional orientation degree
emotion dictionary
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据情报分析发展机遇及其挑战
被引量:23
- 2
-
-
作者
黄河燕
曹朝
冯冲
-
机构
北京理工大学计算机学院
北京市海量语言信息处理与云计算应用工程研究中心
-
出处
《智能系统学报》
CSCD
北大核心
2016年第6期719-727,共9页
-
基金
国家重点研发计划项目(2016YFB1000902)
-
文摘
大数据时代,情报信息的分析处理面临着前所未有的机遇和挑战。本文从情报学发展范式的角度阐述了情报分析的现状;以事实数据、工具方法和专家智慧相融合的情报处理理念为指导,剖析了大数据情报分析在大数据融合、大数据处理技术与工具、信息深度挖掘方面的应用需求和面临的挑战;最后以大数据情报分析过程中的数据采集、预处理、分析和应用为主线展望了大数据情报分析的应用发展机遇和技术趋势。
-
关键词
大数据
情报分析
情报学
机遇与挑战
云计算
-
Keywords
big data
intelligence analysis
information sciences
opportunities and challenges
cloud computing
-
分类号
G350
[文化科学—情报学]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向社会媒体的开放领域新词发现
被引量:15
- 3
-
-
作者
张华平
商建云
-
机构
北京理工大学计算机学院
北京市海量语言信息处理与云计算应用工程研究中心
北京理工大学软件学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第3期55-61,共7页
-
基金
国家自然科学基金(61272362)
国家重点基础研究发展计划(973)(2013CB329601)
-
文摘
随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6GB社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。
-
关键词
社会媒体
新词发现
条件随机场
-
Keywords
social media
Chinese new word extraction
conditional random field
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-