题名 微博信息传播预测研究综述
被引量:43
1
作者
李洋
陈毅恒
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《软件学报》
EI
CSCD
北大核心
2016年第2期247-263,共17页
基金
国家重点基础研究发展计划(973)(2014CB340503)
国家自然科学基金(61472107
61202277)~~
文摘
微博已经逐渐成为人们获取信息、分享信息的重要社会媒体,深刻影响并改变了信息的传播方式.针对微博信息传播预测问题展开综述.该研究对舆情监控、微博营销、个性化推荐具有重要意义.首先概述微博信息传播过程,通过介绍微博信息传播的定性研究工作,揭示微博信息传播的特点;接着,从以信息为中心、以用户为中心以及以信息和用户为中心这3个角度介绍微博信息传播预测相关研究工作,对应的主要研究任务分别是微博信息流行度预测、用户传播行为预测和微博信息传播路径预测;继而介绍可用于微博信息传播预测研究的公开数据资源;最后,展望微博信息传播预测研究的问题与挑战.
关键词
微博
信息传播预测
信息流行度
传播行为
信息传播路径
Keywords
microblog
prediction of information propagation
popularity of information
spread behavior
path of information dissemination
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 因果关系及其在社会媒体上的应用研究综述
被引量:19
2
作者
赵森栋
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《软件学报》
EI
CSCD
北大核心
2014年第12期2733-2752,共20页
基金
国家自然科学基金(61133012)
国家重点基础研究发展计划(973)(2014CB340503)
国家青年科学基金(61202277)
文摘
诸如物理学、行为学、社会学和生物学中许多研究的中心问题是对因果的阐述,即变量或事件之间直接作用关系的阐述.由于人们的日常行为和语言越来越多地映射到互联网上,或者根本就是互联网引起了大量新的行为和语言,致使社会媒体上存在大量的因果问题.与相关关系分析相比,社会媒体上的因果关系分析更加必要和迫切,首先,任何相关性的背后都隐藏着因果关系;其次,相关性分析得到的结论有时是不可靠的甚至是错误的;再次,基于相关性的方法无法用于管理、控制和干预变量或事件.论述了因果关系分析的必要性、重要性和社会媒体上存在的因果问题;综述了目前的因果分析与推断的基本理论、存在的问题和研究现状;通过比较现有因果关系分析的研究思路,预测未来的研究方向和因果分析理论及方法在社会媒体上的应用.
关键词
因果关系
社会媒体
常识因果
贝叶斯网络
随机对照实验
准实验设计
Keywords
causality
social media
commonsense causality
Bayesian network
randomized controlled trial
quasi-experimental design
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 文本蕴含关系识别与知识获取研究进展及展望
被引量:30
3
作者
郭茂盛
张宇
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2017年第4期889-910,共22页
基金
国家自然科学基金(61472105
61472107)
国家"八六三"高技术研究发展计划项目基金(2015AA015407)资助~~
文摘
文本蕴含关系是广泛分布于自然语言文本中的单向推理关系,文本蕴含相关研究是自然语言处理领域的一项基础性研究,它可以辅助其他自然语言处理任务的进行,并且具有丰富的应用场景.文中首先界定了文本蕴含研究的范畴.作为一种二元关系,文本蕴含有3个基本研究任务——关系识别、知识获取和蕴含对生成.其中,关系识别有两个核心问题——语义表示与推理机制;知识获取也有两个核心问题——知识表示与知识来源;蕴含对生成研究进展比较缓慢,文中细致地分析了其内因和外因.文中围绕语义表示与推理机制这两个核心问题梳理了关系识别的研究进展,围绕知识表示与知识来源梳理了知识获取的研究进展,并指出了各类方法的可取之处与不足之处.文本蕴含研究的进展离不开相关国际评测,文中也对这些国际评测和数据集进行了归纳总结.大数据时代的到来和深度学习理论的不断发展,为文本蕴含相关研究提供了丰富的知识来源和有力的研究工具,同时也带来了许多崭新的研究课题.文中立足当前研究形势,展望了未来研究方向,并从理论上探讨了其可行性.
关键词
文本蕴含
知识获取
自然语言理解
自然语言处理
人工智能
Keywords
textual entailment
knowledge acquisition
natural language understanding
natural language processing
artificial intelligence
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种面向社区型问句检索的主题翻译模型
被引量:7
4
作者
张伟男
张宇
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2015年第2期313-321,共9页
基金
国家"九七三"重点基础研究发展规划项目基金(2014CB340503)
国家自然科学基金重点项目(61133012)
国家自然科学基金面上项目(61472105)资助~~
文摘
基于统计机器翻译模型的问句检索模型,其相关性排序机制主要依赖于词项间的翻译概率,然而已有的模型没有很好地控制翻译模型的噪声,使得当前的问句检索模型存在不完善之处.文中提出一种基于主题翻译模型的问句检索模型,从理论上说明,该模型利用主题信息对翻译进行合理的约束,达到控制翻译模型噪声的效果,从而提高问句检索的结果.实验结果表明,文中提出的模型在MAP(Mean Average Precision)、MRR(Mean Reciprocal Rank)以及p@1(precision at position one)等指标上显著优于当前最先进的问句检索模型.
关键词
社区型问答
问句检索
主题模型
翻译模型
LDA(Latent
DIRICHLET
Allocation)
社会计算
社交网络
Keywords
community question answering
question retrieval
topic model
translation model
LDA (Latent Dirichlet Allocation)
social computing
social networks
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 社会媒体中用户的隐式消费意图识别
被引量:6
5
作者
付博
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《软件学报》
EI
CSCD
北大核心
2016年第11期2843-2854,共12页
基金
国家自然科学基金(61133012
61202277)
国家重点基础研究发展计划(973)(2014CB340503)~~
文摘
不同于已有的显式消费意图识别的研究,提出了社会媒体中用户的隐式消费意图自动识别方法.该方法将隐式消费意图识别视作多标记分类问题,并综合使用了基于用户关注行为、意图关注行为、意图转发行为以及个人信息的多种特征.由于隐式消费意图识别难以评价,自动抽取了大量跨社会媒体的用户链指信息,利用该方法,共抽取出12万余对的用户链指.在此自动评价集上的实验结果表明,所采用的多标记分类方法对于识别用户的隐式消费意图是行之有效的,其中使用的各种特征对于提高隐式消费意图识别的效果皆有帮助.
关键词
隐式消费意图
多标记分类
用户行为分析
用户链指
数据挖掘
Keywords
implicit consumption intent
multi-label classification
user behavior analysis
user linkage
data mining
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 虚假评论检测研究综述
被引量:36
6
作者
李璐旸
秦兵
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2018年第4期946-968,共23页
基金
国家"八六三"前沿技术研究项目(2015AA015407)
国家自然科学基金(61632011
61370164)资助
文摘
随着电子商务网站及点评网站的发展,评论信息日益影响着人们的生活.越来越多的网络用户通过发布评论分享消费体验、评价产品的质量,并在做出消费决策时参考其他用户的评论.人们对评论信息的依赖催化了虚假评论的不断涌现.虚假评论,指一些用户出于商业或其他不良动机,在评论中编造不实消费经历、对评价对象的质量等进行鼓吹或诽谤.虚假评论容易对用户的观点或决策产生误导,干扰人们的日常生活.由于人类识别虚假评论的准确率较低,综合运用自然语言处理技术有效检测虚假评论、帮助用户获取真实评论信息,在学术研究及产业应用层面均具有深远意义.对虚假评论检测任务,研究者们主要从虚假评论文本、虚假评论发布者及虚假评论群组三个角度开展研究.该文将依次对三类研究进行归纳分析,具体分别从特征设计、模型方法、数据集、评级指标等方面进行了对比总结.最后对未来研究方向进行了探讨和展望.
关键词
虚假评论检测
虚假评论者检测
合谋欺诈检测
观点挖掘
内容挖掘
Keywords
fake review detection
spammer detection
collective spammer detection
opinion mining
content mining
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于用户自然标注的微博文本的消费意图识别
被引量:8
7
作者
付博
陈毅恒
邵艳秋
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
北京语言大学 信息 科学 学院
出处
《中文信息学报》
CSCD
北大核心
2017年第4期208-215,共8页
基金
国家青年科学基金(61202277)
国家自然科学基金(61170144
61472107)
文摘
消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如"想买一部手机"。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。
关键词
消费意图
自然标注
社会媒体
领域自适应
Keywords
consumption intent
naturally annotated
social media
domain adaptation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向作文自动评分的优美句识别
被引量:22
8
作者
付瑞吉
王栋
王士进
胡国平
刘挺
机构
科大讯飞股份有限公司研究 院
科大讯飞股份有限公司哈工大讯飞联合实验室
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
出处
《中文信息学报》
CSCD
北大核心
2018年第6期88-97,共10页
基金
国家863计划课题(2015AA015409)
文摘
语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行优美句识别,并和CNN、BiLSTM网络进行了对比。实验证明,混合神经网络的准确率最高,达到89.23%,F1值与BiLSTM相当,达到75.39%。此外,该文将优美句子特征用于作文自动评分任务,可使计算机评分和人工评分的大分差比例下降21.41%。
关键词
优美句识别
深度神经网络
作文自动评分
Keywords
graceful sentence recognition
deep neural networks
automated essay scoring
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于词语关联度的查询缩略
被引量:1
9
作者
陈炜鹏
付瑞吉
胡熠
秦兵
刘挺
机构
哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心
腾讯公司搜索平台部
出处
《中文信息学报》
CSCD
北大核心
2014年第4期104-110,共7页
基金
国家自然科学基金面上项目(61073126
61273321)
+1 种基金
国家自然科学基金(61133012)
国家863前沿技术研究项目(2012AA011102)
文摘
冗长查询指用户提交的句子成份复杂的查询。当前的搜索引擎对于关键字的检索取得了较好的结果。但是对于冗长的查询,如果将所有词作为关键字进行检索,往往只能返回相当有限的结果。我们尝试利用关键词之间的词语关联度,发现语义蕴含,删除"信息量"小的关键词,提高检索的效果。对于实验结果,我们分别从"面向机器"和"面向用户"两个角度进行评价。在"面向机器"的评价部分,我们根据搜索引擎返回结果的标红率和结果数进行自动评价;在"面向用户"的评价部分,我们对搜索结果文档进行人工评价。实验结果表明,我们的方法能够明显提高检索结果的数量和质量。
关键词
查询缩略
词语关联度
评价方式
Keywords
query reduction
word association
evaluation methods
分类号
TP391
[自动化与计算机技术—计算机应用技术]