-
题名网民重要度建模方法研究
被引量:2
- 1
-
-
作者
袁继鹏
张瑾
郭岩
戴媛
李静
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院研究生院
国家计算机网络应急技术处理协调中心
-
出处
《中文信息学报》
CSCD
北大核心
2012年第6期91-97,共7页
-
基金
国家自然科学基金资助项目(60933005
60903139
+3 种基金
60873243)
国家242专项资助项目(2011A01)
国家863计划重点项目(2010AA012502
2010AA012503)
-
文摘
网民重要度分析可以有效区别出不同网民之间的重要性,从中进行重要网民的提取识别,为重点人物社区分析提供判别依据。在网民重要性影响因素的分析基础上,该文提出了一种基于指标体系的网民重要度模型NI模型(Netizen Importance)。该模型综合考虑了网民在信息发布和关联关系等多方面的特征,采用层次分析法确定指标权重,在此基础上确定网民重要度的具体计算方法。在大规模数据集Twitter上的对比实验表明,通过NI模型得出的重要网民在实际应用中更有价值,更能全面反映网民的重要性。
-
关键词
网民重要度
网民建模
网民评价指标
-
Keywords
netizen importance
netizen modeling
netizen evaluation index
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多语种网络文本快速新词抽取
被引量:2
- 2
-
-
作者
刘冰洋
刘倩
张瑾
刘欣然
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院大学
国家计算机网络应急技术处理协调中心
-
出处
《中文信息学报》
CSCD
北大核心
2014年第2期78-84,共7页
-
基金
国家自然科学基金(609933005
60903139)
+2 种基金
国家242专项(2011A001
2012G129)
973项目(2013CB329601)
-
文摘
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
-
关键词
新词
邻接类别
字符串整体度
后缀树
多语言
-
Keywords
new words
adjacency variety
string integrity measurement
suffix tree
multi-lingual
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于查询意图的长尾查询推荐
被引量:7
- 3
-
-
作者
白露
郭嘉丰
曹雷
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
-
出处
《计算机学报》
EI
CSCD
北大核心
2013年第3期636-642,共7页
-
基金
国家自然科学基金(60933005,61173008,61003166,61203298)
国家“九七三”重点基础研究发展规划项目基金(2012CB316303)资助~~
-
文摘
查询推荐是一种提升用户搜索效率的重要工具.传统的查询推荐方法关注频度较高的查询,但对于那些频度较低的长尾查询,由于其信息的稀疏性而难以产生好的推荐效果.另外,传统的方法由于没有考虑查询意图对推荐结果的影响,故对长尾查询的推荐会受到查询中噪声单词的影响.该文提出了一种新的关于词项查询图(term-query graph)概率混合模型,该模型能够准确地发掘出用户的查询意图.另外,文中还提出了一种融合查询意图的查询推荐方法,该方法可以将新查询中单词的推荐结果按查询意图自然地融合起来,从而避免了噪声单词对推荐结果的影响.实验结果表明,通过考虑查询意图,可以显著提高长尾查询推荐的相关性.
-
关键词
查询推荐
长尾查询
概率混合模型
查询意图
词项查询图
-
Keywords
query recommendation
long tail query
probabilistic mixture model
query intent
term-query graph
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于交互冲突的服务互操作匹配性检测
被引量:9
- 4
-
-
作者
公帅
熊锦华
刘志勇
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院大学
中国科学院计算技术研究所计算机体系结构国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2013年第12期2479-2490,共12页
-
基金
国家"九七三"重点基础研究发展规划项目基金(2007CB310805)
国家科技支撑计划(2011BAH11B02)
国家自然科学基金创新群体项目(60921002)资助~~
-
文摘
随着互联网中包含多个交互的复杂服务的大量出现,如何有效检测服务之间的匹配性至关重要.与传统的业务流程互操作匹配性验证不同,在互联网环境下匹配性检测,一方面要面临如何实现快速检测的挑战,另一方面要解决如何准确地检测完整且精确的不匹配原因以便及时修正.为此,文中提出了一种基于交互冲突的服务互操作性检测方法,该方法利用局部交互之间的行为约束关系检测复杂服务互操作的匹配性,并形式化证明了该方法能够获得与经典的互操作匹配性检测方法一致的检测结果.与经典的互操作匹配性检测方法相比,该文方法时间复杂度低且检测结果可以确切地给出完整、精确的互操作不匹配的原因.
-
关键词
WEB服务
业务流程
互操作
匹配性检测
行为约束关系
-
Keywords
Web service
business process
interactions compatibility verification
behavior constraint relation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于半监督话题模型的用户查询日志命名实体挖掘
被引量:6
- 5
-
-
作者
曹雷
郭嘉丰
白露
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第5期26-32,共7页
-
基金
国家自然科学基金资助项目(60903139
60873243
+2 种基金
60933005)
国家863计划重点资助项目(2010AA012502
2010AA012503)
-
文摘
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。
-
关键词
用户查询日志
命名实体挖掘
半监督话题模型
-
Keywords
query log
named entity mining~ Semi-supervised Topic Model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合全局词语边界特征的中文命名实体识别方法
被引量:6
- 6
-
-
作者
刘冰洋
伍大勇
刘欣然
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院大学
国家计算机网络应急技术处理协调中心
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期86-91,共6页
-
基金
国家自然科学基金(61232010,61100083)
国家973课题(2012CB316303)
+2 种基金
国家863课题(2012AA011003)
国家科技支撑计划(2012BAH46B04)
国家安全专项(2013A140)
-
文摘
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。
-
关键词
命名实体识别
字序列标注
全局特征
词语边界特征
-
Keywords
named entity recognition
sequence labeling
global feature
word boundary feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向权威度和多样性的自动学术调研框架
被引量:3
- 7
-
-
作者
韩晓
郭嘉丰
杜攀
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院大学
-
出处
《计算机学报》
EI
CSCD
北大核心
2015年第2期365-373,共9页
-
基金
国家自然科学基金(2013CB329601
61100175)
+4 种基金
国家"二四二"信息安全计划(2011F45
2012G129)
国家科技支撑计划(2012BAH39B04
2012BAH39B02)
欧盟第七研发框架计划(FP7-PIRSES-318939)资助~~
-
文摘
对某个领域或问题进行学术调研是科研工作的基本需求,然而随着越来越多的科研人员投身研究,大量的学术成果不断涌现,信息过载使得快速有效的调研工作变得越发困难.文中旨在提出一种自动学术调研框架,基于用户给定的关键词查询推荐最值得调研的论文及作者,以辅助科研人员高效完成调研任务.面向某个领域或问题最值得调研的论文和作者,需要具备显著的权威度且能覆盖该领域或问题的不同方面.因此,文中提出了一种面向权威度和多样性的两阶段排序模型:首先引入了MutualRank模型,同时考虑论文及作者信息以更好地建模他们的权威度;接着利用PDRank模型融合权威度和差异性两个因素对论文和作者排序,最终得到权威度高、覆盖面广的调研结果.通过实验作者证明了MutualRank对于权威度的学习效果优于传统的PageRank,同时基于两阶段排序模型得到的调研结果也优于已有的基准方法.
-
关键词
MutualRank
PDRank
自动学术调研
多样性排序
社会计算
社交网络
-
Keywords
MutualRank
PDRank
automatic literature survey
diversity ranking
social computingsocial networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-