期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
网民重要度建模方法研究 被引量:2
1
作者 袁继鹏 张瑾 +2 位作者 郭岩 戴媛 李静 《中文信息学报》 CSCD 北大核心 2012年第6期91-97,共7页
网民重要度分析可以有效区别出不同网民之间的重要性,从中进行重要网民的提取识别,为重点人物社区分析提供判别依据。在网民重要性影响因素的分析基础上,该文提出了一种基于指标体系的网民重要度模型NI模型(Netizen Importance)。该模... 网民重要度分析可以有效区别出不同网民之间的重要性,从中进行重要网民的提取识别,为重点人物社区分析提供判别依据。在网民重要性影响因素的分析基础上,该文提出了一种基于指标体系的网民重要度模型NI模型(Netizen Importance)。该模型综合考虑了网民在信息发布和关联关系等多方面的特征,采用层次分析法确定指标权重,在此基础上确定网民重要度的具体计算方法。在大规模数据集Twitter上的对比实验表明,通过NI模型得出的重要网民在实际应用中更有价值,更能全面反映网民的重要性。 展开更多
关键词 网民重要度 网民建模 网民评价指标
在线阅读 下载PDF
多语种网络文本快速新词抽取 被引量:2
2
作者 刘冰洋 刘倩 +2 位作者 张瑾 刘欣然 程学旗 《中文信息学报》 CSCD 北大核心 2014年第2期78-84,共7页
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改... 从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。 展开更多
关键词 新词 邻接类别 字符串整体度 后缀树 多语言
在线阅读 下载PDF
基于查询意图的长尾查询推荐 被引量:7
3
作者 白露 郭嘉丰 +1 位作者 曹雷 程学旗 《计算机学报》 EI CSCD 北大核心 2013年第3期636-642,共7页
查询推荐是一种提升用户搜索效率的重要工具.传统的查询推荐方法关注频度较高的查询,但对于那些频度较低的长尾查询,由于其信息的稀疏性而难以产生好的推荐效果.另外,传统的方法由于没有考虑查询意图对推荐结果的影响,故对长尾查询的推... 查询推荐是一种提升用户搜索效率的重要工具.传统的查询推荐方法关注频度较高的查询,但对于那些频度较低的长尾查询,由于其信息的稀疏性而难以产生好的推荐效果.另外,传统的方法由于没有考虑查询意图对推荐结果的影响,故对长尾查询的推荐会受到查询中噪声单词的影响.该文提出了一种新的关于词项查询图(term-query graph)概率混合模型,该模型能够准确地发掘出用户的查询意图.另外,文中还提出了一种融合查询意图的查询推荐方法,该方法可以将新查询中单词的推荐结果按查询意图自然地融合起来,从而避免了噪声单词对推荐结果的影响.实验结果表明,通过考虑查询意图,可以显著提高长尾查询推荐的相关性. 展开更多
关键词 查询推荐 长尾查询 概率混合模型 查询意图 词项查询图
在线阅读 下载PDF
基于交互冲突的服务互操作匹配性检测 被引量:9
4
作者 公帅 熊锦华 刘志勇 《计算机学报》 EI CSCD 北大核心 2013年第12期2479-2490,共12页
随着互联网中包含多个交互的复杂服务的大量出现,如何有效检测服务之间的匹配性至关重要.与传统的业务流程互操作匹配性验证不同,在互联网环境下匹配性检测,一方面要面临如何实现快速检测的挑战,另一方面要解决如何准确地检测完整且精... 随着互联网中包含多个交互的复杂服务的大量出现,如何有效检测服务之间的匹配性至关重要.与传统的业务流程互操作匹配性验证不同,在互联网环境下匹配性检测,一方面要面临如何实现快速检测的挑战,另一方面要解决如何准确地检测完整且精确的不匹配原因以便及时修正.为此,文中提出了一种基于交互冲突的服务互操作性检测方法,该方法利用局部交互之间的行为约束关系检测复杂服务互操作的匹配性,并形式化证明了该方法能够获得与经典的互操作匹配性检测方法一致的检测结果.与经典的互操作匹配性检测方法相比,该文方法时间复杂度低且检测结果可以确切地给出完整、精确的互操作不匹配的原因. 展开更多
关键词 WEB服务 业务流程 互操作 匹配性检测 行为约束关系
在线阅读 下载PDF
基于半监督话题模型的用户查询日志命名实体挖掘 被引量:6
5
作者 曹雷 郭嘉丰 +1 位作者 白露 程学旗 《中文信息学报》 CSCD 北大核心 2012年第5期26-32,共7页
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体... 基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。 展开更多
关键词 用户查询日志 命名实体挖掘 半监督话题模型
在线阅读 下载PDF
融合全局词语边界特征的中文命名实体识别方法 被引量:6
6
作者 刘冰洋 伍大勇 +1 位作者 刘欣然 程学旗 《中文信息学报》 CSCD 北大核心 2017年第2期86-91,共6页
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过... 目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。 展开更多
关键词 命名实体识别 字序列标注 全局特征 词语边界特征
在线阅读 下载PDF
一种面向权威度和多样性的自动学术调研框架 被引量:3
7
作者 韩晓 郭嘉丰 +1 位作者 杜攀 程学旗 《计算机学报》 EI CSCD 北大核心 2015年第2期365-373,共9页
对某个领域或问题进行学术调研是科研工作的基本需求,然而随着越来越多的科研人员投身研究,大量的学术成果不断涌现,信息过载使得快速有效的调研工作变得越发困难.文中旨在提出一种自动学术调研框架,基于用户给定的关键词查询推荐最值... 对某个领域或问题进行学术调研是科研工作的基本需求,然而随着越来越多的科研人员投身研究,大量的学术成果不断涌现,信息过载使得快速有效的调研工作变得越发困难.文中旨在提出一种自动学术调研框架,基于用户给定的关键词查询推荐最值得调研的论文及作者,以辅助科研人员高效完成调研任务.面向某个领域或问题最值得调研的论文和作者,需要具备显著的权威度且能覆盖该领域或问题的不同方面.因此,文中提出了一种面向权威度和多样性的两阶段排序模型:首先引入了MutualRank模型,同时考虑论文及作者信息以更好地建模他们的权威度;接着利用PDRank模型融合权威度和差异性两个因素对论文和作者排序,最终得到权威度高、覆盖面广的调研结果.通过实验作者证明了MutualRank对于权威度的学习效果优于传统的PageRank,同时基于两阶段排序模型得到的调研结果也优于已有的基准方法. 展开更多
关键词 MutualRank PDRank 自动学术调研 多样性排序 社会计算 社交网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部