期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多向量和实体模糊匹配的话题关联识别 被引量:5
1
作者 张晓艳 王挺 陈火旺 《中文信息学报》 CSCD 北大核心 2008年第1期9-14,共6页
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度... 本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。 展开更多
关键词 计算机应用 中文信息处理 话题关联识别 多向量表示模型 命名实体模糊匹配
在线阅读 下载PDF
Web信息整合中的数据去重方法 被引量:4
2
作者 刘雪琼 武刚 邓厚平 《计算机应用》 CSCD 北大核心 2013年第9期2493-2496,共4页
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模... 针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。 展开更多
关键词 Web信息整合 相似重复记录 动态权重 模糊实体匹配
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部