-
题名基于多向量和实体模糊匹配的话题关联识别
被引量:5
- 1
-
-
作者
张晓艳
王挺
陈火旺
-
机构
国防科技大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2008年第1期9-14,共6页
-
基金
国家自然科学基金资助项目(60403050)
新世纪优秀人才支持计划资助项目(NCET-06-0926)
-
文摘
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
-
关键词
计算机应用
中文信息处理
话题关联识别
多向量表示模型
命名实体模糊匹配
-
Keywords
computer application
Chinese information processing
story link detection
multi-vector model
namedentity fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Web信息整合中的数据去重方法
被引量:4
- 2
-
-
作者
刘雪琼
武刚
邓厚平
-
机构
北京林业大学信息学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第9期2493-2496,共4页
-
基金
中央高校基本科研业务费专项基金资助项目(BLYX200928)
-
文摘
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。
-
关键词
Web信息整合
相似重复记录
动态权重
模糊实体匹配
-
Keywords
Web information integration
approximately duplicate record
dynamic weight
fuzzy entity matching
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-