期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于半监督学习的域适应实体解析算法 被引量:1
1
作者 戴超凡 丁华华 《计算机科学》 CSCD 北大核心 2024年第9期214-222,共9页
实体解析旨在查找两个数据实体是否引用同一实体,是许多自然语言处理任务中的一项基本任务。现有的基于深度学习的实体解析解决方案通常需要大量的标注数据,即使利用预训练的语言模型进行训练,仍然需要数千个标签才能达到令人满意的准... 实体解析旨在查找两个数据实体是否引用同一实体,是许多自然语言处理任务中的一项基本任务。现有的基于深度学习的实体解析解决方案通常需要大量的标注数据,即使利用预训练的语言模型进行训练,仍然需要数千个标签才能达到令人满意的准确性。现实场景中,这些标注数据并不容易获得。针对上述问题,提出了一个基于半监督学习的域适应实体解析模型。首先,在源域上训练一个分类器,然后利用域适应减小源域和目标域的分布差异,同时用数据增强后的目标域软伪标签加入源域迭代训练,从而实现从源域到目标域的知识迁移。在13个来自相同或不同领域的数据集上对所提模型进行了对比实验和消融实验,实验结果表明,与无监督基线模型相比,所提模型在多个数据集上的F1值平均提升了2.84%,9.16%和7.1%;与有监督基线模型相比,所提模型只需要20%~40%的标签就可以达到与有监督学习相当的性能。消融实验进一步证明了所提模型的有效性,其总体上可以获得更好的实体解析结果(相关代码已开源1))。 展开更多
关键词 实体解析 域适应 伪标签 预训练语言模型 数据增强
在线阅读 下载PDF
一种基于模式的实体解析算法 被引量:6
2
作者 刘辉平 金澈清 周傲英 《计算机学报》 EI CSCD 北大核心 2015年第9期1796-1808,共13页
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记... 实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性. 展开更多
关键词 数据融合 数据清洗 实体解析 编辑距离 字符串相似度
在线阅读 下载PDF
大数据环境下用于实体解析的两层相关性聚类方法 被引量:7
3
作者 王宁 李杰 《计算机研究与发展》 EI CSCD 北大核心 2014年第9期2108-2116,共9页
数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解... 数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法. 展开更多
关键词 相关性聚类 公共邻居 实体解析 数据集成 大数据 数据噪声
在线阅读 下载PDF
支持隐私保护的众包实体解析 被引量:7
4
作者 燕彩蓉 张洋舜 徐光伟 《计算机科学与探索》 CSCD 2014年第7期802-811,共10页
实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减... 实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。为了支持隐私保护,在众包计算时提出了基于角色的访问控制模型和重要信息隐藏策略。该方法和模型被应用于某医院患者主索引构建平台,实验结果表明,人机结合方法充分利用了机器和人工处理的优势,可以进行高效率和高精度的患者实体解析,并且有效地避免了患者信息的泄漏。 展开更多
关键词 实体解析 众包 MapReduce编程模型 隐私保护 患者主索引
在线阅读 下载PDF
基于MapReduce与两层相关性聚类的实体解析方法 被引量:1
5
作者 王宁 黄敏 《计算机工程》 CAS CSCD 北大核心 2015年第9期80-84,91,共6页
两层相关性聚类算法由于引入公共邻居,在解析的正确性及抗噪声能力方面性能较好。但该算法分两层执行,在时间效率上不具优势。为此,提出将该算法在MapReduce框架下实现,利用分布式计算提高其执行效率。通过设计辅助文件减少内存消耗以... 两层相关性聚类算法由于引入公共邻居,在解析的正确性及抗噪声能力方面性能较好。但该算法分两层执行,在时间效率上不具优势。为此,提出将该算法在MapReduce框架下实现,利用分布式计算提高其执行效率。通过设计辅助文件减少内存消耗以及中间数据的输出,给出分布式环境下的块更新规则,并改写第二层的调整块算法,将需要实时更新的数据统一计算后,根据更为显著的关联特征进行处理。实验结果表明,与TT算法和DTT算法相比,该方法不仅能保证解析的准确性,而且在时间效率上也有大幅提高。 展开更多
关键词 相关性聚类 MAPREDUCE模型 实体解析 大数据 数据集成 分布式计算
在线阅读 下载PDF
面向数据演化的实体解析述评 被引量:2
6
作者 高广尚 《情报学报》 CSSCI 北大核心 2016年第3期326-336,共11页
分析数据演化下的基于相关性聚类的增量实体解析机制。针对增量实体解析过程展开分析和研究,首先探讨静态数据集中的实体解析、然后分析基于相关性聚类的解析机制,最后研究面向数据演化的实体解析过程。基于相关性聚类的增量实体解析技... 分析数据演化下的基于相关性聚类的增量实体解析机制。针对增量实体解析过程展开分析和研究,首先探讨静态数据集中的实体解析、然后分析基于相关性聚类的解析机制,最后研究面向数据演化的实体解析过程。基于相关性聚类的增量实体解析技术能很好地运用于频繁更新的数据环境中。仅从聚类技术角度分析了面向数据演化的增量实体解析技术现状,未给出该技术的详细算法描述。有助于较全面系统地理解面向数据演化的实体解析过程及其内在的相关技术难点。 展开更多
关键词 数据演化 相关性聚类 增量实体解析
在线阅读 下载PDF
并行实体解析与记录聚合模型 被引量:1
7
作者 燕彩蓉 万永权 《小型微型计算机系统》 CSCD 北大核心 2013年第8期1843-1847,共5页
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根... 实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根据属性相似的传递性,并结合函数式语言的本身特性,对记录进行高效聚合.相关算法和框架应用于建立医院之间患者标识交叉索引平台,为患者主索引的建立以及信息共享提供依据.实验结果表明,MapReduce编程模型非常适合于实体解析与记录聚合的一体化处理,其编程快捷,运行高效,而且数据分区和并行处理技术避免了大量连接引发的内存溢出问题. 展开更多
关键词 实体解析 记录聚合 MapReduce编程模型 患者标识交叉索引
在线阅读 下载PDF
时间约束的实体解析中记录对排序研究 被引量:6
8
作者 孙琛琛 申德荣 +2 位作者 李玉坤 肖迎元 马建红 《软件学报》 EI CSCD 北大核心 2020年第3期695-709,共15页
实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)实时的数据应用需求.因此,研究时间约束的实体解析,其核心问题是基于匹配可能性的记... 实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)实时的数据应用需求.因此,研究时间约束的实体解析,其核心问题是基于匹配可能性的记录对排序.通过对多路分块得到的块内信息与块间信息分别进行分析,提出两个基本的记录匹配可能性计算方法.在此基础上,提出一种基于二分图上相似性传播的记录匹配可能性计算方法.将记录对、块及其关联关系构建二分图;相似性沿着二分图不断地在记录对结点与块结点之间传播,直到收敛.收敛结果可以通过不动点计算得到.提出近似的收敛计算方法来降低计算代价,从而保证实体解析的实时召回率.最后,在两个数据集上进行实验评价,验证了所提出方法的有效性,并测试方法的各个方面. 展开更多
关键词 实体解析 记录对排序 时间约束 数据集成
在线阅读 下载PDF
面向查询式实体解析的多属性数据索引技术 被引量:6
9
作者 孙琛琛 申德荣 +1 位作者 肖迎元 李玉坤 《软件学报》 EI CSCD 北大核心 2022年第6期2331-2347,共17页
实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问... 实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面. 展开更多
关键词 实体解析 多属性数据索引 查询式 数据集成 数据预处理
在线阅读 下载PDF
基于属性权重的实体解析技术 被引量:5
10
作者 甄灵敏 杨晓春 +1 位作者 王斌 Ahmed A Hussein 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期281-289,共9页
实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程.如何高效而准确地将指向同一实体的记录识别出来一直是研究人员不懈追求的目标.在基于规则的匹配算法中,大多数算法是将所有的属性都作为... 实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程.如何高效而准确地将指向同一实体的记录识别出来一直是研究人员不懈追求的目标.在基于规则的匹配算法中,大多数算法是将所有的属性都作为匹配属性进行计算,并且各个属性的权重都是一样的,然而这样不能充分体现关键属性的重要性.主要针对关系数据库数据源中实体解析准确性的问题,采用信息增益的方法和概率统计的方法计算数据属性的权重,用来代表该属性在记录中的重要性,达到提高实体解析准确度的目的.并且在此基础上采用top-k算法,选择出最佳分类属性集合,减少匹配属性的个数,从而加快了实体解析的速度. 展开更多
关键词 实体解析 属性权重 信息增益 实体识别 TOP-K
在线阅读 下载PDF
实体解析技术综述与展望 被引量:5
11
作者 朱灿 曹健 《计算机科学》 CSCD 北大核心 2015年第3期8-12,18,共6页
实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据... 实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据上的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算法。最后展望了实体解析领域当前的研究热点以及发展方向。 展开更多
关键词 实体解析 记录链接 集合数据 复杂数据 大数据
在线阅读 下载PDF
基于概率软逻辑模型的实体解析 被引量:2
12
作者 宫云宝 甘亮 黄九鸣 《计算机工程》 CAS CSCD 北大核心 2017年第8期188-192,199,共6页
在马尔科夫逻辑网(MLN)的实体解析算法中任意闭原子采用硬约束,导致推理及权重学习过程较难收敛到最优解,降低解析精度及执行效率。为此,提出一种将概率软逻辑(PSL)模型应用到实体解析中的方法,该模型中闭原子采用软约束,易于进行知识... 在马尔科夫逻辑网(MLN)的实体解析算法中任意闭原子采用硬约束,导致推理及权重学习过程较难收敛到最优解,降低解析精度及执行效率。为此,提出一种将概率软逻辑(PSL)模型应用到实体解析中的方法,该模型中闭原子采用软约束,易于进行知识推理与权重学习。阐述PSL模型基本理论,通过实体关系、实体属性、本体约束构造PSL模型的逻辑规则,描述实体解析的匹配过程,根据PSL模型的推理机制实现实体解析的决策过程。实验结果表明,与基于MLN的实体解析算法相比,该方法可大幅提高实体解析的准确率、F1值及执行效率。 展开更多
关键词 实体解析 概率软逻辑 马尔科夫逻辑网 实体关系 实体属性 本体约束
在线阅读 下载PDF
面向实体解析的无监督聚类方法综述 被引量:7
13
作者 高广尚 《计算机工程与应用》 CSCD 北大核心 2018年第7期11-19,65,共10页
旨在从无监督聚类角度分析实体解析过程的机制。从特定类型、经典算法角度研究了无监督聚类的思路;从经典算法改进、演化分析角度研究了无监督增量聚类的思路;最后,对无监督聚类研究下一步需要解决的问题进行了展望。无监督聚类技术不... 旨在从无监督聚类角度分析实体解析过程的机制。从特定类型、经典算法角度研究了无监督聚类的思路;从经典算法改进、演化分析角度研究了无监督增量聚类的思路;最后,对无监督聚类研究下一步需要解决的问题进行了展望。无监督聚类技术不仅能很好地解决传统实体解析过程中存在的聚类效率和质量问题,而且还能利用已有的聚类结果对快速演化的数据进行增量解析,进而进一步满足大数据环境下亟需的增量解析需求。没有深入分析无监督聚类算法的评价指标,尽管面向实体解析的无监督聚类方法有诸多优势,但仍然面临着准确性和可扩展性等挑战。 展开更多
关键词 实体解析 无监督聚类 无监督增量聚类
在线阅读 下载PDF
基于域分离网络的实体解析迁移方法
14
作者 孙琛琛 许雷 +1 位作者 申德荣 聂铁铮 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第2期86-94,共9页
实体解析致力于识别多条记录是否描述真实世界相同实体,这是数据清洗和数据集成中的关键问题.近年来,基于深度学习的实体解析广受欢迎,它们需要大量标注数据才能达到较优的效果.然而,在现实场景中,大量高质量标注数据不容易获得.本文提... 实体解析致力于识别多条记录是否描述真实世界相同实体,这是数据清洗和数据集成中的关键问题.近年来,基于深度学习的实体解析广受欢迎,它们需要大量标注数据才能达到较优的效果.然而,在现实场景中,大量高质量标注数据不容易获得.本文提出了一个基于深度迁移学习的实体解析模型,通过域分离网络提取源域和目标域的公共特征,并利用公共特征得到实体解析结果,从而实现从源域到目标域的迁移.实验结果表明,在多个数据集上,本文提出的方法比之前最好的方法在F1度量上最大提高了40%左右.实验证明本文的方法具有更好的表现,并且训练时间更短. 展开更多
关键词 实体解析 域分离网络 变分自编码器 数据集成 迁移学习
在线阅读 下载PDF
基于主题异构图嵌入的Token粒度实体解析方法
15
作者 初慧琳 申德荣 +2 位作者 窦文周 聂铁铮 寇月 《小型微型计算机系统》 CSCD 北大核心 2023年第7期1398-1404,共7页
实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中toke... 实体解析是数据集成、数据挖掘等技术中不可或缺的步骤,其具体任务是查找引用自同一真实世界的实体的数据记录.现有的方法多数是通过计算实体记录的属性相似度来评估是否为同一实体,由于该方法需要预先对齐记录属性,无法适应属性中token误放的情形,也不能有效利用跨属性中tokens的语义和结构信息,影响实体识别准确性.本文提出了一种采用主题异构图嵌入的token粒度的实体解析方法(THGE-ER).在token、属性和记录基础上,利用LDA模型为实体记录添加一个主题层级,并构建了一个由token、属性、记录和主题4类节点组成的主题异构图;采用区分节点类型的异构图嵌入表示方法,并将节点间的语义和结构信息嵌入到token层级的嵌入向量中;进一步结合多层次注意力机制,完成最终的实体解析决策.经过大量的实验证明,本文提出的方法表现出了良好的性能. 展开更多
关键词 实体解析 LDA文档主题模型 异构图 多层注意力机制
在线阅读 下载PDF
异构网络中实体匹配算法综述 被引量:2
16
作者 李娜 金冈增 +2 位作者 周晓旭 郑建兵 高明 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第5期41-55,共15页
互联网、物联网和云计算技术的不断融合,使得各行各业信息化程度越来越高,但同时也带来了数据碎片化的问题.数据碎片化的海量性、异构性、隐私性、相依性和低质性等特征,导致了数据可用性较差,利用这些数据难以挖掘出准确而完整的信息.... 互联网、物联网和云计算技术的不断融合,使得各行各业信息化程度越来越高,但同时也带来了数据碎片化的问题.数据碎片化的海量性、异构性、隐私性、相依性和低质性等特征,导致了数据可用性较差,利用这些数据难以挖掘出准确而完整的信息.为了更有效地利用数据,实体匹配、融合和消歧变得尤为重要.主要对异构网络中实体匹配算法进行了综述,对实体相似度度量和数据预处理技术进行了梳理;特别针对海量数据,概述了可扩展实体匹配方法的研究进展,综述了运用监督学习和非监督学习两类技术的实体匹配算法. 展开更多
关键词 数据融合 实体匹配 记录链接 实体解析
在线阅读 下载PDF
知识图谱学习和推理研究进展 被引量:25
17
作者 吴运兵 杨帆 +1 位作者 赖国华 林开标 《小型微型计算机系统》 CSCD 北大核心 2016年第9期2007-2013,共7页
知识图谱是在大数据时代背景下产生的一种新型知识表示方式和数据管理模式.学习和推理是知识图谱应用研究的核心内容之一,主要任务是链接预测、实体解析和基于聚类的链接等,它能够进一步完善知识图谱,并解决问题回答和信息检索等领域问... 知识图谱是在大数据时代背景下产生的一种新型知识表示方式和数据管理模式.学习和推理是知识图谱应用研究的核心内容之一,主要任务是链接预测、实体解析和基于聚类的链接等,它能够进一步完善知识图谱,并解决问题回答和信息检索等领域问题,因此,学习和推理的算法研究具有十分重要的意义.国内知识图谱研究和应用正处于开展阶段,学习和推理算法的中文文献相对较少,针对当前知识图谱的学习和推理算法进行了归纳总结和介绍,比较各种算法的优缺点,同时对当前研究中所面临的一些主要问题及发展方向进行了探讨. 展开更多
关键词 知识图谱 链接预测 实体解析 知识图谱完善
在线阅读 下载PDF
基于链接的作者重名处理方法研究与应用 被引量:5
18
作者 吴斌 徐超群 +1 位作者 王文彬 吴巍 《计算机科学》 CSCD 北大核心 2008年第3期197-199,共3页
本文提出了一种适用于中文文献索引数据的实体解析方法。区别于新近的属性+链接结构的聚类方法,本方依据实际问题的特点采用了先属性匹配,然后基于文献合作网络的结构解析的策略。该方法在真实的大数据量文献索引数据上运行获得了良好... 本文提出了一种适用于中文文献索引数据的实体解析方法。区别于新近的属性+链接结构的聚类方法,本方依据实际问题的特点采用了先属性匹配,然后基于文献合作网络的结构解析的策略。该方法在真实的大数据量文献索引数据上运行获得了良好的效果,并已经运用于数字图书馆的检索系统。 展开更多
关键词 实体解析 重名分析 信息检索 基于链接的分析
在线阅读 下载PDF
基于邮件正文的邮箱用户别名抽取 被引量:2
19
作者 尹美娟 陈庶民 +1 位作者 刘晓楠 路林 《计算机科学》 CSCD 北大核心 2011年第12期182-186,199,共6页
邮箱用户身份信息挖掘是数据挖掘研究的一个热点。当前相关研究大多仅从邮件头中抽取邮箱用户的别名,遗漏了邮件正文中潜藏的更能代表通信双方身份的别名信息。针对纯文本邮件正文中邮箱用户别名信息抽取问题,提出了基于统计和规则过滤... 邮箱用户身份信息挖掘是数据挖掘研究的一个热点。当前相关研究大多仅从邮件头中抽取邮箱用户的别名,遗漏了邮件正文中潜藏的更能代表通信双方身份的别名信息。针对纯文本邮件正文中邮箱用户别名信息抽取问题,提出了基于统计和规则过滤的称呼块和签名块定位算法,该算法能高效准确地从邮件正文中提取出蕴涵邮箱用户别名的称呼块和签名块文本片段;进一步提出了基于别名边界词汇模板修正的别名抽取方法,从而提高了仅基于命名实体识别或词性标注工具识别别名的准确率。实验结果表明,提出的方法可以有效地抽取出邮件正文中邮箱用户的别名。 展开更多
关键词 实体解析 邮件正文 别名抽取 称呼块签名块定位 别名边界词汇模板
在线阅读 下载PDF
基于因子图的不一致记录对消歧方法 被引量:2
20
作者 徐耀丽 李战怀 +2 位作者 陈群 王艳艳 樊峰峰 《计算机研究与发展》 EI CSCD 北大核心 2020年第1期175-187,共13页
实体解析(entity resolution,ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对... 实体解析(entity resolution,ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法. 展开更多
关键词 数据集成 实体解析 最大似然估计 不一致记录对 核密度估计 因子图
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部