期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于函数依赖自动识别的真值发现算法
1
作者 高东钧 张志勇 靳正芬 《计算机工程与设计》 北大核心 2025年第8期2141-2148,共8页
为解决真值发现方法通过人为分析实体属性间的依赖关系效率较低、使用平均值进行可靠度初始化导致结果准确率较低的问题,提出了一种多源同构数据真值发现算法。识别实体属性间的函数依赖关系;利用识别出的函数依赖计算数据源的初始可靠... 为解决真值发现方法通过人为分析实体属性间的依赖关系效率较低、使用平均值进行可靠度初始化导致结果准确率较低的问题,提出了一种多源同构数据真值发现算法。识别实体属性间的函数依赖关系;利用识别出的函数依赖计算数据源的初始可靠度;将函数依赖对应的否定约束转换为算术约束,通过最小化目标函数计算数据源的可靠度并生成真值表。实验结果表明,该算法相较于现有方法获得了更高的准确率。 展开更多
关键词 真值发现 多源同构数据 实体关系 函数依赖 数据源可靠度 数据集成 数据质量
在线阅读 下载PDF
基于语境概念核心词提取算法研究 被引量:13
2
作者 石进 韩进 +1 位作者 赵小柯 刘千里 《情报学报》 CSSCI CSCD 北大核心 2019年第11期1177-1186,共10页
当前国内外对于语境核心词提取算法的研究较少,更多的是对于关键词提取算法的研究,本文提出了一种基于语境的依存句法分析算法。首先本文证明了依存句法分析问题可以等价为如何拆分句子得到最小尺度的语境,以及求出最小尺度语境中的核... 当前国内外对于语境核心词提取算法的研究较少,更多的是对于关键词提取算法的研究,本文提出了一种基于语境的依存句法分析算法。首先本文证明了依存句法分析问题可以等价为如何拆分句子得到最小尺度的语境,以及求出最小尺度语境中的核心词这两个问题。为了解决这两个问题,本文提出了两种语境核心词求解方法,分别是基于熵比较与基于入度和比较的语境核心词提取算法,并基于此进一步提出了最小语境求解算法来构建依存句法树。通过采集《情报学报》 2007-2018年1152篇有效的论文数据并进行测试,分别与经典的关键词提取算法TF/IDF、TextRank、LDA提取的关键词进行了对比,实验结果表明,本文提出的基于语境的依存句法分析算法对于关键词的提取效果良好。 展开更多
关键词 依存句法分析 知识发现 语境模型
在线阅读 下载PDF
知识过滤和它的依赖推理发现 被引量:5
3
作者 卢昌荆 史开泉 薛永生 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第5期634-639,共6页
知识具有颗粒,知识具有粒度;颗粒,粒度是知识的两个基本特征;知识的颗粒特征,知识的粒度特征与知识的属性保持着紧密联系,属性的变化引起知识颗粒特征,知识粒度特征的变化.本文将物理学中物质具有颗粒的概念和过渡的概念引入到粗集(roug... 知识具有颗粒,知识具有粒度;颗粒,粒度是知识的两个基本特征;知识的颗粒特征,知识的粒度特征与知识的属性保持着紧密联系,属性的变化引起知识颗粒特征,知识粒度特征的变化.本文将物理学中物质具有颗粒的概念和过渡的概念引入到粗集(rough set)理论与应用的研究中,提出了知识过滤的概念,给出知识过滤的数值度量,知识筛子原理.利用知识过滤的概念,给出知识过滤在依赖推理中的推理结构,依赖推理的数值关系和在知识发现中的应用.知识过滤与依赖推理相互交叉,互补共享,是知识发现研究的一个新方向. 展开更多
关键词 知识筛子原理 依赖推理 知识发现 应用
在线阅读 下载PDF
关系型数据库中的归纳依赖关系 被引量:2
4
作者 欧阳为民 蔡庆生 《计算机科学》 CSCD 北大核心 1998年第3期52-56,共5页
数据依赖是数据库的一个重要概念,函数依赖则是一种常见的依赖关系。
关键词 关系型数据库 归纳依赖 函数依赖 数据库
在线阅读 下载PDF
关于属性间依赖度表示方法的探讨 被引量:4
5
作者 朱红 《计算机工程》 EI CAS CSCD 北大核心 2005年第1期174-175,211,共3页
该文发现了粗集中传统依赖度表示方法的局限性,提出一种改进的依赖度表示方法,更能体现决策属性对某条件属性的依赖程度。
关键词 粗糙集 知识发现 决策表 依赖皮
在线阅读 下载PDF
基于统计学的KDD方法 被引量:1
6
作者 雷勇 杨丰 《计算机工程与科学》 CSCD 2004年第1期88-89,98,共3页
本文讨论了属性之间统计关系的建模和提取方法,并针对不同的统计关系给出了不同的统 计模型,还就估计未知属性值和提高数据库正确性两方面讨论了统计关系的应用。
关键词 数据库 知识发现 数据库管理系统 KDD 统计学
在线阅读 下载PDF
分布式大数据函数依赖发现 被引量:9
7
作者 李卫榜 李战怀 +3 位作者 陈群 姜涛 刘海龙 潘巍 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期282-294,共13页
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据... 在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升. 展开更多
关键词 函数依赖发现 函数依赖 大数据 知识发现 并行计算
在线阅读 下载PDF
异构模式中关联数据的一致性规则发现方法 被引量:10
8
作者 杜岳峰 李晓光 宋宝燕 《计算机研究与发展》 EI CSCD 北大核心 2020年第9期1939-1948,共10页
数据一致性是数据质量管理的一项核心事务.规则约束作为一种抽象化、形式化的数据关系表达技术,可以有效地进行数据一致性管理.但是,在进行多源数据一致性管理的过程中,由于异源数据所属的关系模式不同,给一致性规则融合带来了挑战.另外... 数据一致性是数据质量管理的一项核心事务.规则约束作为一种抽象化、形式化的数据关系表达技术,可以有效地进行数据一致性管理.但是,在进行多源数据一致性管理的过程中,由于异源数据所属的关系模式不同,给一致性规则融合带来了挑战.另外,不论同源数据还是异源数据,数据之间是相互关联的,可以利用这种关系强化规则约束中语义含义的表达作用,发现数据中的潜在错误.具体地,条件包含依赖(conditional inclusion dependencies,CINDs)和内容相关的条件函数依赖(content-related conditional functional dependencies,CCFDs)可以分别用于异构模式的属性匹配和内容关联数据的一致性维护.基于此,对面向异构关系模式中关于关联数据的一致性规则发现问题进行研究.首先,针对使用CINDs进行异构模式中CCFDs规则发现的基本问题进行分析,对规则发现的可满足性、蕴含性和可验证性问题进行解释,它们分别满足NP-complete,coNP-complete,PTIME的复杂性判定问题.其次,为了对规则空间内的全部CCFDs进行发现,以CCFDs中的条件属性和变量属性为划分依据,提出了一种2级lattice的搜索结构.再次,设计了一种基于CINDs和CCFDs的异构关联数据一致性规则发现方法,使用CINDs对规则形式进行融合,而后通过增量发现方式查找一致性规则.最后,通过在2组真实数据进行实验,验证了方法的有效性和高效性. 展开更多
关键词 异构关系模式 关联数据 条件包含依赖 内容相关的条件函数依赖 规则发现
在线阅读 下载PDF
Spark平台下的分布式函数依赖发现算法 被引量:6
9
作者 朱星宇 蔡志成 +2 位作者 刘段 徐建 李小平 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1569-1575,共7页
函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分... 函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分别处理分布式节点上的数据会导致错误的结果.已经存在的分布式算法存在内存消耗过大的缺点.因此,本文提出一种基于云计算数据处理平台Spark的快速低内存分布式函数依赖发现算法.该算法提出了多个分布式任务分配策略和基于标识符集一致性的最大等价类元素去重策略,在保障正确性前提下,减少了集合交集运算的次数,加快了处理速度.实验结果表明,与传统集中式算法相比,本文提出的分布式算法在本实验环境下使平均执行时间降低了50%左右,去重策略进一步降低了30%左右执行时间.和已有分布式函数依赖发现算法相比,在有些实例上可以节省大约75%的内存. 展开更多
关键词 数据挖掘 函数依赖发现 Dep_Miner 分布式计算 SPARK
在线阅读 下载PDF
ATD4MA:多属性数据的联合真值发现方法
10
作者 何杰 卢菁 +1 位作者 邵清 刘丛 《计算机应用研究》 CSCD 北大核心 2020年第6期1729-1734,共6页
目前已提出的真值发现方法无法解决对象由多个单值属性与多值属性共同组成的情况,若将这些属性拆分后分别处理则会破坏属性间原有的关联,导致计算结果不准确。为此提出一种多属性数据的联合真值发现方法 ATD4MA,将对象各观察值通过遗传... 目前已提出的真值发现方法无法解决对象由多个单值属性与多值属性共同组成的情况,若将这些属性拆分后分别处理则会破坏属性间原有的关联,导致计算结果不准确。为此提出一种多属性数据的联合真值发现方法 ATD4MA,将对象各观察值通过遗传算法中的染色体进行建模,针对问题特性对群体初始化算法和染色体基本动作进行改进,控制染色体的演化行为对各属性进行约束,以各对象的真值染色体与各数据源提供的观察值染色体间的差异加权和达到最小为目标建立优化模型,解决了对象包含多个属性的真值发现问题。在两个真实数据集上的实验证明了提出方法的正确性和有效性。 展开更多
关键词 真值发现 数据相关性 单值属性 多值属性 遗传优化算法
在线阅读 下载PDF
图依赖研究与应用综述 被引量:1
11
作者 余旭 曹建军 +2 位作者 翁年凤 袁震 曾志贤 《计算机应用研究》 CSCD 北大核心 2023年第5期1312-1317,共6页
图依赖是用于解决图数据的数据一致性问题的数据质量规则。基于图依赖提升数据一致性的过程通常分为图依赖定义与形式化、图依赖自动挖掘、基于图依赖的数据一致性提升三步。介绍了针对数据一致性的图依赖理论,并根据拓展类型将图依赖... 图依赖是用于解决图数据的数据一致性问题的数据质量规则。基于图依赖提升数据一致性的过程通常分为图依赖定义与形式化、图依赖自动挖掘、基于图依赖的数据一致性提升三步。介绍了针对数据一致性的图依赖理论,并根据拓展类型将图依赖分为基于结构约束拓展、基于语义约束拓展和基于外部约束拓展的图依赖;综述并对比了从图数据中自动挖掘图依赖及其拓展的算法;分析了应用图依赖提高数据一致性的研究现状;总结了当前研究中仍存在的问题,并依据问题展望了图依赖在数据质量领域的应用前景。 展开更多
关键词 图依赖 数据一致性 图依赖发现 一致性检测 知识图谱
在线阅读 下载PDF
基于聚类离散化的Dep-Miner函数依赖发现方法 被引量:1
12
作者 仓敏 王静怡 +3 位作者 吴霜 翟晓萌 程曦 诸德律 《南京理工大学学报》 CAS CSCD 北大核心 2023年第3期318-329,共12页
针对已有函数依赖发现方法直接应用于连续型数据时,易导致依赖关系挖掘失败的问题,该文基于已有Dep-Miner方法,提出基于等间隔离散化的Dep-Miner(ED-Dep-Miner)和基于聚类离散化的Dep-Miner(CD-Dep-Miner)函数依赖发现方法。通过数据离... 针对已有函数依赖发现方法直接应用于连续型数据时,易导致依赖关系挖掘失败的问题,该文基于已有Dep-Miner方法,提出基于等间隔离散化的Dep-Miner(ED-Dep-Miner)和基于聚类离散化的Dep-Miner(CD-Dep-Miner)函数依赖发现方法。通过数据离散化,将指标的连续型数据合理地转变为类别数据。实现基于类别数据的函数依赖发现,提升函数依赖发现能力。同时,对Dep-Miner中的部分定理给出了基于反证法和枚举法的通俗化证明。该文将提出的ED-Dep-Miner和CD-Dep-Miner与不带有任何离散化操作的原始Tane和Dep-Miner进行了实验对比。实验结果表明,该文的ED-Dep-Miner和CD-Dep-Miner方法将原始连续型数据转化为离散型分类,挖掘出了更多潜在的函数依赖关系。同时,CD-Dep-Miner的性能要优于ED-Dep-Miner,解决了等间隔离散化存在的边界值问题。 展开更多
关键词 聚类 离散化 函数依赖发现 等间隔离散化 类别数据 反证法 枚举法 边界值问题
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部