-
题名一种Web数据库大小估算新方法
被引量:1
- 1
-
-
作者
金库
聂培尧
林培光
-
机构
山东财政学院计算机信息工程学院
-
出处
《信息技术与信息化》
2010年第2期63-66,共4页
-
文摘
为估算Web数据库大小,提出了一种基于属性相关度和样本独立特性的Web数据库大小估算方法。首先通过中科院分词系统ICTCLAS对通过提交查询获得文本属性值进行分词以便计算属性相关度,再通过属性的相关性获得属性近似独立样本,进而依据样本的独立性来估算Web数据库的大小。并通过实验验证,本方法能获得较高的准确性。
-
关键词
DEEP
web
属性相关度
web数据库大小估算
-
Keywords
Deep web The attribute relevance web database size estimating
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web瑕疵文本去除和有效词频估算方法研究
被引量:1
- 2
-
-
作者
邢计亮
-
机构
邢台广播电视大学
-
出处
《科技通报》
北大核心
2014年第2期59-61,64,共4页
-
文摘
通过研究Deep Web数据库的集成及词频数准确估算问题,提出Deep Web数据库三层集成构建体系和一种有效估算Deep Web数据库的大小和词频关系的方法,可以准确有效地估算Deep Web数据库中的信息数据大小词频数。实现了对Deep Web数据库宏观处理。对文本特征提取算法进行研究,研究了瑕疵文本去除率(去伪)和有用文本提取率(存真)等性能比较指标,得到算法瑕疵文本去除率相对传统算法是最优秀的,然而其存真的有用文本提取率UR相对较低。仿真实验表明:当数据集样本数大于5000时,词频趋于收敛稳定,取得5000样本数据集为有效最小值,所得到的趋于稳定后得到词频结果与实际词频结果是基本一致的。研究结果对Deep Web数据库的宏观统计决策和单个Deep Web数据库的查询效率问题有重要指导作用。
-
关键词
web
数据库
词频
估算
-
Keywords
web
database
word frequency
estimation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-