-
题名海量大数据定向采样有差别挖掘算法仿真
被引量:1
- 1
-
-
作者
宁滔
-
机构
桂林电子科技大学计算机工程学院
-
出处
《现代电子技术》
北大核心
2024年第9期164-168,共5页
-
基金
(2021—2024)广西职业教育教学改革重点项目(GXGZJG2021A035)。
-
文摘
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。
-
关键词
海量大数据
网页抓取
定向采样
滤波处理
去冗余
粗糙集
扩展差别矩阵
决策规则
-
Keywords
massive big data
web page crawling
directional sampling
filtering processing
redundancy removal
rough set
extended difference matrix
decision rule
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP311
[自动化与计算机技术—计算机软件与理论]
-