-
题名物联网海量不均衡数据组内方差SNM清洗算法
- 1
-
-
作者
伍阳
陈科基
-
机构
三峡大学电气与新能源学院
-
出处
《现代电子技术》
北大核心
2025年第3期124-128,共5页
-
文摘
由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不平衡数据字段过滤处理,设计可伸缩滑动窗口方式改进SNM算法,计算不均衡数据组内方差,将其作为清洗不均衡数据的约束,通过对比物联网海量不均衡数据组内方差阈值,实现物联网海量不均衡数据清洗。实验结果表明:该方法具备较强的物联网海量不均衡数据清洗能力,且清洗后的物联网海量不平衡数据的文本相似度较低,应用性较强。
-
关键词
物联网
不均衡数据
组内方差
SNM清洗算法
滑动窗口
网络爬虫
数据字段
约束条件
-
Keywords
IoT
imbalanced data
intra⁃group variance
SNM cleaning algorithm
sliding window
web crawler
data field
constraint condition
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名网络环境下书目数据问题初探
被引量:3
- 2
-
-
作者
孙玉贤
-
机构
中国人民大学图书馆
-
出处
《国家图书馆学刊》
2002年第2期38-40,共3页
-
-
关键词
网络环境
书目数据
编目工作
数据元素
数据字段
-
分类号
G254
[文化科学—图书馆学]
-
-
题名机读目录中年鉴的著录
被引量:2
- 3
-
-
作者
何琳
-
机构
湖南商学院
-
出处
《现代情报》
2002年第1期82-82,91,共2页
-
文摘
本文对年鉴的特征、机读目录格式、著录方式等进行了阐述。
-
关键词
机读目录
年鉴
著录方式
编码数据字段
国际标准书号2SBN
国际标准连续出版物中ISSN
-
分类号
G254.264
[文化科学—图书馆学]
-