期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于结果模式的Deep Web数据抽取 被引量:15
1
作者 马安香 张斌 +2 位作者 高克宁 齐鹏 张引 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 展开更多
关键词 DEEP web 数据集成 数据抽取 结果模式 语义标注 网页数据特征矩阵
在线阅读 下载PDF
一种统一的Web新闻对象自动抽取方法 被引量:4
2
作者 刘伟 严华梁 《计算机工程》 CAS CSCD 2012年第11期167-169,共3页
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,... 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。 展开更多
关键词 web数据抽取 视觉特征 序列标注 网页模板 新闻属性 新闻对象
在线阅读 下载PDF
基于Web日志挖掘的网页实时推荐算法研究 被引量:3
3
作者 俞辉 《计算机工程与设计》 CSCD 北大核心 2008年第7期1691-1693,1697,共4页
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度... 网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度。该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响。试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值。 展开更多
关键词 网络日志 数据预处理 会话编码 动态矩阵 网页推荐
在线阅读 下载PDF
基于启发式信息的Deep Web结果模式获取方法
4
作者 李明 李秀兰 《计算机应用研究》 CSCD 北大核心 2011年第8期3026-3029,共4页
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得... 获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。 展开更多
关键词 DEEPweb 结果模式 网页数据特征矩阵 启发式信息
在线阅读 下载PDF
Web页面中数据表的识别方法研究
5
作者 车成逸 马宗民 焦晓龙 《计算机工程》 CAS CSCD 2012年第23期154-157,共4页
为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方... 为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方法在7个站点上,准确率和召回率的平均值为95.14%和95.69%。 展开更多
关键词 web页面 数据表 特征抽取 支持向量机 核函数
在线阅读 下载PDF
海量大数据定向采样有差别挖掘算法仿真 被引量:1
6
作者 宁滔 《现代电子技术》 北大核心 2024年第9期164-168,共5页
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算... 在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。 展开更多
关键词 海量大数据 网页抓取 定向采样 滤波处理 去冗余 粗糙集 扩展差别矩阵 决策规则
在线阅读 下载PDF
基于语义的图像低层可视特征提取及应用 被引量:2
7
作者 韩冬梅 王雯 李博斐 《计算机工程》 CAS CSCD 2014年第3期244-248,共5页
为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型... 为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型。以成都附近的断层为研究对象,进行语义推理验证,其解译结果与专家实地解译情况相符,初步验证该模型的可行性,使图像的机器分析结果更加贴近专业人员的目视解译,为地学研究数字化和遥感图像解译信息化提供参考。 展开更多
关键词 语义网 纹理特征 边缘特征 语义推理 灰度共生矩阵 多源地学数据
在线阅读 下载PDF
医院网站日志挖掘数据预处理的研究 被引量:1
8
作者 蒙华 苏静 +1 位作者 李立峰 翟玉兰 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第8期144-148,共5页
数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算... 数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。 展开更多
关键词 医院网站日志挖掘 数据预处理 用户识别 页面聚类 相似度矩阵
在线阅读 下载PDF
基于特征相似度计算的网页包装器自适应 被引量:4
9
作者 陈迎仁 郭莹楠 +2 位作者 郭享 倪一涛 陈星 《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加... 随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。 展开更多
关键词 网页数据抽取 自适应 包装器 相似度计算 网页特征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部