检索结果-维普期刊中文期刊服务平台

基于结果模式的Deep Web数据抽取被引量：15: 1; 作者马安香张斌 +2 位作者高克宁齐鹏张引《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页; 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 展开更多; 关键词 DEEP web 数据集成数据抽取结果模式语义标注网页数据特征矩阵; 在线阅读下载PDF 职称材料

一种统一的Web新闻对象自动抽取方法被引量：4: 2; 作者刘伟严华梁《计算机工程》 CAS CSCD 2012年第11期167-169,共3页; 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,... 展开更多; 关键词 web数据抽取视觉特征序列标注网页模板新闻属性新闻对象; 在线阅读下载PDF 职称材料

基于Web日志挖掘的网页实时推荐算法研究被引量：3: 3; 作者俞辉《计算机工程与设计》 CSCD 北大核心 2008年第7期1691-1693,1697,共4页; 网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度... 展开更多; 关键词网络日志数据预处理会话编码动态矩阵网页推荐; 在线阅读下载PDF 职称材料

基于启发式信息的Deep Web结果模式获取方法: 4; 作者李明李秀兰《计算机应用研究》 CSCD 北大核心 2011年第8期3026-3029,共4页; 获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得... 展开更多; 关键词 DEEPweb 结果模式网页数据特征矩阵启发式信息; 在线阅读下载PDF 职称材料

Web页面中数据表的识别方法研究: 5; 作者车成逸马宗民焦晓龙《计算机工程》 CAS CSCD 2012年第23期154-157,共4页; 为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方... 展开更多; 关键词 web页面数据表特征抽取支持向量机核函数; 在线阅读下载PDF 职称材料

海量大数据定向采样有差别挖掘算法仿真被引量：1: 6; 作者宁滔《现代电子技术》北大核心 2024年第9期164-168,共5页; 在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算... 展开更多; 关键词海量大数据网页抓取定向采样滤波处理去冗余粗糙集扩展差别矩阵决策规则; 在线阅读下载PDF 职称材料

基于语义的图像低层可视特征提取及应用被引量：2: 7; 作者韩冬梅王雯李博斐《计算机工程》 CAS CSCD 2014年第3期244-248,共5页; 为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型... 展开更多; 关键词语义网纹理特征边缘特征语义推理灰度共生矩阵多源地学数据; 在线阅读下载PDF 职称材料

医院网站日志挖掘数据预处理的研究被引量：1: 8; 作者蒙华苏静 +1 位作者李立峰翟玉兰《重庆理工大学学报（自然科学）》 CAS 北大核心 2019年第8期144-148,共5页; 数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算... 展开更多; 关键词医院网站日志挖掘数据预处理用户识别页面聚类相似度矩阵; 在线阅读下载PDF 职称材料

基于特征相似度计算的网页包装器自适应被引量：4: 9; 作者陈迎仁郭莹楠 +2 位作者郭享倪一涛陈星《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页; 随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加... 展开更多; 关键词网页数据抽取自适应包装器相似度计算网页特征; 在线阅读下载PDF 职称材料

题名基于结果模式的Deep Web数据抽取被引量：15: 1; 作者马安香张斌高克宁齐鹏张引; 机构东北大学信息科学与工程学院; 出处《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页; 基金国家自然科学基金项目(60773218) 辽宁省科学技术基金项目(20072031)~~; 文摘高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.; 关键词 DEEP web 数据集成数据抽取结果模式语义标注网页数据特征矩阵; Keywords Deep web data integration Deep web data extraction result pattern semantic annotation feature matrix of web page data; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种统一的Web新闻对象自动抽取方法被引量：4: 2; 作者刘伟严华梁; 机构中国科学技术信息研究所北京大学计算机科学技术研究所; 出处《计算机工程》 CAS CSCD 2012年第11期167-169,共3页; 基金国家"863"计划基金资助项目(2008AA01Z421) 中国科学技术信息研究所预研基金资助项目(YY-201103); 文摘提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。; 关键词 web数据抽取视觉特征序列标注网页模板新闻属性新闻对象; Keywords web data extraction visual feature sequence tagging web page template news attribute news object; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于Web日志挖掘的网页实时推荐算法研究被引量：3: 3; 作者俞辉; 机构中国石油大学计算机与通信工程学院; 出处《计算机工程与设计》 CSCD 北大核心 2008年第7期1691-1693,1697,共4页; 文摘网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力。该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度。该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响。试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值。; 关键词网络日志数据预处理会话编码动态矩阵网页推荐; Keywords web log data preprocessing session coding dynamic matrix page recommendation; 分类号 TP311.132 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于启发式信息的Deep Web结果模式获取方法: 4; 作者李明李秀兰; 机构兰州理工大学计算机与通信学院; 出处《计算机应用研究》 CSCD 北大核心 2011年第8期3026-3029,共4页; 基金甘肃省自然科学基金资助项目(0809RJZA018); 文摘获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。; 关键词 DEEPweb 结果模式网页数据特征矩阵启发式信息; Keywords Deep web result schema feature matrix of web page data heuristic information; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名Web页面中数据表的识别方法研究: 5; 作者车成逸马宗民焦晓龙; 机构东北大学信息科学与工程学院; 出处《计算机工程》 CAS CSCD 2012年第23期154-157,共4页; 基金国家自然科学基金资助项目(61073139); 文摘为提高Web数据表识别的准确性,提出一种基于支持向量机与混合核函数的数据表识别方法。给出表格的结构特征、内容特征以及行(列)相似特征,将多项式核函数和线性核函数组成混合核函数,利用其进行Web数据表的自动识别。实验结果表明,该方法在7个站点上,准确率和召回率的平均值为95.14%和95.69%。; 关键词 web页面数据表特征抽取支持向量机核函数; Keywords web page data table feature extraction Support Vector Machine（SVM） kernel function; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名海量大数据定向采样有差别挖掘算法仿真被引量：1: 6; 作者宁滔; 机构桂林电子科技大学计算机工程学院; 出处《现代电子技术》北大核心 2024年第9期164-168,共5页; 基金 (2021—2024)广西职业教育教学改革重点项目(GXGZJG2021A035)。; 文摘在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。; 关键词海量大数据网页抓取定向采样滤波处理去冗余粗糙集扩展差别矩阵决策规则; Keywords massive big data web page crawling directional sampling filtering processing redundancy removal rough set extended difference matrix decision rule; 分类号 TN919-34 [电子电信—通信与信息系统] TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于语义的图像低层可视特征提取及应用被引量：2: 7; 作者韩冬梅王雯李博斐; 机构上海财经大学信息管理与工程学院上海市金融信息技术研究重点实验室; 出处《计算机工程》 CAS CSCD 2014年第3期244-248,共5页; 基金国家自然科学基金资助项目"基于语义网的多源地学空间数据融合与挖掘研究"(41174007); 文摘为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型。以成都附近的断层为研究对象,进行语义推理验证,其解译结果与专家实地解译情况相符,初步验证该模型的可行性,使图像的机器分析结果更加贴近专业人员的目视解译,为地学研究数字化和遥感图像解译信息化提供参考。; 关键词语义网纹理特征边缘特征语义推理灰度共生矩阵多源地学数据; Keywords semantic web texture feature edge feature semantic reasoning Gray Level Co-occurrence matrix（GLCM） multi-source geosciences data; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名医院网站日志挖掘数据预处理的研究被引量：1: 8; 作者蒙华苏静李立峰翟玉兰; 机构广西医科大学第一附属医院计算机管理中心广西医科大学信息与管理学院教研科; 出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2019年第8期144-148,共5页; 基金广西高校科学研究技术项目(KY2015LX045) 广西医科大学青年科学基金资助项目(GXMUYSF201511); 文摘数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。; 关键词医院网站日志挖掘数据预处理用户识别页面聚类相似度矩阵; Keywords hospital web log mining data preprocessing user identification page clustering similarity matrix; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于特征相似度计算的网页包装器自适应被引量：4: 9; 作者陈迎仁郭莹楠郭享倪一涛陈星; 机构福州大学数学与计算机科学学院福建省网络计算与智能信息处理重点实验室(福州大学); 出处《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页; 基金国家重点研发计划(2017YFB1002000) 福建省自然科学基金杰青项目(2020J06014) 福建省自然科学基金项目(2018J07005)。; 文摘随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。; 关键词网页数据抽取自适应包装器相似度计算网页特征; Keywords web page data extraction Adaptation Wrapper Similarity calculation page features; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于结果模式的Deep Web数据抽取	马安香张斌高克宁齐鹏张引	《计算机研究与发展》 EI CSCD 北大核心	2009	15	在线阅读下载PDF 职称材料
2	一种统一的Web新闻对象自动抽取方法	刘伟严华梁	《计算机工程》 CAS CSCD	2012	4	在线阅读下载PDF 职称材料
3	基于Web日志挖掘的网页实时推荐算法研究	俞辉	《计算机工程与设计》 CSCD 北大核心	2008	3	在线阅读下载PDF 职称材料
4	基于启发式信息的Deep Web结果模式获取方法	李明李秀兰	《计算机应用研究》 CSCD 北大核心	2011	0	在线阅读下载PDF 职称材料
5	Web页面中数据表的识别方法研究	车成逸马宗民焦晓龙	《计算机工程》 CAS CSCD	2012	0	在线阅读下载PDF 职称材料
6	海量大数据定向采样有差别挖掘算法仿真	宁滔	《现代电子技术》北大核心	2024	1	在线阅读下载PDF 职称材料
7	基于语义的图像低层可视特征提取及应用	韩冬梅王雯李博斐	《计算机工程》 CAS CSCD	2014	2	在线阅读下载PDF 职称材料
8	医院网站日志挖掘数据预处理的研究	蒙华苏静李立峰翟玉兰	《重庆理工大学学报（自然科学）》 CAS 北大核心	2019	1	在线阅读下载PDF 职称材料
9	基于特征相似度计算的网页包装器自适应	陈迎仁郭莹楠郭享倪一涛陈星	《计算机科学》 CSCD 北大核心	2021	4	在线阅读下载PDF 职称材料