期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于HTML标记用途分析的网页正文提取技术 被引量:15
1
作者 常红要 朱征宇 +2 位作者 陈烨 张鹏 曾丽芳 《计算机工程与设计》 CSCD 北大核心 2010年第24期5187-5191,共5页
通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于... 通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。 展开更多
关键词 html网页 数据挖掘 内容抽取 噪音数据 元素删除法
在线阅读 下载PDF
有效HTML文本信息抽取方法的研究 被引量:15
2
作者 韩忠明 李文正 莫倩 《计算机应用研究》 CSCD 北大核心 2008年第12期3568-3571,3574,共5页
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以... 从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。 展开更多
关键词 网页 信息抽取 机器学习 统计
在线阅读 下载PDF
ASP.NET下利用动态网页技术生成静态HTML页面的方法 被引量:13
3
作者 白金牛 李慧萍 王培吉 《计算机应用与软件》 CSCD 北大核心 2008年第1期79-81,共3页
介绍了一种在ASP.NET环境下利用动态网页技术生成静态HTML页面的方法。利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点。这种技术对于访问量大的网站尤... 介绍了一种在ASP.NET环境下利用动态网页技术生成静态HTML页面的方法。利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点。这种技术对于访问量大的网站尤其适用,可以减轻服务器端运行程序和读取数据库的压力,提高了网站的数据存取效率,生成的静态页面也更利于搜索引擎收录。 展开更多
关键词 ASP.NET 动态页面 静态页面 C#
在线阅读 下载PDF
基于大模型的新闻媒体网页信息提取方法
4
作者 刘建文 万子建 +2 位作者 陈婷 刘汪洋 沈宜 《情报杂志》 北大核心 2025年第6期177-184,共8页
[研究目的]针对现有基于非视觉特征的网页信息提取技术存在的采集精度不高、难以满足复杂需求等问题,研究高效智能的网页信息提取技术,实现新闻媒体网页信息的快速准确提取。[研究方法]提出了一种基于大模型的新闻媒体网页信息提取方法... [研究目的]针对现有基于非视觉特征的网页信息提取技术存在的采集精度不高、难以满足复杂需求等问题,研究高效智能的网页信息提取技术,实现新闻媒体网页信息的快速准确提取。[研究方法]提出了一种基于大模型的新闻媒体网页信息提取方法,通过模型基座对比选型、数据集构建、监督微调、提示词工程等技术手段构建网页信息提取专用大模型,提升新闻媒体网页信息提取的准确率和效率。[研究结果/结论]通过多类新闻网页数据智能提取方案实验对比分析发现,基于开源大模型基座及监督微调构建的专用新闻媒体大模型,其信息提取结果平均准确率及平均F1值皆超过90%,相比现有网页信息提取方案具有更高的适用性。 展开更多
关键词 大语言模型 新闻网页 文本信息提取 html智能解析 网页要素智能提取 多语种识别 思维链
在线阅读 下载PDF
用动态HTML制作动态Web页面 被引量:2
5
作者 孙卫红 《计算机应用》 CSCD 1998年第9期25-27,共3页
动态HTML是IE4.0的新特征,使用动态HTML,作者可以动态地改变Web页面的形式与内容。本文通过介绍动态HTML,介绍了一些制作动态Web页面的实例与方法。
关键词 动态html WEB页面 浏览器 INTERNET网
在线阅读 下载PDF
URL模式与HTML结构相结合的平行网页获取方法 被引量:6
6
作者 刘奇 刘洋 孙茂松 《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑... 平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。 展开更多
关键词 平行网页获取 平行语料库 URL模式 html结构
在线阅读 下载PDF
Web页面主题信息抽取研究与实现 被引量:11
7
作者 刘艳敏 刘飚 +2 位作者 封化民 宋国森 方勇 《计算机工程与应用》 CSCD 北大核心 2006年第21期146-148,共3页
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页... Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。 展开更多
关键词 html 信息提取 页面结构分析 标记统计
在线阅读 下载PDF
基于文献利用数据的期刊论文定量评价研究 被引量:14
8
作者 何星星 武夷山 《情报杂志》 CSSCI 北大核心 2012年第8期98-102,共5页
传统期刊论文评价工作关注的是论文内部特征和引用情况,从新的视角提出以文献的利用数据(包括网页点击量、浏览量、下载量)及调整指标(点击下载率、下载引用率)来综合评价一篇文章的表现力,并利用《PLoS Biolo-gy》与F1000系统数据做了... 传统期刊论文评价工作关注的是论文内部特征和引用情况,从新的视角提出以文献的利用数据(包括网页点击量、浏览量、下载量)及调整指标(点击下载率、下载引用率)来综合评价一篇文章的表现力,并利用《PLoS Biolo-gy》与F1000系统数据做了实证分析,证明了上述指标的可行性,其表现也优于被引这一单一指标。 展开更多
关键词 科技论文评价 文献使用指标 被引频次 下载量 点击量
在线阅读 下载PDF
基于分块的网页信息解析器的研究与设计 被引量:55
9
作者 于满泉 陈铁睿 许洪波 《计算机应用》 CSCD 北大核心 2005年第4期974-976,共3页
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
关键词 WEB挖掘 html标记 视觉特征 网页分块
在线阅读 下载PDF
基于JSP技术的Web应用程序的开发 被引量:31
10
作者 张波 张福炎 《计算机应用研究》 CSCD 北大核心 2001年第5期99-101,共3页
对JSP技术进行了探讨,不仅对它的概念进行了较为详细的介绍,也阐述了它的架构及运行模型,研究了如何利用JSP技术开发Web应用程序,同时给出了设计开发基于JSP技术的PRISM报表管理系统的实例。
关键词 WEB 应用程序 开发 JSP技术 INTERNET
在线阅读 下载PDF
基于树自动机的网页数据抽取 被引量:6
11
作者 王茹 宋瀚涛 陆玉昌 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第9期790-793,共4页
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用... 为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 展开更多
关键词 数据抽取 树自动机 WEB网页 html
在线阅读 下载PDF
XML语言及其应用 被引量:2
12
作者 黄婉秋 黄筱霞 贾旭光 《北京工商大学学报(自然科学版)》 CAS 2002年第3期22-27,共6页
简要阐述了 XML语言的概念及特点 ,对它的语言结构进行了详细的分析 ,包括 DTD、XSL、XLL三部分 .并将 XML和 HTML进行了比较 ,同时也对它和数据库之间的关系进行了描述 .最后论述了
关键词 XML语言 应用 html Web页面语言 置标语言 语言结构 DTD XSL XLL 文档类型定义 可扩展格式语言
在线阅读 下载PDF
基于模块的网页设计技术 被引量:4
13
作者 张宏森 朱征宇 《计算机应用研究》 CSCD 北大核心 2002年第2期49-50,53,共3页
在信息资源迅速增长的今天 ,如何对Web上大量的信息进行高效地组织和维护 ,以及提高Web上搜索和浏览信息的速度和性能是我们面对的一个重要问题。从模块化的程序设计思想中得到启发 ,提出了一种模块化网页设计技术。该技术在网页快速制... 在信息资源迅速增长的今天 ,如何对Web上大量的信息进行高效地组织和维护 ,以及提高Web上搜索和浏览信息的速度和性能是我们面对的一个重要问题。从模块化的程序设计思想中得到启发 ,提出了一种模块化网页设计技术。该技术在网页快速制作、模块重用、数据一致性维护。 展开更多
关键词 模块化网页 html语言 浏览器 WEB服务器 搜索引擎 网页设计
在线阅读 下载PDF
一种本体构造方法及其在Web页面建模中的应用 被引量:1
14
作者 杨德仁 顾君忠 《北京工业大学学报》 CAS CSCD 北大核心 2006年第9期853-858,共6页
为了便于机器理解和有效挖掘Web内容,为Web页面结构及查询接口进行了建模.采用基于元本体的分层体系结构,分离了本体与语境,分层了概念和实例,是一个逐层实例化的过程.与数据库模式一样,Web页面结构及查询接口也由一些基本组件构成,... 为了便于机器理解和有效挖掘Web内容,为Web页面结构及查询接口进行了建模.采用基于元本体的分层体系结构,分离了本体与语境,分层了概念和实例,是一个逐层实例化的过程.与数据库模式一样,Web页面结构及查询接口也由一些基本组件构成,这些组件及其之间的关系能灵活设置.模型的层次分明,具有良好的共享性和扩展性.利用基于元本体的分层体系结构,不但能为页面结构和查询接口建模,而且利用这种本体与语境相分离的机制能为查询结果页面之间的语义关系建模,提高搜索引擎的检索精度. 展开更多
关键词 本体方法学 html页面 模型
在线阅读 下载PDF
一种基于块分析的网页去噪音方法 被引量:8
15
作者 刘晨曦 吴扬扬 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期149-152,共4页
一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的... 一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性。 展开更多
关键词 网页 噪音 信息提取 html
在线阅读 下载PDF
Web数据库信息发布模板技术的研究 被引量:3
16
作者 唐春明 何建民 《合肥工业大学学报(自然科学版)》 CAS CSCD 2002年第2期304-307,共4页
在基于 Web的数据库信息发布技术中 ,为有效快捷地显示统一风格的动态页面 ,增加信息发布内容的灵活性 ,提出了 H TML模板的思想 ,详细介绍了模板的建立、调用与显示过程。 HTML模板技术的应用使编程方法简洁清晰 ,减少了开发设计的工作... 在基于 Web的数据库信息发布技术中 ,为有效快捷地显示统一风格的动态页面 ,增加信息发布内容的灵活性 ,提出了 H TML模板的思想 ,详细介绍了模板的建立、调用与显示过程。 HTML模板技术的应用使编程方法简洁清晰 ,减少了开发设计的工作量 ,并进一步提高系统的可维护性。 展开更多
关键词 html模板 ASP 脚本文件 WEB 数据库信息发布 计算机网络
在线阅读 下载PDF
Web汉语料的智能抽取与词汇切分 被引量:4
17
作者 陈展荣 曾毅平 《计算机工程与设计》 CSCD 北大核心 2005年第6期1422-1424,共3页
提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术... 提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现。测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离。 展开更多
关键词 Web语料 html格式 包装器 Web页面抓取器 词汇分离器
在线阅读 下载PDF
主题网页标签树邻接矩阵识别算法研究 被引量:2
18
作者 宋军 杨晓夫 +1 位作者 李益才 王家伟 《计算机科学》 CSCD 北大核心 2016年第6期316-320,共5页
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题... 随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。 展开更多
关键词 网页结构 html标签 标签树邻接矩阵
在线阅读 下载PDF
基于模板类的动态网页的实现 被引量:1
19
作者 吕律 刘光昌 《计算机应用与软件》 CSCD 北大核心 2004年第12期53-54,104,共3页
网页界面设计和程序的分离是简化网页维护的必由之路。本文在对网页界面设计和程序的分离中的问题进行分析的基础上 ,提出将模板技术应用于动态网页中来实现网页界面设计和程序的分离。当要对网页的界面进行变动时 ,只需修改HTML模板 ,... 网页界面设计和程序的分离是简化网页维护的必由之路。本文在对网页界面设计和程序的分离中的问题进行分析的基础上 ,提出将模板技术应用于动态网页中来实现网页界面设计和程序的分离。当要对网页的界面进行变动时 ,只需修改HTML模板 ,简化了网页的维护。 展开更多
关键词 动态网页 模板类 可视化编辑器 网页界面
在线阅读 下载PDF
Java Applet和Java Servlet在网页制作中的运用 被引量:1
20
作者 付献祯 徐迎晓 《上海大学学报(自然科学版)》 CAS CSCD 1999年第S1期89-92,共4页
Java Applet是运行在浏览器环境下的Java程序,Java Servlet是运行在服务器环境下的Java程序,灵活运行Java a Applet和Java Servlet可以制作出具有各种特效的动态网页.本文首先概述了Java Applet的作用,然后论述用Java Applet插入HTML文... Java Applet是运行在浏览器环境下的Java程序,Java Servlet是运行在服务器环境下的Java程序,灵活运行Java a Applet和Java Servlet可以制作出具有各种特效的动态网页.本文首先概述了Java Applet的作用,然后论述用Java Applet插入HTML文档制作动态网页的一般方法,并介绍了Java Servlet的原理. 展开更多
关键词 JAVAAPPLET JAVASERVLET 网页 Java html
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部