期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于XML的Web文本挖掘模型的研究与设计 被引量:4
1
作者 申丽君 孟凡荣 《计算机工程与设计》 CSCD 北大核心 2007年第10期2287-2290,共4页
Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点。而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题。介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型... Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点。而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题。介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型的各个组成部分,给出了该模型的特点。 展开更多
关键词 web数据挖掘 数据挖掘技术 半结构化 数据源 web文本挖掘 基于XML的web文本挖掘模型
在线阅读 下载PDF
基于本体的Web文本挖掘与信息检索 被引量:8
2
作者 艾伟 孙四明 张峰 《计算机工程》 CAS CSCD 北大核心 2010年第22期75-77,80,共4页
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。... 针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。 展开更多
关键词 本体 web文本挖掘 向量空间模型 信息检索
在线阅读 下载PDF
Web文本挖掘系统及其分类算法的研究与实现 被引量:10
3
作者 沈记全 唐菁 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2003年第17期37-39,共3页
介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮... 介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。 展开更多
关键词 web文本挖掘 知识发现 文本分类 信息导航
在线阅读 下载PDF
Web文本挖掘系统及其关键技术研究 被引量:11
4
作者 钟艳花 余伟红 余永权 《计算机工程与应用》 CSCD 北大核心 2003年第34期167-169,196,共4页
随着网络信息的迅猛发展,信息量日益增加,怎样从海量的Internet上获取有用信息,WEB文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程,论文对文本中所涉及的关键技术,包括K-最近邻... 随着网络信息的迅猛发展,信息量日益增加,怎样从海量的Internet上获取有用信息,WEB文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程,论文对文本中所涉及的关键技术,包括K-最近邻参照法模型、基于隐马尔科夫模型(HMM)的信息抽取、机器学习方法,进行了研究和探讨,并且给出了基于信息抽取的文本挖掘系统的设计实现和下一步的研究重点。 展开更多
关键词 web文本挖掘 K-最近邻参照法 信息抽取 隐马尔科夫模型(HMM)
在线阅读 下载PDF
聚类分析在Web文本挖掘中的应用 被引量:5
5
作者 徐海霞 《情报杂志》 CSSCI 北大核心 2004年第12期99-101,共3页
在区分Web挖掘与数据挖掘的基础上 ,较详细地分析了Web文本挖掘的过程 ,并给出了一个具体的Web文本挖掘模型。重点在介绍聚类分析的基础上 ,以PCCS为算法原型分析了聚类分析在Web文本挖掘中的具体应用。
关键词 web文本挖掘 web挖掘 数据挖掘 算法 聚类分析 模型 过程 具体应用 基础 区分
在线阅读 下载PDF
多监测点数据采集的Web文本挖掘算法及应用 被引量:1
6
作者 黎永壹 王远干 《实验室研究与探索》 CAS 北大核心 2013年第6期87-90,共4页
在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采... 在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采集体系。通过对多监测点海洋数据的处理实例表明,基于网页列表页的抽取算法有效地抽取到了准确数据项,解决了嵌套数据记录、自动抽取和多台计算机协同工作问题,提高了数据采集效率。 展开更多
关键词 web文本挖掘 多监测点 数据采集 抽取算法
在线阅读 下载PDF
Web文本挖掘系统及聚类分析算法 被引量:7
7
作者 朱克斌 唐菁 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2004年第13期138-139,183,共3页
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快... 给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本 信息导航,获取重要的知识。 展开更多
关键词 web文本挖掘 知识发现 文本聚类
在线阅读 下载PDF
中文Web文本挖掘系统WebTextMiner开发 被引量:1
8
作者 魏松 钟义信 王翔英 《计算机应用研究》 CSCD 北大核心 2006年第6期211-213,共3页
W eb文本挖掘系统的开发对W eb文本挖掘的研究有着很大的推进作用。因此在对基于SVM的中文网页分类器性能研究的基础上,根据研究和实用的需要,实现了一个性能较好的中文W eb文本挖掘系统。
关键词 web文本挖掘 支持向量机 K-最近邻
在线阅读 下载PDF
基于Web文本挖掘算法预防现实危害的研究 被引量:3
9
作者 吴威 《信息网络安全》 2016年第9期40-44,共5页
随着互联网的快速普及,人们已经习惯利用互联网进行交流。由于互联网存在信息交流快速、社会反馈和社会规范缺乏等特性,人们交流也变得更加自由和极端,表达的情绪也更加真实。这导致人们的注意力主要集中在信息本身,而忽略社会规则。人... 随着互联网的快速普及,人们已经习惯利用互联网进行交流。由于互联网存在信息交流快速、社会反馈和社会规范缺乏等特性,人们交流也变得更加自由和极端,表达的情绪也更加真实。这导致人们的注意力主要集中在信息本身,而忽略社会规则。人们在网上发表的负面言论,往往是一种负面情绪的表达,这种情绪积累到一定程度时,很可能演变为现实危害。文章主要介绍如何利用Web文本挖掘技术及基于朴素贝叶斯分类器的EM算法对Web文本数据进行情感分析,将情感分为正面、中性和负面,并且对负面信息进行归类、分析和预警,以预防现实危害的发生。 展开更多
关键词 web文本挖掘 情感分析 现实危害
在线阅读 下载PDF
Web概念挖掘中标引源加权方案初探 被引量:32
10
作者 侯汉清 章成志 郑红 《情报学报》 CSSCI 北大核心 2005年第1期87-92,共6页
通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、... 通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段以及HTML标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值.在我们的Web文本挖掘系统中,进行加权的对比实验表明,此权重方案优于前人的方案. 展开更多
关键词 标引 权方 学科 词频统计 教育 文章标题 题名 web文本挖掘 中文网页 网页内容
在线阅读 下载PDF
网络教育资源Web挖掘研究 被引量:2
11
作者 何玉香 曹丽颖 宋志恒 《天津师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期77-80,共4页
针对网络教育资源建设中存在的问题,着重对网络教育资源的获取、分类和标准化描述模型进行了研究.在分析Web挖掘技术和任务分类的基础上,提出了网络教育资源的Web文本挖掘、模型及其相关算法,将数据挖掘技术应用到网络教育领域,有助于... 针对网络教育资源建设中存在的问题,着重对网络教育资源的获取、分类和标准化描述模型进行了研究.在分析Web挖掘技术和任务分类的基础上,提出了网络教育资源的Web文本挖掘、模型及其相关算法,将数据挖掘技术应用到网络教育领域,有助于在网络上获取高品质的网络教育资源,一定程度上解决了网络教育资源获取缺乏智能的问题. 展开更多
关键词 网络教育资源 web文本挖掘 模型
在线阅读 下载PDF
Web文本聚类算法WTCA的研究与实现 被引量:1
12
作者 郑煜 钱榕 《计算机工程与应用》 CSCD 北大核心 2007年第4期170-172,共3页
提出了一种新的Web文本聚类算法WTCA——基于自组织特征映射神经网络(SOM)的聚类算法。该算法分为训练SOM网络及聚类分析两个阶段,具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪音能力强。该算法应用到现... 提出了一种新的Web文本聚类算法WTCA——基于自组织特征映射神经网络(SOM)的聚类算法。该算法分为训练SOM网络及聚类分析两个阶段,具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪音能力强。该算法应用到现代远程教育网,可以对各类远程教育站点上收集的文本资料信息自动进行聚类分析;从海量Web文本信息源中快速有效地获取重要的知识。 展开更多
关键词 web文本挖掘 文本聚类 非结构化数据挖掘结构模型 自组织特征映射
在线阅读 下载PDF
一种面向e-Science环境的多领域Web文本特征抽取模型
13
作者 翁彧 胡长军 +1 位作者 席强 张学春 《小型微型计算机系统》 CSCD 北大核心 2011年第1期17-23,共7页
传统领域信息抽取方法多依赖领域词典实现文本特征的发现,既不便于实验复现,也不易于其在多领域环境中移植与推广,严重制约了模型的应用范围.针对上述不足,提出一种适用于e-Science环境的多领域Web文本特征抽取模型(简称e-WTDE).该模型... 传统领域信息抽取方法多依赖领域词典实现文本特征的发现,既不便于实验复现,也不易于其在多领域环境中移植与推广,严重制约了模型的应用范围.针对上述不足,提出一种适用于e-Science环境的多领域Web文本特征抽取模型(简称e-WTDE).该模型将无词典分词技术引入多领域文本特征发现过程,摆脱了对于领域词典的依赖;借助对领域主题及其具体事件中共性与个性特征的抽取与分类,模型动态追踪领域事件发生及其发展变化,并最终形成多个区域性数据中心;通过对各数据中心中领域知识的协同调度,有力提高了领域信息在全局范围内的利用效率.验证实验中分别对多领域特征抽取、主题特征动态追踪以及领域知识协同调度予以有效性验证,并进一步证明了模型的实用效果. 展开更多
关键词 E-SCIENCE环境 特征发现 多领域数据模型 web文本挖掘
在线阅读 下载PDF
基于Web数据挖掘的信息获取系统的研究及设计 被引量:3
14
作者 潘静 饶若楠 《计算机工程》 CAS CSCD 北大核心 2004年第B12期136-138,共3页
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web文本挖掘技术的分析。同 时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web文本挖掘的相关技术实现在We... 首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web文本挖掘技术的分析。同 时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web文本挖掘的相关技术实现在Web上获取信 息的应用。 展开更多
关键词 数据挖掘 web信息搜索 web文本挖掘 文本处理
在线阅读 下载PDF
基于XML和ANN的Web文本智能检索研究 被引量:1
15
作者 张标 何国辉 《计算机工程与设计》 CSCD 北大核心 2006年第16期2973-2975,共3页
传统的网络信息检索技术如搜索引擎存在一些不足,一方面它只是将信息搜寻出来,不能发现隐藏在数据背后的知识;另一方面其采集软件在采集数据时缺乏人工干预,智能性不强,导致信息利用率不高。针对传统的Web搜索引擎存在的上述问题,结合We... 传统的网络信息检索技术如搜索引擎存在一些不足,一方面它只是将信息搜寻出来,不能发现隐藏在数据背后的知识;另一方面其采集软件在采集数据时缺乏人工干预,智能性不强,导致信息利用率不高。针对传统的Web搜索引擎存在的上述问题,结合Web文本挖掘、XML、BP神经网络在数据处理方面的长处,提出了一个具有一定智能的Web文本信息检索模型,以使其具有较高的信息利用率。 展开更多
关键词 web文本挖掘 web信息检索 可扩展标记语言 人工神经网络 向后传播误差算法
在线阅读 下载PDF
用于Web文档聚类的基于相似度的软聚类算法 被引量:6
16
作者 姜亚莉 关泽群 《计算机工程》 CAS CSCD 北大核心 2006年第2期59-61,共3页
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-means的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。
关键词 web文本挖掘 文本聚类 软聚类 相似度
在线阅读 下载PDF
面向主题的文本层次模型研究
17
作者 章成志 《情报杂志》 CSSCI 北大核心 2004年第4期2-4,8,共4页
针对当前Web文本挖掘工具的不足之处 ,提出了一种基于层次结构、面向主题挖掘的模型 ,即文本层次模型TLM ,给出该模型中各层次含义、层间关系及实现方法 ,描述了各层中所包含的噪声及过滤方法 ,介绍了利用该模型进行基于概念语义网络的... 针对当前Web文本挖掘工具的不足之处 ,提出了一种基于层次结构、面向主题挖掘的模型 ,即文本层次模型TLM ,给出该模型中各层次含义、层间关系及实现方法 ,描述了各层中所包含的噪声及过滤方法 ,介绍了利用该模型进行基于概念语义网络的自动标引和自动分类的研究情况 ,总结了TLM模型的优点和有待改进的地方。 展开更多
关键词 web文本挖掘 主题挖掘 文本层次模型 TLM 概念语义网络 自动标引 自动分类 关键词
在线阅读 下载PDF
基于关联规则的微博主题搜索策略研究 被引量:1
18
作者 何跃 王迪 张丽丽 《情报杂志》 CSSCI 北大核心 2013年第6期131-136,共6页
在Web2.0时代,微博已成为一个有重要价值的信息平台。为了利用微博平台为用户提供较好的搜索服务,论文应用关联规则挖掘技术识别微博相关话题,利用相关话题扩充机制和话题语义相似度度量,构建微博搜索索引文件。实验分析表明:相对于传... 在Web2.0时代,微博已成为一个有重要价值的信息平台。为了利用微博平台为用户提供较好的搜索服务,论文应用关联规则挖掘技术识别微博相关话题,利用相关话题扩充机制和话题语义相似度度量,构建微博搜索索引文件。实验分析表明:相对于传统的关键词搜索策略,论文提出的搜索策略能从浩瀚的微博信息平台中找到更加有效的搜索结果。 展开更多
关键词 web文本挖掘微博搜索 用户影响力 关联规则 潜在语义分析
在线阅读 下载PDF
维吾尔文网页正文抽取系统的研究与实现 被引量:3
19
作者 蔡李 单艳 +1 位作者 薛化建 苏国平 《计算机工程与设计》 CSCD 北大核心 2012年第2期551-555,共5页
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过... 从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。 展开更多
关键词 维吾尔文 网页正文抽取 语料库 文本句长特征 web文本挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部