期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
基于向量空间模型和专利文献特征的相似专利确定方法 被引量:12
1
作者 陈芨熙 顾新建 +1 位作者 陈国海 魏江 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第10期1848-1852,1869,共6页
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性... 为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性值,采用基于向量空间模型的文本分类技术,以专利名称和专利摘要的加权相似度作为专利文献分类的依据,对专利文献进行分类,然后在类内根据专利文献特征的相似性确定相似专利,并根据企业的实际应用需求,分析专利文献要素权重确定的几种方法.应用示例验证了该方法能够有效地进行专利分类和相似专利检索. 展开更多
关键词 专利文献 专利检索 文本分类 向量空间模型
在线阅读 下载PDF
中文文献的层次分类方法 被引量:22
2
作者 战学刚 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第6期20-25,共6页
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将... 现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量。 展开更多
关键词 文献分类 向量空间模型 层次分类 中文文献
在线阅读 下载PDF
基于三维文档向量的自适应话题追踪器模型 被引量:11
3
作者 张辉 周敬民 +1 位作者 王亮 赵莉萍 《中文信息学报》 CSCD 北大核心 2010年第5期70-76,共7页
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道... 话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。 展开更多
关键词 话题追踪 话题模型 三维文档向量模型 自适应KNN追踪器
在线阅读 下载PDF
文本分类系统关键技术 被引量:7
4
作者 谢科 张辉 +1 位作者 陈鹏 庞斌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期123-126,共4页
从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理... 从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。 展开更多
关键词 文本分类 夹角余弦 向量空间模型 特征
在线阅读 下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
5
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 TFIDF 文本分类 特征加权 向量空间模型
在线阅读 下载PDF
基于词频统计的个性化信息过滤技术 被引量:12
6
作者 张国印 陈先 皮鹏 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第1期63-67,共5页
对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典... 对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典的构建及词条权值调整等环节.然后提出了一种基于词频统计的个性化文档过滤算法,该算法对传统的向量空间模型法做了改进,使之能够更好地计算文档与用户个性词典之间的相关度,根据用户的兴趣爱好对文档进行相关度的过滤、排序,并给出了实验数据.实验结果表明该方法较好地解决了智能搜索引擎中Internet信息过滤、排序的问题. 展开更多
关键词 搜索引擎 文档过滤 向量空间模型法 词频统计 个性词典
在线阅读 下载PDF
基于BP神经网络的文档聚类研究 被引量:7
7
作者 田萱 刘希玉 孟强 《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页
1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之... 1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. 展开更多
关键词 Internet BP神经网络 文档聚类 数据挖掘 信息检索系统 查准率 查全率
在线阅读 下载PDF
一种基于关键特征的搜索引擎结果聚类算法 被引量:4
8
作者 张辉 谢科 +1 位作者 庞斌 吴辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第6期739-742,共4页
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分... 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性. 展开更多
关键词 搜索引擎 算法 特征提取 文档聚类 向量空间模型VSM KFC算法
在线阅读 下载PDF
SVG和Ajax技术在电网分析与辅助决策支持系统中的应用 被引量:18
9
作者 郭挺 谢敏 +1 位作者 刘明波 林辉 《电力系统保护与控制》 EI CSCD 北大核心 2012年第4期83-89,共7页
电网分析与辅助决策系统的各个子系统与实时数据平台之间需要进行复杂而频繁的数据交互。基于oracle的实时数据平台中的数据存储位置和组织形式复杂且不具有直观性。良好的图形界面将大大提高电网分析与辅助决策系统的易用性和用户友好... 电网分析与辅助决策系统的各个子系统与实时数据平台之间需要进行复杂而频繁的数据交互。基于oracle的实时数据平台中的数据存储位置和组织形式复杂且不具有直观性。良好的图形界面将大大提高电网分析与辅助决策系统的易用性和用户友好性。在简要介绍电力图形系统研究现状的基础上,探讨了电力系统中广泛应用的可缩放矢量图形(Scalable Vector Graphics,SVG)技术;通过基于文档对象模型(Document Object Model,DOM)的脚本编程实现了SVG图形与用户的良好交互;通过建立Ajax(Asynchronous JavaScript and XML)引擎,实现了电气模型图形信息与实时数据的关联动态刷新。该方案在电网分析与辅助决策支持系统的应用中取得了良好的效果。 展开更多
关键词 电网分析与辅助决策系统 图形系统 SVG DOM AJAX
在线阅读 下载PDF
基于HTML文档结构的向量空间模型的改进 被引量:10
10
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型链接文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
在线阅读 下载PDF
可缩放矢量图形技术在电力系统故障诊断软件包中的应用 被引量:7
11
作者 董泰福 文福拴 廖志伟 《华北电力大学学报(自然科学版)》 CAS 北大核心 2007年第4期38-42,共5页
图形是电力系统在线故障诊断软件的重要组成部分。设计良好的图形可以增强电力系统故障诊断软件包的易用性和互操作性。在分析现代电力系统高级应用软件图形功能发展方向的基础上,介绍了具有广泛应用前景的可缩放矢量图形(SVG)技术和文... 图形是电力系统在线故障诊断软件的重要组成部分。设计良好的图形可以增强电力系统故障诊断软件包的易用性和互操作性。在分析现代电力系统高级应用软件图形功能发展方向的基础上,介绍了具有广泛应用前景的可缩放矢量图形(SVG)技术和文档对象模型(DOM)技术,探讨了SVG和DOM技术在电力系统软件图形化中的具体应用,并在所开发的电力系统故障诊断软件包中进行了实现,取得了很好的效果。 展开更多
关键词 可缩放矢量图形 文档对象模型 电力系统故障诊断系统 互操作
在线阅读 下载PDF
基于核方法的XML文档自动分类 被引量:14
12
作者 杨建武 《计算机学报》 EI CSCD 北大核心 2011年第2期353-359,共7页
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接... 支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果. 展开更多
关键词 XML文档 文档分类 核函数 支持向量机 文档模型
在线阅读 下载PDF
基于Q/A与文档库的智能课程答疑系统 被引量:3
13
作者 叶忠杰 陈庆章 《计算机工程与设计》 CSCD 北大核心 2008年第10期2692-2694,共3页
评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档... 评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档作了预处理,使搜索效率明显提高。同时系统基于课程开发,关键词的词汇量少而精确,使得语义理解的处理得以简化。 展开更多
关键词 智能答疑 召回率 向量空间模型 文档预处理 文档相似度
在线阅读 下载PDF
基于分级神经网络的Web文档模糊聚类技术 被引量:3
14
作者 雷景生 马军 靳婷 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1695-1699,共5页
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法... 给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类. 展开更多
关键词 向量空间模型 文档聚类 自组织网络 模糊C—Means
在线阅读 下载PDF
融合模拟退火的遗传算法在文档聚类中的应用 被引量:2
15
作者 白曦 吕晓枫 孙吉贵 《计算机工程与应用》 CSCD 北大核心 2006年第23期144-148,共5页
为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来... 为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来。实验表明,使用该混合算法对文档进行聚类,不仅搜索效率得到了提高,而且准确度优于使用传统的遗传算法。 展开更多
关键词 布尔模型 向量空间模型 文档聚类 遗传算法 模拟退火
在线阅读 下载PDF
一种初值优化的K-均值文档聚类算法(英文) 被引量:2
16
作者 陈媛媛 屈志毅 +1 位作者 张恒龙 廖绍雯 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期206-210,共5页
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种... K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果. 展开更多
关键词 文档聚类 K-均值 向量空间模型 划分聚类算法
在线阅读 下载PDF
Web挖掘技术研究 被引量:21
17
作者 张蓉 《计算机工程》 EI CAS CSCD 北大核心 2006年第15期4-6,共3页
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该... 随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。 展开更多
关键词 WEB挖掘 日志文件 文档聚类 矢量空间模型 关联规则
在线阅读 下载PDF
基于文本主题相似性的专题文献检索结果的聚类分析 被引量:4
18
作者 王秀艳 崔雷 《情报学报》 CSSCI 北大核心 2011年第5期456-463,共8页
在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信息检索领域的重要课题之一。本文以一个比较狭小的主题(脊髓损伤)为文献查询提问,探索利用原数据库中... 在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信息检索领域的重要课题之一。本文以一个比较狭小的主题(脊髓损伤)为文献查询提问,探索利用原数据库中提供的论文主题相似性信息对检索到的文献记录进行聚类的方法,并对每个类别赋予类别标签。本文①利用生物医学权威文献数据库Medline,分别检索PubMed中有关脊髓损伤的部分文献(源文献),实际操作中我们抽取近两年发表的有关脊髓损伤的1906篇文献中前50篇;②利用PubMed中的"相关文献"功能分别检索出源文献的相关文献(共5108篇),筛选出频次较高的相关文献(出现频次大于或等于5次,共31篇);③形成源文献和相关文献的关联矩阵,根据该矩阵对来源文献进行聚类分析;④分别采用人工分析和主题词的向量空间模型算法提取各类的文献内容或类标签,初步评价分类结果的正确性。经过基于相似性的聚类分析,可以将脊髓损伤的源文献分为3个大类,对比人工分析和主题词向量空间模型方法对来源文献的内容提取,二者基本相符。就本文研究涉及的主题而言,利用文献数据库中提供的论文相关性信息对检索结果进行再次分类的方法是可行的。 展开更多
关键词 相关文献 文本分类 聚类分析 脊髓损伤 向量空间模型 特征项频率 文档频率
在线阅读 下载PDF
一种快速文本归类算法的设计与实现 被引量:1
19
作者 高影繁 马润波 刘玉树 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第12期1069-1072,共4页
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术... 为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类.在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验.结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法. 展开更多
关键词 类别特征库 类别特征权重向量模型 压缩文档向量表示
在线阅读 下载PDF
一种基于混合神经网络的Web文档聚类算法 被引量:1
20
作者 雷景生 伍庆清 王平 《计算机工程》 EI CAS CSCD 北大核心 2005年第1期12-13,16,共3页
针对Web文档的特点,提出了一种多层向量空间模型,用来确定Web文档特征词的权重,然后给出了一种基于混合神经网络的文档聚类算法。实验结果表明,所提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确... 针对Web文档的特点,提出了一种多层向量空间模型,用来确定Web文档特征词的权重,然后给出了一种基于混合神经网络的文档聚类算法。实验结果表明,所提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类。 展开更多
关键词 向量空间模型 文档聚类 自组织网络 模糊C-Means
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部