期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
集成搜索引擎的文本数据库选择 被引量:9
1
作者 孟卫一 吴宗寰 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期396-404,共9页
用户需要检索的信息往往分散存储在多个搜索引擎各自的数据库里 .对普通用户而言 ,访问多个搜索引擎并从返回的结果中分辨出确实有用的网页是一件费时费力的工作 .集成搜索引擎则可以提供给用户一个同时访问多个搜索引擎的集成环境 .集... 用户需要检索的信息往往分散存储在多个搜索引擎各自的数据库里 .对普通用户而言 ,访问多个搜索引擎并从返回的结果中分辨出确实有用的网页是一件费时费力的工作 .集成搜索引擎则可以提供给用户一个同时访问多个搜索引擎的集成环境 .集成搜索引擎能将其接收到的用户查询提交给底层的多个搜索引擎进行搜索 .作为一种搜索工具 ,集成搜索引擎具有如 WEB查询覆盖面比传统引擎更大 ,引擎有更好的可扩展性等优点 .讨论了解决集成搜索引擎的数据库选择问题的多种技术 .针对用户提交的查询要求 。 展开更多
关键词 搜索引擎 信息检索 WEB 方维网 文本数据库
在线阅读 下载PDF
大规模文本数据库中的短文分类方法 被引量:4
2
作者 王永恒 贾焰 杨树强 《计算机工程与应用》 CSCD 北大核心 2006年第22期5-7,共3页
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘... 信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。文本提出了一个新颖的短文分类算法。该算法基于文本语义特征图,并使用类似kNN的方法进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。 展开更多
关键词 文本挖掘 分类 短文 大规模文本数据库
在线阅读 下载PDF
面向中文文本数据库的信息抽取机制 被引量:2
3
作者 胡金化 胡运发 +1 位作者 周益群 许爱华 《小型微型计算机系统》 CSCD 北大核心 2002年第10期1161-1164,共4页
中文文本文件的句子中常包含有一些有价值的结构化数据 .本文提出了一种针对中文文本结构化信息的抽取机制 :抽取文本中的匹配模式 ,并将抽取后的匹配模式作为匹配模板放入知识库中 ,作为知识库中的规则 .并在此基础上提出了一种面向文... 中文文本文件的句子中常包含有一些有价值的结构化数据 .本文提出了一种针对中文文本结构化信息的抽取机制 :抽取文本中的匹配模式 ,并将抽取后的匹配模式作为匹配模板放入知识库中 ,作为知识库中的规则 .并在此基础上提出了一种面向文本数据库的一种新的信息查询机制 :以知识库中的规则作为基础 ,查询文本数据库中的数据时 ,先在知识库中找相应的规则 (即匹配模板 ) ,然后根据匹配模板在相应的文本数据库中查找相应的数据信息 . 展开更多
关键词 中文文本数据库 信息抽取机制 匹配模板 信息检索 知识库
在线阅读 下载PDF
海量文本数据库中的高效并行频繁项集挖掘方法 被引量:2
4
作者 王永恒 杨树强 贾焰 《计算机工程与科学》 CSCD 2007年第9期110-113,119,共5页
针对大规模文本数据库中频繁项集挖掘的特殊要求,本文提出了一种新的并行挖掘算法parFIM。parFIM以一种简单的数据结构H-Struct为基础,对数据进行纵向划分从而实现并行挖掘。算法同时考虑了去除短模式和减少重复模式。实验结果表明,par... 针对大规模文本数据库中频繁项集挖掘的特殊要求,本文提出了一种新的并行挖掘算法parFIM。parFIM以一种简单的数据结构H-Struct为基础,对数据进行纵向划分从而实现并行挖掘。算法同时考虑了去除短模式和减少重复模式。实验结果表明,parFIM能够很好地适用于大规模文本数据库中的频繁项集挖掘任务。 展开更多
关键词 文本挖掘 海量文本数据库 频繁项集 并行
在线阅读 下载PDF
基于Web的文本数据库检索系统的设计及其实现
5
作者 张建中 方正 刘业翔 《中南工业大学学报》 CSCD 北大核心 1999年第6期572-574,共3页
介绍了将现有文本数据库在Web 上建立检索系统的原则以及文本数据库在Web 上实现检索的机理和检索的方法.系统运行表明:系统结构合理、安全可靠、功能齐全、用户界面友好,是一个实用的系统.
关键词 INTERNET CGI WEB 文本数据库 检索系统 设计
在线阅读 下载PDF
大型文本数据库中分布式数据去重备份方法 被引量:5
6
作者 张仕学 《科学技术与工程》 北大核心 2018年第4期310-315,共6页
数据去重可删除备份过程中的冗余数据,节约存储资源与与网络带宽,是目前数据存储领域研究的重点问题。针对传统方法去重率和吞吐量低的问题,提出一种新的大型文本数据库中分布式数据去重备份方法。介绍了大型文本数据库中分布式数据去... 数据去重可删除备份过程中的冗余数据,节约存储资源与与网络带宽,是目前数据存储领域研究的重点问题。针对传统方法去重率和吞吐量低的问题,提出一种新的大型文本数据库中分布式数据去重备份方法。介绍了大型文本数据库中分布式数据去重方法基本思想,通过文件管理部分对数据片组中的扶贫数据进行查询和统计,给出数据片组路由策略,分析了数据预取过程。通过最终权值完成对数据块的排列,以恢复时间与恢复成本达到最小化为目的设计适应度函数。通过改进遗传方法对大型文本数据库中分布式扶贫数据进行备份。实验结果表明,所提方法有很高的去重率和吞吐量,且成本低,恢复速度快。 展开更多
关键词 文本数据库 分布式数据 去重 备份
在线阅读 下载PDF
篮球技战术多媒体数据库系统的研发 被引量:11
7
作者 陈健 姚颂平 《上海体育学院学报》 CSSCI 北大核心 2007年第3期59-63,68,共6页
采用文献资料和访谈法,对我国篮球技战术研究现状进行调查分析。发现:技战术分析研究的手段落后且实用性不强,已成为限制我国篮球运动发展的瓶颈。主要从总体设计、结构设计、功能实现等方面介绍以现代数据存储与管理理念建立的、便于... 采用文献资料和访谈法,对我国篮球技战术研究现状进行调查分析。发现:技战术分析研究的手段落后且实用性不强,已成为限制我国篮球运动发展的瓶颈。主要从总体设计、结构设计、功能实现等方面介绍以现代数据存储与管理理念建立的、便于教练员和运动员多重主题查询的篮球技战术多媒体数据库系统,该成果的应用不仅可减轻教练员管理技战术数据的工作强度,而且能提高数据管理的水平,为其后续的篮球技战术分析提供良好的研究平台。 展开更多
关键词 篮球 技战术 多媒体数据库系统 文本数据库 图像数据库 视频数据库
在线阅读 下载PDF
利用簇化技术优化超文本数据结构
8
作者 黄瑜 《广西科学》 CAS 1995年第3期28-33,共6页
介绍一种新的方法,该方法能够从原始图结构中通过一种具有例外性的簇化(AggregationClusteringwithExcePtions)手段,获得高层次的关系。这种方法使用的是一个基于已扩展的kernigher-... 介绍一种新的方法,该方法能够从原始图结构中通过一种具有例外性的簇化(AggregationClusteringwithExcePtions)手段,获得高层次的关系。这种方法使用的是一个基于已扩展的kernigher-line算法的直接探索法。 展开更多
关键词 簇化 例外 文本数据库
在线阅读 下载PDF
基于大数据的中国科技政策体系研究:理论与实践 被引量:13
9
作者 章刚勇 《中国软科学》 CSSCI CSCD 北大核心 2018年第6期172-180,共9页
本文思辨了新时期我国科技政策定义,进一步地以2006-2020年期间由我国或地方政府围绕《国家中长期科学和技术发展规划纲要》制定和将制定的科技政策为研究对象,基于政策制定主体隶属关系与政策群理论,厘清了我国科技政策体系;介绍了科... 本文思辨了新时期我国科技政策定义,进一步地以2006-2020年期间由我国或地方政府围绕《国家中长期科学和技术发展规划纲要》制定和将制定的科技政策为研究对象,基于政策制定主体隶属关系与政策群理论,厘清了我国科技政策体系;介绍了科技政策条文归集方法,根据维度设计了科技政策文本数据库的表结构;最后基于数据库,以文本分析法,分析了我国科技政策主要议题分布情况。 展开更多
关键词 科技政策 文本数据库 文本分析法
在线阅读 下载PDF
互关联后继树模型及其实现 被引量:10
10
作者 申展 江宝林 +2 位作者 张谧 唐磊 胡运发 《计算机应用与软件》 CSCD 北大核心 2005年第3期7-9,104,共4页
全文检索是文本数据库研究的核心 ,而全文检索的首要问题是全文检索模型的选择。本文介绍了一种新颖的全文检索模型———互关联后继树模型及其实现 ,并将该模型与传统的倒排表模型进行了比较 。
关键词 文本数据库 全文检索模型 互关联后继树模型 信息检索
在线阅读 下载PDF
一种全新的全文索引模型——后继数组模型 被引量:11
11
作者 刘学文 陶晓鹏 +1 位作者 于玉 胡运发 《软件学报》 EI CSCD 北大核心 2002年第1期150-158,共9页
提出了一种新的全文索引模型——后继数组模型,它结合了目前多个主流全文检索模型(倒排表模型、Pat数组模型等)的优点,提高了空间效率和时间效率,并得到了理论和实验的证明.
关键词 全文索引模型 后继数组模型 文本数据库 数据模型
在线阅读 下载PDF
全文索引的研究 被引量:10
12
作者 徐小刚 王俊杰 于玉 《计算机工程》 CAS CSCD 北大核心 2002年第2期101-103,共3页
在倒排表模型的基础上,从加快索引创建速度和改进索引动态结构两个方面着手,提出并实现了一种高效的索引创建算法和相应的索引模型,经过测试,新系统的索引创建速度可以和数据复制速度相提并论。而在空间效率上,也得到了一定程度的提高。
关键词 全文索引 倒排表模型 Pat数组 文本数据库 研究
在线阅读 下载PDF
同构化信息温度与热点发现应用初探
13
作者 周启海 黄涛 +1 位作者 张元新 吴红玉 《计算机科学》 CSCD 北大核心 2007年第11期113-117,共5页
本文对信息在生活中的受关注程度进行研究,给出了一种度量信息重要性的标尺——同构化信息温度,并将它与计算机、互联网技术相结合,分别构造了单文本热点挖掘系统、文本数据库热点挖掘系统和Web网页热点挖掘系统模型框架。
关键词 同构化信息温度 文本热点挖掘系统 文本数据库的热点挖掘系统 Web网页热点挖掘系统
在线阅读 下载PDF
面向特定划分的主题模型的设计与实现 被引量:1
14
作者 周凯文 杨智慧 +3 位作者 马会心 何震瀛 荆一楠 王晓阳 《计算机科学与探索》 CSCD 北大核心 2018年第7期1036-1046,共11页
利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系... 利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系。从生成模型的角度建模文本之间的联系,基于LDA设计了一个新的主题模型Db LDA(LDA over text database)。Db LDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力。由于Db LDA模型复杂,使用部分收缩变分贝叶斯法对Db LDA进行模型推断,加快了模型训练速度。在新闻数据库上对Db LDA及LDA进行了训练和测试,实验结果验证了Db LDA拥有更好的模型效果。 展开更多
关键词 主题模型 数据挖掘 文本数据库
在线阅读 下载PDF
三元互关联后继树在海量存储和全文检索中的应用
15
作者 马科 胡运发 《计算机应用与软件》 CSCD 北大核心 2004年第5期3-5,109,共4页
本文介绍了一种新的全文数据库的数据模型———三元互关联后继树 ,并探讨其在呈现指数增长的非结构化的海量信息的存储和检索中的应用。
关键词 全文检索 全文数据库 数据模型 三元互关联后继树 文本数据库
在线阅读 下载PDF
GPNIS──管网图文信息管理系统
16
作者 陈世林 刘绍中 《中国科学院研究生院学报》 CAS CSCD 1995年第1期91-96,共6页
图文管理是信息管理系统的一个重要方面。本文讨论一个以支持管网生产管理为目标的管网图文管理信息系统的设计思想。该系统采用相对独立的图文两个子系统且通过交换文件互相联系的方案。在管网图和管网文本数据库中,通过建立图文信息... 图文管理是信息管理系统的一个重要方面。本文讨论一个以支持管网生产管理为目标的管网图文管理信息系统的设计思想。该系统采用相对独立的图文两个子系统且通过交换文件互相联系的方案。在管网图和管网文本数据库中,通过建立图文信息的对应关系,从而提供“图到文”和“文到图”的信息检索方式。在图文两个子系统中,建立了管网的拓扑描述,以支持管网的拓扑查询、工况分析、故障处理及故障影响区域的图形显示。本文还提出了图文相关数据一致性概念,并由系统程序自动进行图文相关信息数据一致性维护。 展开更多
关键词 图形数据库 文本数据库 燃气管网 信息管理系统
在线阅读 下载PDF
浅析汉字识别技术在档案管理工作中的应用
17
作者 文惠元 《北京档案》 北大核心 1999年第1期21-22,共2页
几年前现代信息技术距离档案工作似乎还很遥远,转眼之间它已遍布各个大大小小的办公室,其风靡普及速度惊人,升级换代速度更令人叹为观止。电子计算机技术和现代通讯技术的迅猛发展不仅改变了档案管理的方式方法,而且震憾了传统的档... 几年前现代信息技术距离档案工作似乎还很遥远,转眼之间它已遍布各个大大小小的办公室,其风靡普及速度惊人,升级换代速度更令人叹为观止。电子计算机技术和现代通讯技术的迅猛发展不仅改变了档案管理的方式方法,而且震憾了传统的档案学理论。面对新浪潮的冲击,我们无处躲藏,按兵不动无异于坐以待毙,我们只有冲浪搏击及时应对才能迎来档案事业生存发展的曙光。鉴此,本刊将开展现代信息技术应用与电子文件专题研讨,文章提倡精悍实议,力戒泛泛空论,希望档案界同仁踊跃参加。 展开更多
关键词 汉字识别 档案管理 文本数据库 档案目录 纸质档案 全文检索 档案信息资源 档案编研成果 信息数据库 检索利用
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部