-
题名集成搜索引擎的文本数据库选择
被引量:9
- 1
-
-
作者
孟卫一
吴宗寰
-
机构
纽约州立大学计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第4期396-404,共9页
-
基金
US NSF基金提供部分资助! (IIS-990 2 872 )
-
文摘
用户需要检索的信息往往分散存储在多个搜索引擎各自的数据库里 .对普通用户而言 ,访问多个搜索引擎并从返回的结果中分辨出确实有用的网页是一件费时费力的工作 .集成搜索引擎则可以提供给用户一个同时访问多个搜索引擎的集成环境 .集成搜索引擎能将其接收到的用户查询提交给底层的多个搜索引擎进行搜索 .作为一种搜索工具 ,集成搜索引擎具有如 WEB查询覆盖面比传统引擎更大 ,引擎有更好的可扩展性等优点 .讨论了解决集成搜索引擎的数据库选择问题的多种技术 .针对用户提交的查询要求 。
-
关键词
搜索引擎
信息检索
WEB
方维网
文本数据库
-
Keywords
metasearch, information resource discovery, search engine, information retrieval
-
分类号
G354.4
[文化科学—情报学]
TP311.135
[自动化与计算机技术—计算机软件与理论]
-
-
题名大规模文本数据库中的短文分类方法
被引量:4
- 2
-
-
作者
王永恒
贾焰
杨树强
-
机构
国防科技大学计算机学院网络研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第22期5-7,共3页
-
基金
国家863高技术研究发展计划资助项目(编号:2004AA112020
2003AA115210
2003AA111020)
-
文摘
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。文本提出了一个新颖的短文分类算法。该算法基于文本语义特征图,并使用类似kNN的方法进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
-
关键词
文本挖掘
分类
短文
大规模文本数据库
-
Keywords
text mining,classification,short document,very large text database
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向中文文本数据库的信息抽取机制
被引量:2
- 3
-
-
作者
胡金化
胡运发
周益群
许爱华
-
机构
复旦大学计算机科学与信息技术系上海(国际)数据库研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2002年第10期1161-1164,共4页
-
基金
国家自然科学基金资助项目电子图书馆的相关关键技术 ( 6 99330 10 )的资助
-
文摘
中文文本文件的句子中常包含有一些有价值的结构化数据 .本文提出了一种针对中文文本结构化信息的抽取机制 :抽取文本中的匹配模式 ,并将抽取后的匹配模式作为匹配模板放入知识库中 ,作为知识库中的规则 .并在此基础上提出了一种面向文本数据库的一种新的信息查询机制 :以知识库中的规则作为基础 ,查询文本数据库中的数据时 ,先在知识库中找相应的规则 (即匹配模板 ) ,然后根据匹配模板在相应的文本数据库中查找相应的数据信息 .
-
关键词
中文文本数据库
信息抽取机制
匹配模板
信息检索
知识库
-
Keywords
information extracting
pattern template
information retrieval
knowledge base
Chinese text database
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名海量文本数据库中的高效并行频繁项集挖掘方法
被引量:2
- 4
-
-
作者
王永恒
杨树强
贾焰
-
机构
国防科技大学计算机学院
-
出处
《计算机工程与科学》
CSCD
2007年第9期110-113,119,共5页
-
基金
国家863计划资助项目(2004AA112020
2003AA115210
2003AA111020)
-
文摘
针对大规模文本数据库中频繁项集挖掘的特殊要求,本文提出了一种新的并行挖掘算法parFIM。parFIM以一种简单的数据结构H-Struct为基础,对数据进行纵向划分从而实现并行挖掘。算法同时考虑了去除短模式和减少重复模式。实验结果表明,parFIM能够很好地适用于大规模文本数据库中的频繁项集挖掘任务。
-
关键词
文本挖掘
海量文本数据库
频繁项集
并行
-
Keywords
text mining
very large text database
frequent itemset
parallel
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Web的文本数据库检索系统的设计及其实现
- 5
-
-
作者
张建中
方正
刘业翔
-
机构
中南工业大学图书馆
-
出处
《中南工业大学学报》
CSCD
北大核心
1999年第6期572-574,共3页
-
基金
中国高等教育国家文献资源保障系统项目
-
文摘
介绍了将现有文本数据库在Web 上建立检索系统的原则以及文本数据库在Web 上实现检索的机理和检索的方法.系统运行表明:系统结构合理、安全可靠、功能齐全、用户界面友好,是一个实用的系统.
-
关键词
INTERNET
CGI
WEB
文本数据库
检索系统
设计
-
Keywords
Internet
CGI
information
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名大型文本数据库中分布式数据去重备份方法
被引量:5
- 6
-
-
作者
张仕学
-
机构
贵州工程应用技术学院信息工程学院
-
出处
《科学技术与工程》
北大核心
2018年第4期310-315,共6页
-
基金
中央高校基本科研业务费专项资金(XDJK2014C110)
贵州省科学技术基金(黔科合LH字[2014]7538号)资助
-
文摘
数据去重可删除备份过程中的冗余数据,节约存储资源与与网络带宽,是目前数据存储领域研究的重点问题。针对传统方法去重率和吞吐量低的问题,提出一种新的大型文本数据库中分布式数据去重备份方法。介绍了大型文本数据库中分布式数据去重方法基本思想,通过文件管理部分对数据片组中的扶贫数据进行查询和统计,给出数据片组路由策略,分析了数据预取过程。通过最终权值完成对数据块的排列,以恢复时间与恢复成本达到最小化为目的设计适应度函数。通过改进遗传方法对大型文本数据库中分布式扶贫数据进行备份。实验结果表明,所提方法有很高的去重率和吞吐量,且成本低,恢复速度快。
-
关键词
文本数据库
分布式数据
去重
备份
-
Keywords
text database
distributed data
de-duplicate
backup
-
分类号
TP393.07
[自动化与计算机技术—计算机应用技术]
-
-
题名篮球技战术多媒体数据库系统的研发
被引量:11
- 7
-
-
作者
陈健
姚颂平
-
机构
上海体育学院竞技体育系
上海体育学院学院办公室
-
出处
《上海体育学院学报》
CSSCI
北大核心
2007年第3期59-63,68,共6页
-
基金
教育部博士基金
-
文摘
采用文献资料和访谈法,对我国篮球技战术研究现状进行调查分析。发现:技战术分析研究的手段落后且实用性不强,已成为限制我国篮球运动发展的瓶颈。主要从总体设计、结构设计、功能实现等方面介绍以现代数据存储与管理理念建立的、便于教练员和运动员多重主题查询的篮球技战术多媒体数据库系统,该成果的应用不仅可减轻教练员管理技战术数据的工作强度,而且能提高数据管理的水平,为其后续的篮球技战术分析提供良好的研究平台。
-
关键词
篮球
技战术
多媒体数据库系统
文本数据库
图像数据库
视频数据库
-
Keywords
basketball
techniques and tactics
multimedia database system
text database
picture database
video database
-
分类号
G841
[文化科学—体育训练]
-
-
题名利用簇化技术优化超文本数据结构
- 8
-
-
作者
黄瑜
-
机构
广西计算中心广西软件新技术实验室
-
出处
《广西科学》
CAS
1995年第3期28-33,共6页
-
文摘
介绍一种新的方法,该方法能够从原始图结构中通过一种具有例外性的簇化(AggregationClusteringwithExcePtions)手段,获得高层次的关系。这种方法使用的是一个基于已扩展的kernigher-line算法的直接探索法。
-
关键词
簇化
例外
超文本数据库
-
Keywords
aggregation and clustering
exception
hypertext database
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于大数据的中国科技政策体系研究:理论与实践
被引量:13
- 9
-
-
作者
章刚勇
-
机构
广东金融学院
深圳仟益智能科技有限公司
-
出处
《中国软科学》
CSSCI
CSCD
北大核心
2018年第6期172-180,共9页
-
基金
国家社科基金项目(14BTJ020)
-
文摘
本文思辨了新时期我国科技政策定义,进一步地以2006-2020年期间由我国或地方政府围绕《国家中长期科学和技术发展规划纲要》制定和将制定的科技政策为研究对象,基于政策制定主体隶属关系与政策群理论,厘清了我国科技政策体系;介绍了科技政策条文归集方法,根据维度设计了科技政策文本数据库的表结构;最后基于数据库,以文本分析法,分析了我国科技政策主要议题分布情况。
-
关键词
科技政策
文本数据库
文本分析法
-
Keywords
S&T policy
textual database
content analysis
-
分类号
F062.3
[经济管理—政治经济学]
-
-
题名互关联后继树模型及其实现
被引量:10
- 10
-
-
作者
申展
江宝林
张谧
唐磊
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机应用与软件》
CSCD
北大核心
2005年第3期7-9,104,共4页
-
基金
国家自然科学基金资助项目 (编号 :60 1 730 2 7)
-
文摘
全文检索是文本数据库研究的核心 ,而全文检索的首要问题是全文检索模型的选择。本文介绍了一种新颖的全文检索模型———互关联后继树模型及其实现 ,并将该模型与传统的倒排表模型进行了比较 。
-
关键词
文本数据库
全文检索模型
互关联后继树模型
信息检索
-
Keywords
Full-text retrieval Information retrieval Inter-relevant successive trees(IRST)
-
分类号
TP311.133
[自动化与计算机技术—计算机软件与理论]
G354.45
[文化科学—情报学]
-
-
题名一种全新的全文索引模型——后继数组模型
被引量:11
- 11
-
-
作者
刘学文
陶晓鹏
于玉
胡运发
-
机构
复旦大学
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第1期150-158,共9页
-
文摘
提出了一种新的全文索引模型——后继数组模型,它结合了目前多个主流全文检索模型(倒排表模型、Pat数组模型等)的优点,提高了空间效率和时间效率,并得到了理论和实验的证明.
-
关键词
全文索引模型
后继数组模型
文本数据库
数据模型
-
Keywords
full-text index
inverted list
Pat array
subsequence array
-
分类号
TP311.135
[自动化与计算机技术—计算机软件与理论]
-
-
题名全文索引的研究
被引量:10
- 12
-
-
作者
徐小刚
王俊杰
于玉
-
机构
复旦大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第2期101-103,共3页
-
文摘
在倒排表模型的基础上,从加快索引创建速度和改进索引动态结构两个方面着手,提出并实现了一种高效的索引创建算法和相应的索引模型,经过测试,新系统的索引创建速度可以和数据复制速度相提并论。而在空间效率上,也得到了一定程度的提高。
-
关键词
全文索引
倒排表模型
Pat数组
文本数据库
研究
-
Keywords
Key wordsFull texts index Back scheduling table modelPat array
-
分类号
TP311.135
[自动化与计算机技术—计算机软件与理论]
-
-
题名同构化信息温度与热点发现应用初探
- 13
-
-
作者
周启海
黄涛
张元新
吴红玉
-
机构
西南财经大学经济信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2007年第11期113-117,共5页
-
文摘
本文对信息在生活中的受关注程度进行研究,给出了一种度量信息重要性的标尺——同构化信息温度,并将它与计算机、互联网技术相结合,分别构造了单文本热点挖掘系统、文本数据库热点挖掘系统和Web网页热点挖掘系统模型框架。
-
关键词
同构化信息温度
单文本热点挖掘系统
文本数据库的热点挖掘系统
Web网页热点挖掘系统
-
Keywords
Isomorphic information temperature, One text focus mining system, Text-base focus mining system, Web page focus mining system
-
分类号
TP311.135
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向特定划分的主题模型的设计与实现
被引量:1
- 14
-
-
作者
周凯文
杨智慧
马会心
何震瀛
荆一楠
王晓阳
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2018年第7期1036-1046,共11页
-
基金
国家自然科学基金No.61370080
上海市科技创新行动计划No.16DZ1100200~~
-
文摘
利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系。从生成模型的角度建模文本之间的联系,基于LDA设计了一个新的主题模型Db LDA(LDA over text database)。Db LDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力。由于Db LDA模型复杂,使用部分收缩变分贝叶斯法对Db LDA进行模型推断,加快了模型训练速度。在新闻数据库上对Db LDA及LDA进行了训练和测试,实验结果验证了Db LDA拥有更好的模型效果。
-
关键词
主题模型
数据挖掘
文本数据库
-
Keywords
topic model
data mining
text database
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名三元互关联后继树在海量存储和全文检索中的应用
- 15
-
-
作者
马科
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机应用与软件》
CSCD
北大核心
2004年第5期3-5,109,共4页
-
基金
国家自然科学基金项目 (No :60 1 730 2 7)
-
文摘
本文介绍了一种新的全文数据库的数据模型———三元互关联后继树 ,并探讨其在呈现指数增长的非结构化的海量信息的存储和检索中的应用。
-
关键词
全文检索
全文数据库
数据模型
三元互关联后继树
文本数据库
-
Keywords
The dyadic mutual dependent tree Full-text retrieval Sponge storage
-
分类号
G354.45
[文化科学—情报学]
-
-
题名GPNIS──管网图文信息管理系统
- 16
-
-
作者
陈世林
刘绍中
-
机构
成都计算机应用研究所
-
出处
《中国科学院研究生院学报》
CAS
CSCD
1995年第1期91-96,共6页
-
文摘
图文管理是信息管理系统的一个重要方面。本文讨论一个以支持管网生产管理为目标的管网图文管理信息系统的设计思想。该系统采用相对独立的图文两个子系统且通过交换文件互相联系的方案。在管网图和管网文本数据库中,通过建立图文信息的对应关系,从而提供“图到文”和“文到图”的信息检索方式。在图文两个子系统中,建立了管网的拓扑描述,以支持管网的拓扑查询、工况分析、故障处理及故障影响区域的图形显示。本文还提出了图文相关数据一致性概念,并由系统程序自动进行图文相关信息数据一致性维护。
-
关键词
图形数据库
文本数据库
燃气管网
信息管理系统
-
Keywords
drawing database
text database
exchange file
concurrence for drawing and text data
-
分类号
TU996.62
[建筑科学—供热、供燃气、通风及空调工程]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名浅析汉字识别技术在档案管理工作中的应用
- 17
-
-
作者
文惠元
-
出处
《北京档案》
北大核心
1999年第1期21-22,共2页
-
文摘
几年前现代信息技术距离档案工作似乎还很遥远,转眼之间它已遍布各个大大小小的办公室,其风靡普及速度惊人,升级换代速度更令人叹为观止。电子计算机技术和现代通讯技术的迅猛发展不仅改变了档案管理的方式方法,而且震憾了传统的档案学理论。面对新浪潮的冲击,我们无处躲藏,按兵不动无异于坐以待毙,我们只有冲浪搏击及时应对才能迎来档案事业生存发展的曙光。鉴此,本刊将开展现代信息技术应用与电子文件专题研讨,文章提倡精悍实议,力戒泛泛空论,希望档案界同仁踊跃参加。
-
关键词
汉字识别
档案管理
文本数据库
档案目录
纸质档案
全文检索
档案信息资源
档案编研成果
信息数据库
检索利用
-
分类号
G270.7
[文化科学—档案学]
-