期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
基于字表的中文搜索引擎分词系统的设计与实现 被引量:15
1
作者 丁承 邵志清 《计算机工程》 CAS CSCD 北大核心 2001年第2期191-192,F003,共3页
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
关键词 字表 中文搜索引擎分词系统 设计 中文信息处理 INTERNET
在线阅读 下载PDF
一种适用于专业搜索引擎的中文分词系统研究 被引量:4
2
作者 王硕 尤枫 +1 位作者 山岚 赵恒永 《计算机工程与应用》 CSCD 北大核心 2008年第19期142-145,共4页
在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度... 在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。 展开更多
关键词 中文分词 搜索引擎 首字哈希 层进式最短路径 路径选择
在线阅读 下载PDF
支持智能中文分词的互联网搜索引擎的构建 被引量:8
3
作者 曹羽中 曹勇刚 +1 位作者 金茂忠 刘超 《计算机工程与设计》 CSCD 北大核心 2006年第23期4395-4398,4407,共5页
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可... 中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 展开更多
关键词 中文分词 分词算法 搜索引擎 词法分析器 检索精度
在线阅读 下载PDF
汉语分词对中文搜索引擎检索性能的影响 被引量:6
4
作者 金澎 刘毅 王树梅 《情报学报》 CSSCI 北大核心 2006年第1期21-24,共4页
针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用啊页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,... 针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用啊页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。 展开更多
关键词 汉语分词 信息检索 中文搜索引擎
在线阅读 下载PDF
中文分词算法在搜索引擎应用中的研究 被引量:20
5
作者 欧振猛 余顺争 《计算机工程与应用》 CSCD 北大核心 2000年第8期80-82,84,共4页
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行... 在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。 展开更多
关键词 搜索引擎 中文自动分词 算法 汉字信息处理
在线阅读 下载PDF
电子商务搜索引擎中文分词算法分析
6
作者 卢媛媛 何海燕 张剑 《信息网络安全》 2010年第8期52-54,共3页
本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的... 本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。 展开更多
关键词 搜索引擎 中文分词 电子商务
在线阅读 下载PDF
中文文本WEB搜索引擎的设计与实现 被引量:23
7
作者 钟涛 陈新明 +1 位作者 万钧 张世永 《计算机工程与应用》 CSCD 北大核心 2001年第17期149-151,169,共4页
文章主要研究中文文本WEB搜索引擎设计中面临的关键技术以及相应的设计实现。文章首先介绍了WEB搜索引擎的基本系统结构,然后具体讨论了设计时应考虑的问题并且给出了相应的实现。作者希望通过该文能为中文信息搜索引擎的发展提供一些... 文章主要研究中文文本WEB搜索引擎设计中面临的关键技术以及相应的设计实现。文章首先介绍了WEB搜索引擎的基本系统结构,然后具体讨论了设计时应考虑的问题并且给出了相应的实现。作者希望通过该文能为中文信息搜索引擎的发展提供一些有益的参考和经验。 展开更多
关键词 搜索引擎 文本处理 信息检索 中文分词 中文文本 Web Internet
在线阅读 下载PDF
中文搜索引擎中的中文信息处理技术 被引量:35
8
作者 邹海山 吴勇 +1 位作者 吴月珠 陈阵 《计算机应用研究》 CSCD 2000年第12期21-24,共4页
就中文搜索引擎中的若干中文信息处理技术作了较深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了较完整的解决方案。
关键词 中文搜索引擎 中文信息处理技术 中文分词 码制转换 全半角处理 汉字编码 Internet
在线阅读 下载PDF
中文搜索引擎的原理剖析及开发实现技术 被引量:19
9
作者 李志蜀 李果 《计算机应用研究》 CSCD 北大核心 2001年第11期96-99,共4页
介绍了当前搜索引擎的分类、现状及中文搜索引擎的发展 ,剖析了中文搜索引擎采用的核心技术—全文检索与中文分词技术 ,探讨了编程中应注意的问题和部分实现技术 。
关键词 中文搜索引擎 中文分词 信息查询 INTERNET 中文信息处理
在线阅读 下载PDF
中文搜索引擎现状与展望 被引量:25
10
作者 都云程 卢献华 《中文信息学报》 CSCD 北大核心 1999年第3期61-64,F003,共5页
本文介绍了中文搜索引擎的发展现状,分析了中文搜索引擎中存在的问题,以及与国外先进的搜索引擎的差距,提出了中文搜索引擎的发展方向。
关键词 中文搜索引擎 全文检索 中文自动分词 搜索引擎
在线阅读 下载PDF
一种基于词典的搜索引擎系统动态更新模型 被引量:13
11
作者 雷鸣 刘建国 +1 位作者 王建勇 陈葆珏 《计算机研究与发展》 EI CSCD 北大核心 2000年第10期1265-1270,共6页
基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 ... 基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 .以搜索引擎系统为例 ,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型 .相关实验表明 ,该模型对缩短搜索引擎信息库的更新时间。 展开更多
关键词 万维网 词典 搜索引擎系统 中文信息处理
在线阅读 下载PDF
基于全文搜索的中文搜索引擎设计技术 被引量:10
12
作者 陈燕娜 邵志清 《计算机工程与应用》 CSCD 北大核心 2002年第17期196-198,共3页
随着Internet应用的逐步普及,WWW已成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但由于中文信息处理的复杂性和特殊性,中文搜索引擎的功能仍不够完善。该文提出了一个基于全文搜索的中文搜索引擎的实现方案,并对... 随着Internet应用的逐步普及,WWW已成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但由于中文信息处理的复杂性和特殊性,中文搜索引擎的功能仍不够完善。该文提出了一个基于全文搜索的中文搜索引擎的实现方案,并对信息处理中的关键技术进行了探讨。 展开更多
关键词 全文搜索 中文搜索引擎设计 技术 WWW 中文分词技术 文档相关性 Internet
在线阅读 下载PDF
中文交互式网络搜索引擎及其自学习能力 被引量:14
13
作者 杜阿宁 方滨兴 +1 位作者 胡铭曾 云晓春 《计算机工程与应用》 CSCD 北大核心 2003年第10期148-150,212,共4页
论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于... 论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。 展开更多
关键词 中文交互式网络搜索引擎 自学习能力 Internet WWW 计算机网络 向量空间模型 自动机 分词 神经网络 BP算法 信息库 信息检索 信息资源
在线阅读 下载PDF
基于概念的中文搜索引擎技术 被引量:1
14
作者 张秋余 张红 马彦宏 《计算机科学》 CSCD 北大核心 2004年第B09期13-16,共4页
本文提出了一种基于概念的中文搜索引擎,给出了它的理论模型和软件设计过程,其核心是应用知识库中的语义、语法、词法等知识,提高了切句、分词的准确性,把词从本意上升到概念层次,并采用一种新的HTML标记权位统计算法提高了词的索... 本文提出了一种基于概念的中文搜索引擎,给出了它的理论模型和软件设计过程,其核心是应用知识库中的语义、语法、词法等知识,提高了切句、分词的准确性,把词从本意上升到概念层次,并采用一种新的HTML标记权位统计算法提高了词的索引度,从而从根本上提高了搜索引擎的查全率与查准率。 展开更多
关键词 中文搜索引擎 应用知识 查准率 查全率 概念层次 分词 过程 HTML 软件设计 语义
在线阅读 下载PDF
搜索引擎中的中文信息处理技术
15
作者 赵新民 《现代情报》 2002年第5期98-100,共3页
基于中文信息处理的特殊性和复杂性 ,本文就中文搜索引擎中的若干中文信息处理技术进行了深入地探讨 ,对诸如中文分词。
关键词 搜索引擎 中文分词 码制转换 全半角处理 中文信息处理
在线阅读 下载PDF
基于学术社区的学术搜索引擎设计 被引量:13
16
作者 陈国华 汤庸 +1 位作者 彭泽武 李建国 《计算机科学》 CSCD 北大核心 2011年第8期171-175,共5页
学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,... 学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,将分散在不同位置、提供不同内容的学术信息组合为一个整体,有效地解决了文献提取问题。针对普通中文分词组件在对姓名进行分词时准确率较低的问题,设计了一个专门针对姓名进行分词的高效的算法。在开源框架Nutch和HBase的基础上,实现了一个学术搜索引擎,并在实验中验证了设计的有效性。 展开更多
关键词 学术社区 学术搜索引擎 文献整合算法 中文姓名分词
在线阅读 下载PDF
中英文专业搜索引擎中数据采集加工的设计与实现 被引量:5
17
作者 刘峰 王秀坤 +1 位作者 杨南海 马霖 《计算机应用研究》 CSCD 北大核心 2004年第10期155-157,161,共4页
阐述了一个中英文专业Web搜索引擎数据采集加工的通用设计与实现方法,并着重介绍了具体实现中一些关键技术问题的处理(以Java为例)。
关键词 搜索引擎 ROBOT 自动分类 特征提取 中文分词
在线阅读 下载PDF
一种基于Lucene的影片搜索引擎的研究和应用 被引量:3
18
作者 匡振国 倪宏 +1 位作者 嵇智辉 刘磊 《计算机工程与应用》 CSCD 北大核心 2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它... Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。 展开更多
关键词 LUCENE 搜索引擎 双字哈希 中文分词 倒排索引
在线阅读 下载PDF
搜索引擎用户接口设计 被引量:2
19
作者 何友全 徐小乐 +2 位作者 徐澄 栾红玉 唐华姣 《重庆理工大学学报(自然科学)》 CAS 2010年第9期63-68,共6页
介绍了搜索引擎中用户界面的实现技术,包括抓取网页、索引和检索。在此基础上,应用Ajax技术实现用户接口的设计,利用Lucene技术,在建立好的索引库中检索出用户感兴趣的网页,并给出设计过程中部分关键代码。
关键词 搜索引擎 中文分词技术 LUCENE 用户界面 AJAX技术
在线阅读 下载PDF
面向地学信息领域垂直搜索引擎设计与实现 被引量:4
20
作者 张思发 马永格 《计算机工程与应用》 CSCD 2012年第33期85-88,95,共5页
垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于... 垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于网络蜘蛛模型的面向地学信息领域的垂直搜索引擎。经过测试及结果比较,该系统相对于通用搜索引擎有明显的优势,使地学信息的定位和查找更加准确。该系统具有良好的扩展性和通用性,对垂直搜索引擎的研究和开发具有一定的借鉴作用。 展开更多
关键词 地学信息领域 垂直搜索引擎 NUTCH 中文分词 页面排序 主题词管理
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部