-
题名基于字表的中文搜索引擎分词系统的设计与实现
被引量:15
- 1
-
-
作者
丁承
邵志清
-
机构
华东理工大学计算机科学与工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期191-192,F003,共3页
-
文摘
分析了常用的基于词典的汉语分词方法应用于中文搜索引擎开发中的不足,提出基于字表的中文搜索引擎分词系统,并在索引、查询、排除歧义等方面进行了设计和实现。
-
关键词
字表
中文搜索引擎分词系统
设计
中文信息处理
INTERNET
-
Keywords
Chinese;Search engines;Word segmentation;Character table;Query
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名一种适用于专业搜索引擎的中文分词系统研究
被引量:4
- 2
-
-
作者
王硕
尤枫
山岚
赵恒永
-
机构
北京化工大学信息科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第19期142-145,共4页
-
文摘
在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。
-
关键词
中文分词
搜索引擎
首字哈希
层进式最短路径
路径选择
-
Keywords
Chinese word segmentation
search engine
first character Hash indexing
level-pattern shortest paths
paths selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名支持智能中文分词的互联网搜索引擎的构建
被引量:8
- 3
-
-
作者
曹羽中
曹勇刚
金茂忠
刘超
-
机构
北京航空航天大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2006年第23期4395-4398,4407,共5页
-
基金
国家863高技术研究发展计划基金项目(2004AA119030)
-
文摘
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。
-
关键词
中文分词
分词算法
搜索引擎
词法分析器
检索精度
-
Keywords
Chinese word segmentation
word segmentation algorithm
search engine
lexical analyzer
precision
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语分词对中文搜索引擎检索性能的影响
被引量:6
- 4
-
-
作者
金澎
刘毅
王树梅
-
机构
乐山师范学院计算机科学系
南京理工大学计算机科学与技术系
-
出处
《情报学报》
CSSCI
北大核心
2006年第1期21-24,共4页
-
基金
四川省教育厅青年基金资助项目(项目编号:2003B035).
-
文摘
针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用啊页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。
-
关键词
汉语分词
信息检索
中文搜索引擎
-
Keywords
Chinese word segmentation, information retrieval, Chinese search engine.
-
分类号
G354.4
[文化科学—情报学]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名中文分词算法在搜索引擎应用中的研究
被引量:20
- 5
-
-
作者
欧振猛
余顺争
-
机构
中山大学电子系
-
出处
《计算机工程与应用》
CSCD
北大核心
2000年第8期80-82,84,共4页
-
文摘
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。
-
关键词
搜索引擎
中文自动分词
算法
汉字信息处理
-
Keywords
Search Engine, Chinese Word Automatic Segmentation, Matching, Markoff process
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名电子商务搜索引擎中文分词算法分析
- 6
-
-
作者
卢媛媛
何海燕
张剑
-
机构
北京理工大学管理与经济学院
-
出处
《信息网络安全》
2010年第8期52-54,共3页
-
文摘
本文提出了电子商务行业搜索引擎的概念,通过对通用搜索引擎技术进行分析,结合电子商务行业对搜索引擎的需求提出需要改进的部分,并设计出一个电子商务行业搜索引擎整体结构;此外,讨论了几种搜索引擎的中文分词算法,结合电子商务行业的特点对分词算法进行了改进,提出一种适用于电子商务行业搜索应用的全新分词系统。最后,结合整体结构与分词系统并利用已有的网络开源项目,实现了一个电子商务行业搜索引擎。
-
关键词
搜索引擎
中文分词
电子商务
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名中文文本WEB搜索引擎的设计与实现
被引量:23
- 7
-
-
作者
钟涛
陈新明
万钧
张世永
-
机构
复旦大学网络信息工程中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第17期149-151,169,共4页
-
基金
上海市科学技术发展资金支持
-
文摘
文章主要研究中文文本WEB搜索引擎设计中面临的关键技术以及相应的设计实现。文章首先介绍了WEB搜索引擎的基本系统结构,然后具体讨论了设计时应考虑的问题并且给出了相应的实现。作者希望通过该文能为中文信息搜索引擎的发展提供一些有益的参考和经验。
-
关键词
搜索引擎
文本处理
信息检索
中文分词
中文文本
Web
Internet
-
Keywords
: Search Engine,Text Transact,Info Indexing,Chinese segment
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名中文搜索引擎中的中文信息处理技术
被引量:35
- 8
-
-
作者
邹海山
吴勇
吴月珠
陈阵
-
机构
南京大学电子科学与工程系
-
出处
《计算机应用研究》
CSCD
2000年第12期21-24,共4页
-
文摘
就中文搜索引擎中的若干中文信息处理技术作了较深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了较完整的解决方案。
-
关键词
中文搜索引擎
中文信息处理技术
中文分词
码制转换
全半角处理
汉字编码
Internet
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名中文搜索引擎的原理剖析及开发实现技术
被引量:19
- 9
-
-
作者
李志蜀
李果
-
机构
四川大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2001年第11期96-99,共4页
-
文摘
介绍了当前搜索引擎的分类、现状及中文搜索引擎的发展 ,剖析了中文搜索引擎采用的核心技术—全文检索与中文分词技术 ,探讨了编程中应注意的问题和部分实现技术 。
-
关键词
中文搜索引擎
中文分词
信息查询
INTERNET
中文信息处理
-
Keywords
Chinese Search Engine
Full Content Retrieval
Chinese Words Segmentation
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名中文搜索引擎现状与展望
被引量:25
- 10
-
-
作者
都云程
卢献华
-
机构
北京信息工程学院中文信息研究处理中心
-
出处
《中文信息学报》
CSCD
北大核心
1999年第3期61-64,F003,共5页
-
文摘
本文介绍了中文搜索引擎的发展现状,分析了中文搜索引擎中存在的问题,以及与国外先进的搜索引擎的差距,提出了中文搜索引擎的发展方向。
-
关键词
中文搜索引擎
全文检索
中文自动分词
搜索引擎
-
Keywords
Chinese search engineFull-text retrievalAutomatic words segmentationrelevance Ranking
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名一种基于词典的搜索引擎系统动态更新模型
被引量:13
- 11
-
-
作者
雷鸣
刘建国
王建勇
陈葆珏
-
机构
北京大学计算机科学技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第10期1265-1270,共6页
-
基金
国家"九五"重点科技攻关项目基金资助!(项目编号 96 -743 -0 1-0 5 -0 1)
-
文摘
基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 .以搜索引擎系统为例 ,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型 .相关实验表明 ,该模型对缩短搜索引擎信息库的更新时间。
-
关键词
万维网
词典
搜索引擎系统
中文信息处理
-
Keywords
search engine, natural language processing, Chinese information processing, World Wide Web
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于全文搜索的中文搜索引擎设计技术
被引量:10
- 12
-
-
作者
陈燕娜
邵志清
-
机构
华东理工大学信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第17期196-198,共3页
-
基金
上海市青年科技启明星计划(编号:99QD14038)
-
文摘
随着Internet应用的逐步普及,WWW已成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但由于中文信息处理的复杂性和特殊性,中文搜索引擎的功能仍不够完善。该文提出了一个基于全文搜索的中文搜索引擎的实现方案,并对信息处理中的关键技术进行了探讨。
-
关键词
全文搜索
中文搜索引擎设计
技术
WWW
中文分词技术
文档相关性
Internet
-
Keywords
WWW,search engine,full-text retrieval,Chinese word segmentation,documental relativity
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名中文交互式网络搜索引擎及其自学习能力
被引量:14
- 13
-
-
作者
杜阿宁
方滨兴
胡铭曾
云晓春
-
机构
哈尔滨工业大学国家计算机信息内容安全重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第10期148-150,212,共4页
-
基金
国家863高科技研究发展计划资助项目(编号:863-104-02-01)
-
文摘
论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。
-
关键词
中文交互式网络搜索引擎
自学习能力
Internet
WWW
计算机网络
向量空间模型
自动机
分词
神经网络
BP算法
信息库
信息检索
信息资源
-
Keywords
Vector Space Model,word segmentation,BP network,automata,neural networks
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名基于概念的中文搜索引擎技术
被引量:1
- 14
-
-
作者
张秋余
张红
马彦宏
-
机构
兰州理工大学电气工程与信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2004年第B09期13-16,共4页
-
文摘
本文提出了一种基于概念的中文搜索引擎,给出了它的理论模型和软件设计过程,其核心是应用知识库中的语义、语法、词法等知识,提高了切句、分词的准确性,把词从本意上升到概念层次,并采用一种新的HTML标记权位统计算法提高了词的索引度,从而从根本上提高了搜索引擎的查全率与查准率。
-
关键词
中文搜索引擎
应用知识
查准率
查全率
概念层次
分词
过程
HTML
软件设计
语义
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
G354
[文化科学—情报学]
-
-
题名搜索引擎中的中文信息处理技术
- 15
-
-
作者
赵新民
-
机构
曲阜师范大学
-
出处
《现代情报》
2002年第5期98-100,共3页
-
文摘
基于中文信息处理的特殊性和复杂性 ,本文就中文搜索引擎中的若干中文信息处理技术进行了深入地探讨 ,对诸如中文分词。
-
关键词
搜索引擎
中文分词
码制转换
全半角处理
中文信息处理
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于学术社区的学术搜索引擎设计
被引量:13
- 16
-
-
作者
陈国华
汤庸
彭泽武
李建国
-
机构
中山大学信息科学与技术学院
华南师范大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第8期171-175,共5页
-
基金
国家自然科学基金时态角色关系模型及协同感知技术研究(60970044)
广东自然科技计划项目面向学术信息服务领域的协同软件平台(2010B010600031)资助
-
文摘
学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,将分散在不同位置、提供不同内容的学术信息组合为一个整体,有效地解决了文献提取问题。针对普通中文分词组件在对姓名进行分词时准确率较低的问题,设计了一个专门针对姓名进行分词的高效的算法。在开源框架Nutch和HBase的基础上,实现了一个学术搜索引擎,并在实验中验证了设计的有效性。
-
关键词
学术社区
学术搜索引擎
文献整合算法
中文姓名分词
-
Keywords
Scholar community
Academic search engine
Scholar information integration
Chinese name segmentation
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名中英文专业搜索引擎中数据采集加工的设计与实现
被引量:5
- 17
-
-
作者
刘峰
王秀坤
杨南海
马霖
-
机构
大连理工大学计算机系
-
出处
《计算机应用研究》
CSCD
北大核心
2004年第10期155-157,161,共4页
-
基金
国家科技部"973"预研基金资助项目(2001CCA00700)
-
文摘
阐述了一个中英文专业Web搜索引擎数据采集加工的通用设计与实现方法,并着重介绍了具体实现中一些关键技术问题的处理(以Java为例)。
-
关键词
搜索引擎
ROBOT
自动分类
特征提取
中文分词
-
Keywords
Search Engine
Robot
Automatic Classification
Feature Selection
Chinese Segmentation
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于Lucene的影片搜索引擎的研究和应用
被引量:3
- 18
-
-
作者
匡振国
倪宏
嵇智辉
刘磊
-
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第29期8-10,30,共4页
-
基金
国家科技支撑计划项目(No.2008BAH28B04)
中科院声学研究所创新前瞻项目(No.GS12CXJ01)
-
文摘
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。
-
关键词
LUCENE
搜索引擎
双字哈希
中文分词
倒排索引
-
Keywords
Lucene
search engine
double character hash index
Chinese word segmentation
inverted index
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名搜索引擎用户接口设计
被引量:2
- 19
-
-
作者
何友全
徐小乐
徐澄
栾红玉
唐华姣
-
机构
重庆交通大学信息科学与工程学院
重庆交通大学管理学院
-
出处
《重庆理工大学学报(自然科学)》
CAS
2010年第9期63-68,共6页
-
基金
重庆市科委攻关项目(CSTC
2010AC6074)
+1 种基金
重庆交通大学研究生教育创新基金资助项目
重庆交通大学实验教学改革与研究基金资助项目(SYJ200922)
-
文摘
介绍了搜索引擎中用户界面的实现技术,包括抓取网页、索引和检索。在此基础上,应用Ajax技术实现用户接口的设计,利用Lucene技术,在建立好的索引库中检索出用户感兴趣的网页,并给出设计过程中部分关键代码。
-
关键词
搜索引擎
中文分词技术
LUCENE
用户界面
AJAX技术
-
Keywords
Search Engine
Chinese Word Segmentation
lucene
User Interface
Ajax Technology
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名面向地学信息领域垂直搜索引擎设计与实现
被引量:4
- 20
-
-
作者
张思发
马永格
-
机构
中国地质大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2012年第33期85-88,95,共5页
-
基金
国家自然科学基金(No.2011093051)
中国博士后科学基金(No.2011M501260)
湖北省自然科学基金(No.2010CDB04104)
-
文摘
垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于网络蜘蛛模型的面向地学信息领域的垂直搜索引擎。经过测试及结果比较,该系统相对于通用搜索引擎有明显的优势,使地学信息的定位和查找更加准确。该系统具有良好的扩展性和通用性,对垂直搜索引擎的研究和开发具有一定的借鉴作用。
-
关键词
地学信息领域
垂直搜索引擎
NUTCH
中文分词
页面排序
主题词管理
-
Keywords
geo-information
vertical search engines
Nutch
Chinese word segmentation
page ranking
subject management
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-