期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于HTML文档结构的向量空间模型的改进 被引量:10
1
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
在线阅读 下载PDF
基于音素解码的语种识别系统联合自适应算法研究 被引量:3
2
作者 邓妍 张卫强 刘加 《自动化学报》 EI CSCD 北大核心 2012年第4期652-658,共7页
针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系... 针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段:1)基于受约束的最大似然线性回归(Constr ained maximum likelihood linear regression,CMLLR)的声学模型自适应;2)基于全局N元文法的音位特征向量自适应;3)VSM模型中的支持向量机(Support vector machines,SVM)自适应.在综合采用多种自适应技术后,PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段,基于不同音素识别器的PRVSM系统的等错误率(Equal errorrate,EER)分别相对降低了18%~23%、12%~20%以及5%~9%. 展开更多
关键词 语种识别 音素识别器后接向量空间模型 联合自适应 受约束的最大似然线性回归 支持向量机自适应
在线阅读 下载PDF
改进的Web链接主题提取算法 被引量:1
3
作者 王卫玲 刘培玉 刘克非 《计算机工程与设计》 CSCD 北大核心 2007年第2期294-296,共3页
HITS算法是影响相当广泛的链接分析算法。但是,深入的研究表明,它很容易产生主题漂移。而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上。提出一种基于权值调整的超链主题提取算法(weightedadjustments base... HITS算法是影响相当广泛的链接分析算法。但是,深入的研究表明,它很容易产生主题漂移。而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上。提出一种基于权值调整的超链主题提取算法(weightedadjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值。实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要。 展开更多
关键词 分析 主题提取 向量空间模型 权值调整 资源发现
在线阅读 下载PDF
基于链接结构和内容相似度的聚焦爬虫系统 被引量:3
4
作者 倪贤贵 蔡明 《计算机工程与设计》 CSCD 北大核心 2008年第7期1709-1710,1763,共3页
介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容... 介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法。该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率。 展开更多
关键词 聚焦爬虫 结构 内容相似度 向量空间模型 查准率
在线阅读 下载PDF
基于网页结构与链接关系的中文文本分类方法 被引量:3
5
作者 郭晓 蒋宗礼 《现代电子技术》 2010年第22期54-56,63,共4页
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网... 提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。 展开更多
关键词 中文文本分类 HTML结构 关系 向量空间模型
在线阅读 下载PDF
带参数的搜索引擎 被引量:1
6
作者 戴先宇 王明文 +1 位作者 吴水秀 张石林 《江西师范大学学报(自然科学版)》 CAS 2002年第4期344-348,共5页
随着Internet上的信息量爆炸式地增长,当前的搜索引擎面临着许多巨大的挑战.该文针对现有搜索引擎中存在的问题提出了带参数的搜索引擎,并给出了参数策略和基于扩展的向量空间模型的识别器的设计.
关键词 机器人 识别器 搜索引擎 向量空间模型 参数策略 数据库 信息查询
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部