期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于支持向量机的中文文本自动分类研究 被引量:25
1
作者 都云琪 肖诗斌 《计算机工程》 CAS CSCD 北大核心 2002年第11期137-138,F003,共3页
根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种... 根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。 展开更多
关键词 支持向量机 中文文本 自动分类 招回率 准确率 学习算法 中文信息处理
在线阅读 下载PDF
办公信息例程网模型及其集成
2
作者 孙莺 苏东庄 吴忠明 《计算机学报》 EI CSCD 北大核心 1991年第5期340-351,共12页
本文提出了一种新型的信息例程网模型(IP-Net)的元素符号定义及数学描述.并从分析中得出IP-Net集成是高效益的结论.从而进一步讨论了集成IP-Net模型,给出了各个办公例程之间同步需求的总体表示.实现了集成算法与优化算法,结果是成功的.
关键词 办公自动化 信息例程网 集成 模型
在线阅读 下载PDF
跨语言相似文档检索 被引量:4
3
作者 王洪俊 施水才 +1 位作者 俞士汶 肖诗斌 《中文信息学报》 CSCD 北大核心 2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种... 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 展开更多
关键词 计算机应用 中文信息处理 跨语言相似文档检索 文档相似度 双语文档对齐
在线阅读 下载PDF
词义演化的计算方法 被引量:4
4
作者 王洪俊 施水才 +1 位作者 俞士汶 吕学强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期183-186,共4页
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数... 从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。 展开更多
关键词 词义演化 词义计算 动态语料库
在线阅读 下载PDF
一种结合超链接分析的搜索引擎排序方法 被引量:10
5
作者 吴明礼 施水才 《计算机工程》 CAS CSCD 北大核心 2004年第15期143-145,共3页
为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链... 为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链接分析通过互联网的链接结构计算出每个网络文档的质量;通过中文分词和索引链接文本可以更加准确地获得一个网络文档的信息内涵。将3者结合可以充分利用各自优势而弥补不足。 展开更多
关键词 搜索引擎 排序 布尔模式 链接分析
在线阅读 下载PDF
一种基于Native XML的全文检索引擎 被引量:6
6
作者 王弘蔚 肖诗斌 《情报学报》 CSSCI 北大核心 2003年第5期550-556,共7页
随着XML的日益流行,基于XML的全文检索应用需求也迅速扩大.在这些应用中,native-XML数据库是发展方向.虽然商业化的native-XML数据库已经出现,但其全文检索的性能还不尽人意.本文提出一种方法:在传统的倒排索引的框架下,对XML的标记建... 随着XML的日益流行,基于XML的全文检索应用需求也迅速扩大.在这些应用中,native-XML数据库是发展方向.虽然商业化的native-XML数据库已经出现,但其全文检索的性能还不尽人意.本文提出一种方法:在传统的倒排索引的框架下,对XML的标记建立索引,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档,成为一个真正意义上的native-XML全文数据库,既有传统全文数据库的优越性能,又能满足基于native-XML的应用需求. 展开更多
关键词 NATIVE-XML数据库 全文检索 倒排索引 全文数据库 检索引擎
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部