期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
自动文摘综述 被引量:24
1
作者 郭燕慧 钟义信 +1 位作者 马志勇 姚均勇 《情报学报》 CSSCI 北大核心 2002年第5期582-591,共10页
本文概述了自动文摘的发展历史和研究状况 ,给出当前自动文摘领域主要的研究方法和策略 ,剖析了它们的优点和不足。进一步结合自动文摘自身的特点和难点 ,提出近期自动文摘的研究重点是基于篇章话语形式的浅层分析方法生成指示型文摘。
关键词 研究方法 研究重点 指示型文摘 自动文摘 话语形式 浅层分析 指示型文摘
在线阅读 下载PDF
一种基于EM非监督训练的自组织分词歧义解决方案 被引量:14
2
作者 王伟 钟义信 +1 位作者 孙建 杨力 《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次... 本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 ) 展开更多
关键词 EM算法 分词歧义 非监督训练 分词语言模型 歧义消除 汉语处理 训练算法 分词算法
在线阅读 下载PDF
基于统计的常用词搭配(Collocation)的发现方法 被引量:16
3
作者 孙健 王伟 钟义信 《情报学报》 CSSCI 北大核心 2002年第1期12-16,共5页
常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是... 常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。 展开更多
关键词 常用词搭配 二元组 自然语言处理 互信息 最大可能比 自动发现 三元组 多元组
在线阅读 下载PDF
高性能电子邮件过滤系统的设计与实现 被引量:9
4
作者 刘建毅 张鹏飞 +2 位作者 王枞 郭燕慧 李赟 《计算机应用研究》 CSCD 北大核心 2005年第4期224-225,233,共3页
该系统采用基于全信息的自然语言理解方法论,对邮件从语法 (关键词过滤 )、语义 (主题过滤 )、语用(倾向过滤)三个层次上进行过滤,从而尽量避免对正常邮件的误判和对非法邮件的漏判。
关键词 邮件过滤 主题过滤 倾向过滤
在线阅读 下载PDF
基于相对词频的文本特征抽取方法 被引量:9
5
作者 张鹏飞 李赟 +1 位作者 刘建毅 钟义信 《计算机应用研究》 CSCD 北大核心 2005年第4期23-26,共4页
评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外... 评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性,并且取得了较好的分类效果。 展开更多
关键词 特征抽取 特征向量 评估函数 相对词频
在线阅读 下载PDF
信息的表征和测度方法及应用研究^1) 被引量:10
6
作者 孟祥增 钟义信 王翔英 《情报学报》 CSSCI 北大核心 2004年第1期91-96,共6页
关于信息的概念,目前有许多说法。本文根据据“信息是对事物属性的表征”这一观点出发,提出了一种信息表征和测度的方法以及相应的信息测度公式,并讨论了信息测度公式的性质和这种信息表征和测度方法在基于内容的图像检索系统中的应用。
关键词 信息表征 信息测度 图像检索系统 多媒体检索
在线阅读 下载PDF
基于特征项的群组信息推荐算法 被引量:6
7
作者 张剑 郭燕慧 钟义信 《计算机工程与应用》 CSCD 北大核心 2004年第15期4-5,181,共3页
个性化推荐系统采用知识发现技术给用户提供准确、合理的信息从而赢得客户。基于用户群组特征的推荐方式是当前在研究和实用两方面都取得一定成功的一种模式,但是这种算法的复杂度随着用户数量的增加而急剧增长,因此在实际的应用中,面... 个性化推荐系统采用知识发现技术给用户提供准确、合理的信息从而赢得客户。基于用户群组特征的推荐方式是当前在研究和实用两方面都取得一定成功的一种模式,但是这种算法的复杂度随着用户数量的增加而急剧增长,因此在实际的应用中,面对着数以万计的用户,服务系统要承担大负荷的计算量,从而导致推荐效率的下降。该文提出了一种基于特征项的推荐算法来解决基于用户的推荐算法所面临的可扩展性差的问题。实验表明,使用基于特征项的推荐算法能够在提高推荐效率的同时,达到或者超越基于用户的推荐算法的推荐性能。 展开更多
关键词 基于用户 基于特征 相似度计算 信息推送
在线阅读 下载PDF
WWW中图像的主题分类研究 被引量:4
8
作者 孟祥增 钟义信 《情报杂志》 CSSCI 北大核心 2004年第10期35-36,共2页
为了便于对WWW中图像的浏览和检索 ,提出了一种对图像主题词分类的体系结构及根据图像主题词对图像进行自动分类的方法 ,还给出了图像主题词的自动提取。
关键词 WWW 图像 浏览 自动分类 自动提取 体系结构 检索 主题词 分类研究 添加方法
在线阅读 下载PDF
基于Ontology的英汉机器翻译研究 被引量:9
9
作者 王小捷 钟义信 《中文信息学报》 CSCD 北大核心 2000年第5期8-15,共8页
高质量的机器翻译 (MachineTranslation)系统必须充分结合语言学知识以及语言中性的世界知识。近年来 ,ontology被广泛用于在概念层对世界知识建模 ,本文介绍一个基于ontology的英汉机器翻译模型系统 ,在这个系统中 ,ontology作为世界... 高质量的机器翻译 (MachineTranslation)系统必须充分结合语言学知识以及语言中性的世界知识。近年来 ,ontology被广泛用于在概念层对世界知识建模 ,本文介绍一个基于ontology的英汉机器翻译模型系统 ,在这个系统中 ,ontology作为世界知识的模型 ,它是通过把概念组织成一个层次结构并同时在概念间建立丰富的概念联系而构成的。通过把某种语言中的词汇映射到ontology中的概念 ,可以支持在源语言分析时进行歧义消解和目标语生成时的词汇选择 ,并可以作为源语言和目的语言之间的中介表示的概念来源。在系统中 ,中介表示是用概念图 (ConceptualGraph)来表示的。 展开更多
关键词 ONTOLOGY 概念图 英汉机器翻译 系统结构
在线阅读 下载PDF
基于知识的WWW图像中主体的识别 被引量:3
10
作者 孟祥增 钟义信 《计算机工程与应用》 CSCD 北大核心 2004年第20期20-22,共3页
图像主体识别在图像检索中具有重要意义。单纯利用图像分析识别图像主体相当困难。文章提出了利用WWW中的相关文本做提示,根据图像分析得到的图像主体视觉特征和图像主体知识库识别图像主体的方法,阐述了从WWW中提取图像主体名和视觉特... 图像主体识别在图像检索中具有重要意义。单纯利用图像分析识别图像主体相当困难。文章提出了利用WWW中的相关文本做提示,根据图像分析得到的图像主体视觉特征和图像主体知识库识别图像主体的方法,阐述了从WWW中提取图像主体名和视觉特征描述词的方法以及图像主体区域分割、视觉特征识别方法和结合图像主体知识库识别图像主体的方法。最后给出了初步的实验结果。 展开更多
关键词 图像识别 WWW 知识库
在线阅读 下载PDF
文本倾向识别的置信度估计 被引量:1
11
作者 郭燕慧 王小捷 钟义信 《计算机工程与应用》 CSCD 北大核心 2002年第1期19-21,共3页
由于置信度模型可以有效地判断观测数据与文本倾向模板之间的匹配程度,因此可以用在文本倾向识别中,有效地定位识别结果,从而提高系统的识别率和稳健性。该文讨论了文本倾向识别中的置信度的基本原理,介绍了假设检验和区间估计在文本倾... 由于置信度模型可以有效地判断观测数据与文本倾向模板之间的匹配程度,因此可以用在文本倾向识别中,有效地定位识别结果,从而提高系统的识别率和稳健性。该文讨论了文本倾向识别中的置信度的基本原理,介绍了假设检验和区间估计在文本倾向识别中的应用。 展开更多
关键词 置信度 文本倾向识别 假设检验 区间估计
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部