期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
信息检索自然语言查询问句处理框架 被引量:3
1
作者 熊文新 宋柔 《计算机科学》 CSCD 北大核心 2006年第10期144-147,204,共5页
以自然语言形式提出的查询问句不同于通常的关键词或主题词查询,需要提取用户真正要检索的信息内容。该文提出一个自然语言查询语句的处理框架,由3个部分构成:(1)离析查询问句的操作表述和信息内容;(2)凸显真正的信息需求内容;(3)对不... 以自然语言形式提出的查询问句不同于通常的关键词或主题词查询,需要提取用户真正要检索的信息内容。该文提出一个自然语言查询语句的处理框架,由3个部分构成:(1)离析查询问句的操作表述和信息内容;(2)凸显真正的信息需求内容;(3)对不同信息内容采取不同的词语实现方法。这一处理可望为自然语言信息检索提供准确的用户需求分析。 展开更多
关键词 信息检索 查询请求 查询表述
在线阅读 下载PDF
多语信息交流平台的中间语言系统及支撑环境设计 被引量:1
2
作者 熊文新 宋柔 袁琦 《计算机科学》 CSCD 北大核心 2006年第8期256-259,266,共5页
探讨了中间语言充当多语信息交流平台基础架构的必要性和可行性,介绍了一个基于中间语言的多语信息处理平台的总体设计和实现策略。讨论了如何在构建中间语言系统过程中引入子语言、受限语言技术,中间语言系统在网络环境下的XML实施,以... 探讨了中间语言充当多语信息交流平台基础架构的必要性和可行性,介绍了一个基于中间语言的多语信息处理平台的总体设计和实现策略。讨论了如何在构建中间语言系统过程中引入子语言、受限语言技术,中间语言系统在网络环境下的XML实施,以及系统实施过程中的多引擎处理策略和学习反馈模块等支撑环境建问题,最后给出了一个示例在系统平台中运行的过程。 展开更多
关键词 中间语言 支撑环境 多语言信息
在线阅读 下载PDF
中间语言转换过程中的增强处理 被引量:2
3
作者 熊文新 袁琦 《计算机工程与应用》 CSCD 北大核心 2005年第9期171-173,223,共4页
在基于中间语言的多语信息交流平台中,确保自然语言表述的信息内容能正确地转换为相应的中间语言表示非常重要。作者在引入子语言后,将源语转换和目标语生成过程结合起来,人机交互的界面处理既提升了源语信息转换的准确性,又提高了目标... 在基于中间语言的多语信息交流平台中,确保自然语言表述的信息内容能正确地转换为相应的中间语言表示非常重要。作者在引入子语言后,将源语转换和目标语生成过程结合起来,人机交互的界面处理既提升了源语信息转换的准确性,又提高了目标语生成的自然度,从而进一步增强了多语信息交流平台的可行性。 展开更多
关键词 中间语言 子语言 交互操作 基于实例
在线阅读 下载PDF
信息检索用户查询语句的停用词过滤 被引量:16
4
作者 熊文新 宋柔 《计算机工程》 CAS CSCD 北大核心 2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选... 针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。 展开更多
关键词 用户查询 停用词 构造 识别
在线阅读 下载PDF
信息检索需求描述中的词语区域凸显
5
作者 熊文新 宋柔 《计算机科学》 CSCD 北大核心 2008年第2期181-184,共4页
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF&... 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。 展开更多
关键词 信息检索 主题词语 凸显 描述域 功能块
在线阅读 下载PDF
广义话题结构理论视角下话题自足句成句性研究 被引量:4
6
作者 尚英 宋柔 卢达威 《中文信息学报》 CSCD 北大核心 2014年第6期107-113,136,共8页
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行... 话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。 展开更多
关键词 广义话题结构 话题自足句 成句性
在线阅读 下载PDF
基于“固结词串”实例的中文分词研究 被引量:5
7
作者 修驰 宋柔 《中文信息学报》 CSCD 北大核心 2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基... 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。 展开更多
关键词 中文分词 CRF 固结词串 分词歧义 机器学习
在线阅读 下载PDF
基于广义话题结构语料库的语体对比研究——以报告体与小说体为例 被引量:2
8
作者 尚英 宋柔 《计算机工程与应用》 CSCD 2014年第11期21-27,38,共8页
传统语体学对于语体的描写多集中于词汇、句式、修辞等方面。近年来学者们开始在语法研究中更加重视语体因素,但是目前的研究多为微观的分析,没有宏观的理论体系支撑,难以探索到语体深层次的问题。广义话题理论根据汉语篇章的特点,以边... 传统语体学对于语体的描写多集中于词汇、句式、修辞等方面。近年来学者们开始在语法研究中更加重视语体因素,但是目前的研究多为微观的分析,没有宏观的理论体系支撑,难以探索到语体深层次的问题。广义话题理论根据汉语篇章的特点,以边界明确的标点句为基础,提出了广义话题和话题结构的概念。从广义话题的角度对比了工作报告语体和小说语体的差异,涉及到命名实体话题、状性话题、谓性话题、逻辑话题和关系话题等。并对这种差异的原因做了合理的解释。虽然工作报告与小说在语体上差异明显,但没有人从话题-说明的角度进行过比较,更从未有大规模语料库上的统计分析。该工作丰富了统计语体学的理论,并且为计算机自动分析话题结构、自动评判作文水平、文本按语体分类等应用打下了扎实的基础。 展开更多
关键词 语体 标点句 广义话题 话题结构
在线阅读 下载PDF
动词引出新支话题的语用功能研究 被引量:1
9
作者 季翠 卢达威 宋柔 《中文信息学报》 CSCD 北大核心 2014年第3期22-27,共6页
汉语是一种话题显著的语言。汉语篇章中,同一话题会多次延续,也可能发生话题转换。该文讨论一种话题转换现象:原话题的说明中的某个成分成为新话题,但该新话题及其说明并不构成原话题的说明或原话题说明的一部分。这种话题可称为新支话... 汉语是一种话题显著的语言。汉语篇章中,同一话题会多次延续,也可能发生话题转换。该文讨论一种话题转换现象:原话题的说明中的某个成分成为新话题,但该新话题及其说明并不构成原话题的说明或原话题说明的一部分。这种话题可称为新支话题。该文对动词按照词汇语义进行分类,揭示动词将其宾语引出成为新支话题的能力所在。文章给出了《围城》中动词引出新支话题的全部实例的词汇语义分布统计。 展开更多
关键词 新支话题 动词 分类体系
在线阅读 下载PDF
从广义话题结构考察汉语篇章话题认知复杂度 被引量:11
10
作者 卢达威 宋柔 尚英 《中文信息学报》 CSCD 北大核心 2014年第5期112-124,共13页
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题... 语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。 展开更多
关键词 广义话题结构 认知机 认知复杂度 标点句 话题自足句 汉语篇章
在线阅读 下载PDF
基于多特征的自适应新词识别 被引量:14
11
作者 罗智勇 宋柔 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第7期718-725,共8页
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统... 为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间. 展开更多
关键词 自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词
在线阅读 下载PDF
一个基于语境框架的文本特征提取算法 被引量:15
12
作者 晋耀红 苗传江 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期582-586,共5页
介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语... 介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语义入手 ,实现了 4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断 算法可以有效地处理语言中的褒贬倾向、同义、多义等现象 。 展开更多
关键词 文本特征提取 语境框架模型 领域 情景 背景 领域句类 对象语义立场网络 褒贬
在线阅读 下载PDF
采用术语定义模式和多特征的新术语及定义识别方法 被引量:12
13
作者 荀恩东 李晟 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期62-69,共8页
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中... 新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%. 展开更多
关键词 信息抽取 术语定义模式 统计语言学模型 支持向量机 句子隶属度
在线阅读 下载PDF
一种基于可信度的人名识别方法 被引量:20
14
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
在线阅读 下载PDF
基于语义网计算英语词语相似度 被引量:41
15
作者 荀恩东 颜伟 《情报学报》 CSSCI 北大核心 2006年第1期43-48,共6页
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense expl... 本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。 展开更多
关键词 WORDNET 词语相似度
在线阅读 下载PDF
应用二叉树剪枝识别韵律短语边界 被引量:4
16
作者 荀恩东 钱揖丽 +1 位作者 郭庆 宋柔 《中文信息学报》 CSCD 北大核心 2006年第3期1-5,28,共6页
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应... 句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。 展开更多
关键词 人工智能 自然语言处理 统计语言模型 二叉树 韵律短语 最大熵
在线阅读 下载PDF
SSD模型及其在汉语词性标注中的应用 被引量:4
17
作者 邢富坤 宋柔 罗智勇 《中文信息学报》 CSCD 北大核心 2010年第1期20-24,共5页
该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SS... 该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SSD模型的正确率虽然不及最大熵模型和CRF模型,但它的训练时间远少于后者,说明SSD模型在处理自然语言中的特定任务时是一种较强的实用模型。 展开更多
关键词 计算机应用 中文信息处理 SSD模型 HMM 词性标注
在线阅读 下载PDF
否定词跨标点句管辖的判断 被引量:3
18
作者 张瑞朋 宋柔 《中文信息学报》 CSCD 北大核心 2007年第5期131-135,共5页
现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句... 现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。 展开更多
关键词 计算机应用 中文信息处理 否定词 标点句 管辖 共享
在线阅读 下载PDF
基于最大熵模型的汉语标点句缺失话题自动识别初探 被引量:4
19
作者 卢达威 宋柔 《计算机工程与科学》 CSCD 北大核心 2015年第12期2282-2293,共12页
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的... 本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。 展开更多
关键词 广义话题结构 新支话题 自动识别 最大熵模型
在线阅读 下载PDF
一种基于Hownet的词向量表示方法 被引量:11
20
作者 陈洋 罗智勇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期22-28,共7页
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后... 针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后,根据Hownet中词语与义原之间的定义关系,将词语向量表示视为相关义原所张成的子空间中的投影,并提出学习词向量表示的深度神经网络模型。实验表明,基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。 展开更多
关键词 词向量表示 HOWNET 词语相似性计算 词义消岐
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部