期刊文献+
共找到133篇文章
< 1 2 7 >
每页显示 20 50 100
北京大学计算语言学教育部重点实验室建设计划通过论证
1
作者 王厚峰 《中文信息学报》 CSCD 北大核心 2009年第3期87-87,共1页
关键词 教育部重点实验室 计算语言学 北京大学 设计 信息管理 语言文字 论证会 科技
在线阅读 下载PDF
网络信息传播技术控制的微观控制模式研究
2
作者 刘耀 王锦贵 《情报杂志》 CSSCI 北大核心 2006年第10期2-4,共3页
结合控制理论,集相关信息技术于一体,把网络信息传播的技术控制作为一个完整的体系进行分析,并依据各种网络技术控制对象和特点的不同,构建出多种同构模式。在此基础上,探讨了微观控制模式———标记语言的特点、组成及发展,从管理学的... 结合控制理论,集相关信息技术于一体,把网络信息传播的技术控制作为一个完整的体系进行分析,并依据各种网络技术控制对象和特点的不同,构建出多种同构模式。在此基础上,探讨了微观控制模式———标记语言的特点、组成及发展,从管理学的角度重新审视标记语言,从而把它上升为一种控制模式进行研究,并对其在网络信息传播技术控制中的作用和意义进行了探讨。避免了以技术看技术的片面性,使相关专业人员对该问题的理解能够进一步深入与完善,从而对网络信息及网络传播控制有一个整体的把握。 展开更多
关键词 控制模式 微观控制模式 网络信息传播 信息组织 技术控制
在线阅读 下载PDF
信息抽取研究综述 被引量:179
3
作者 李保利 陈玉忠 俞士汶 《计算机工程与应用》 CSCD 北大核心 2003年第10期1-5,66,共6页
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹—... 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。 展开更多
关键词 自然语言处理 信息抽取 信息检索 命名实体识别 计算机 信息处理
在线阅读 下载PDF
当代机器语言能力的研究现状与展望 被引量:11
4
作者 耿立波 刘涛 +2 位作者 俞士汶 孙茂松 杨亦鸣 《语言科学》 CSSCI 北大核心 2014年第1期34-41,共8页
机器语言能力是当代科学研究领域中的前沿和重大课题。文章首先对机器语言能力研究的现状进行了回顾和分析,然后对其发展趋势进行了展望,指出研究语言的大脑神经机制是实现机器语言能力研究突破的新路径;有必要构建机器语言能力评估等... 机器语言能力是当代科学研究领域中的前沿和重大课题。文章首先对机器语言能力研究的现状进行了回顾和分析,然后对其发展趋势进行了展望,指出研究语言的大脑神经机制是实现机器语言能力研究突破的新路径;有必要构建机器语言能力评估等级量表,以便有针对性地提升机器处理人类自然语言的能力;提高机器的语言能力还必须加强学科间的合作和研究队伍的培养与建设。 展开更多
关键词 机器 语言能力 神经机制 等级量表
在线阅读 下载PDF
文本自动校对技术研究综述 被引量:39
5
作者 张仰森 俞士汶 《计算机应用研究》 CSCD 北大核心 2006年第6期8-12,共5页
概述了文本自动校对技术的产生背景,分析了中西文文本的各自特点以及它们之间的异同,对中西文文本校对的技术难点和解决方法以及国内外的研究现状进行了回顾和评述,探讨了文本校对技术未来的发展方向及需要解决的问题。
关键词 文本自动校对 孤立词校对策略 上下文相关的校对策略 语言模型
在线阅读 下载PDF
非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例 被引量:9
6
作者 刘耀 段慧明 穗志方 《情报杂志》 CSSCI 北大核心 2006年第9期104-107,共4页
非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文... 非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文献特点提出了具体的实施方案与方法,展开了相应的工程实施,取得了显著成效,为基于非相关文献的知识发现奠定了坚实的数据基础。 展开更多
关键词 非相关文献 知识发现 中医药古文献 语言知识库 数据基础
在线阅读 下载PDF
基于依存句法分析的汉语韵律层级自动预测技术研究 被引量:6
7
作者 邵艳秋 穗志方 +1 位作者 韩纪庆 吴云芳 《中文信息学报》 CSCD 北大核心 2008年第2期116-123,共8页
不同的韵律层级可以将文本划分成适合朗读与理解的韵律组块,从而保证合成语音能够以自然的节奏表现出来。目前对韵律层级预测所采用的特征绝大多数是较为浅层的特征,如词性、词长等,但这些浅层特征对有的韵律层次如韵律短语的预测能力... 不同的韵律层级可以将文本划分成适合朗读与理解的韵律组块,从而保证合成语音能够以自然的节奏表现出来。目前对韵律层级预测所采用的特征绝大多数是较为浅层的特征,如词性、词长等,但这些浅层特征对有的韵律层次如韵律短语的预测能力比较弱。实际上,句法结构同韵律层级之间有着非常紧密的联系,二者相互影响,相互制约。本文根据依存句法分析的结果,抽取出若干同韵律层级相关的深层句法特征对韵律层级进行预测。实验证明,其中内弧跨度和内弧类型等特征,对浅层特征较难解决的类似韵律短语这种中间层次的韵律单元划分问题,可以起到很大的提高作用,使韵律短语标注的综合F值提高了11%。 展开更多
关键词 计算机应用 中文信息处理 语音合成 韵律层级 句法结构 依存分析 停顿指教
在线阅读 下载PDF
机器翻译与语言研究 被引量:3
8
作者 詹卫东 常宝宝 俞士汶 《语言科学》 2002年第1期47-61,共15页
本文从机器翻译的一般模式谈起,讨论了服务于机器翻译的语言研究应该注意的问题,包括:应更加重视形式与意义之间对应关系的系统研究;应重视以机器为“标准”来扩大关注的语言现象的范围;应重视在形式化的知识表示框架下进行大规模的语... 本文从机器翻译的一般模式谈起,讨论了服务于机器翻译的语言研究应该注意的问题,包括:应更加重视形式与意义之间对应关系的系统研究;应重视以机器为“标准”来扩大关注的语言现象的范围;应重视在形式化的知识表示框架下进行大规模的语言工程实践的研究工作。 展开更多
关键词 机器翻译 语言研究 电子词典 短语结构规则 形式化 语言知识库
在线阅读 下载PDF
语言学与统计方法结合建立汉语动词SCF类型集 被引量:2
9
作者 冀铁亮 孙薇薇 穗志方 《中文信息学报》 CSCD 北大核心 2007年第5期118-125,共8页
动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的... 动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。 展开更多
关键词 计算机应用 中文信息处理 动词子语类框架 类型集 语言学与统计方法结合
在线阅读 下载PDF
基于语料库和面向统计学的自然语言处理技术 被引量:25
10
作者 周强 《计算机科学》 CSCD 北大核心 1995年第4期36-40,共5页
1引言 语料库语言学(Corpus Linguistics)是八十年代才崭露头角的一门新的计算语言学分支学科.它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分,以及具有上述功能的语料库在语言定量分析、词典编纂。
关键词 自然语言处理 语料库 统计学
在线阅读 下载PDF
隐喻的计算研究与进展 被引量:7
11
作者 王治敏 《中文信息学报》 CSCD 北大核心 2006年第4期16-24,共9页
隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻... 隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展,重点介绍了基于优选限制思想的M et5系统,基于实例方法的M IDAS系统,以及以统计为手段,基于大规模语料库提取的隐喻分析模型CorM et系统。通过总结国外的相关研究成果,探索面向信息处理的汉语隐喻形式化的研究方向。 展开更多
关键词 计算机应用 中文信息处理 综述 隐喻计算模型 源域 目标域 隐喻概念
在线阅读 下载PDF
关键词自动标引的最大熵模型应用研究 被引量:93
12
作者 李素建 王厚峰 +1 位作者 俞士汶 辛乘胜 《计算机学报》 EI CSCD 北大核心 2004年第9期1192-1197,共6页
关键词是文档管理、文本聚类 /分类、信息检索等领域可利用的重要资源 ,因此该文提出了利用最大熵模型进行自动标引的技术 .最大熵模型为一个成熟的数学模型 ,已经应用到计算语言学的各个领域 .然而它的应用非常灵活 ,针对标引任务和现... 关键词是文档管理、文本聚类 /分类、信息检索等领域可利用的重要资源 ,因此该文提出了利用最大熵模型进行自动标引的技术 .最大熵模型为一个成熟的数学模型 ,已经应用到计算语言学的各个领域 .然而它的应用非常灵活 ,针对标引任务和现有资源的实际情况 ,作者首先建立了最大熵模型的特征集合 ,然后提出了三种试验方法 ,并给出了相应的试验结果 ,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨 .该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示 . 展开更多
关键词 关键词标引 关键词抽取 最大熵模型 信息抽取
在线阅读 下载PDF
综合型语言知识库的建设与利用 被引量:29
13
作者 俞士汶 段慧明 +1 位作者 朱学锋 张化瑞 《中文信息学报》 CSCD 北大核心 2004年第5期1-10,共10页
语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词... 语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词典 ,不同单位对齐的双语语料库 ,多个专业领域的术语库 ,现代汉语短语结构规则库 ,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时 ,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外 ,还将提供支持知识挖掘的工具软件 ,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展 ;提供多种形式的知识传播和信息服务机制 ,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的。 展开更多
关键词 计算机应用 中文信息处理 语言处理 语言知识库 语言数据资源 电子词典 语料库
在线阅读 下载PDF
现代汉语虚词知识库的研究 被引量:27
14
作者 昝红英 张坤丽 +1 位作者 柴玉梅 俞士汶 《中文信息学报》 CSCD 北大核心 2007年第5期107-111,共5页
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚... 现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。 展开更多
关键词 计算机应用 中文信息处理 虚词 语言知识库 用法属性 规则库
在线阅读 下载PDF
新闻报道文本的情感倾向性研究 被引量:15
15
作者 昝红英 郭明 +1 位作者 柴玉梅 吴云芳 《计算机工程》 CAS CSCD 北大核心 2010年第15期20-22,共3页
将机器学习中的经典分类方法与规则方法相结合,用以分析新闻语音文本的情感倾向,并判断其强弱。通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合对实验结果的影响。在实验过程中发现适当的结合规则后,实验结果在不同... 将机器学习中的经典分类方法与规则方法相结合,用以分析新闻语音文本的情感倾向,并判断其强弱。通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合对实验结果的影响。在实验过程中发现适当的结合规则后,实验结果在不同程度上都有了提高,在KNN和Bayes分类器上做了对比实验,结果证实该方法的普适性。 展开更多
关键词 机器学习 特征选择 特征权重 支持向量机
在线阅读 下载PDF
基于大规模语料库的汉语词义相似度计算方法 被引量:26
16
作者 石静 吴云芳 +1 位作者 邱立坤 吕学强 《中文信息学报》 CSCD 北大核心 2013年第1期1-6,80,共7页
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上... 词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。 展开更多
关键词 词义相似度 上下文特征 权值选择 依存关系
在线阅读 下载PDF
面向机器辅助翻译的汉语语块自动抽取研究 被引量:12
17
作者 姜柄圭 张秦龙 +1 位作者 谌贻荣 常宝宝 《中文信息学报》 CSCD 北大核心 2007年第1期9-16,共8页
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统... 本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。 展开更多
关键词 人工智能 机器翻译 语块抽取 串频统计 内部结合 紧密度 信息熵 语块组合规则
在线阅读 下载PDF
中医药本体构建研究 被引量:14
18
作者 刘耀 穗志方 +2 位作者 周扬 章成志 王振国 《大学图书馆学报》 CSSCI 北大核心 2008年第4期58-62,共5页
利用自然语言处理(NLP)理论和技术方法对中医药领域中已有的公认领域知识进行了重构与利用,在成功实现了中医药学知识描述体系的自动构建与获取的基础上,利用领域专家知识,实现了受限文本的Ontology自学习机制,并对领域本体的进化进行... 利用自然语言处理(NLP)理论和技术方法对中医药领域中已有的公认领域知识进行了重构与利用,在成功实现了中医药学知识描述体系的自动构建与获取的基础上,利用领域专家知识,实现了受限文本的Ontology自学习机制,并对领域本体的进化进行了有益的探索,有效地解决了Ontology研究的瓶颈问题,从而为中医药知识的挖掘与利用奠定了数据基础。从目前看来,这是一种较为理想、实用的方法,为专业领域Ontology的自动构建提供了理论依据及技术支持。 展开更多
关键词 中医药 本体 数据共享 知识工程
在线阅读 下载PDF
词性标注对信息检索系统性能的影响 被引量:8
19
作者 苏祺 昝红英 +1 位作者 胡景贺 项锟 《中文信息学报》 CSCD 北大核心 2005年第2期58-65,共8页
在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检... 在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。 展开更多
关键词 人工智能 自然语言处理 信息检索 向量空间模型 词性标注 SMART
在线阅读 下载PDF
中医药古文献语料库设计与开发研究 被引量:9
20
作者 刘耀 段慧明 +3 位作者 王惠临 周扬 王振国 李宏展 《中文信息学报》 CSCD 北大核心 2008年第4期24-30,共7页
专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行... 专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 语料库 中医药古文献 知识工程
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部