期刊文献+
共找到210篇文章
< 1 2 11 >
每页显示 20 50 100
北京大学计算语言学教育部重点实验室建设计划通过论证
1
作者 王厚峰 《中文信息学报》 CSCD 北大核心 2009年第3期87-87,共1页
关键词 教育部重点实验室 计算语言学 北京大学 设计 信息管理 语言文字 论证会 科技
在线阅读 下载PDF
基于北京大学中文网库的语义角色分类 被引量:6
2
作者 杨敏 常宝宝 《中文信息学报》 CSCD 北大核心 2011年第2期3-8,共6页
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大... 语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大学中文网库,该文的目的在于测试这类研究方法在新语料的效果,验证之前所使用的特征是否对标注语料具有依赖性。通过实验发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。 展开更多
关键词 语义角色标注 北京大学中文网库 序列标注
在线阅读 下载PDF
中国计算语言学研究现状与展望 被引量:5
3
作者 耿立波 酆格斐 +1 位作者 詹卫东 杨亦鸣 《语言科学》 CSSCI 北大核心 2021年第5期491-499,共9页
“十三五”期间我国的计算语言学取得了长足的进步与发展,受到深度学习算法的推进,基础研究方面出现了较大突破,在语音识别、机器翻译、自动问答系统、知识资源建设、古文字和其他语种语言信息处理等应用方面也出现了很多重要成果。但... “十三五”期间我国的计算语言学取得了长足的进步与发展,受到深度学习算法的推进,基础研究方面出现了较大突破,在语音识别、机器翻译、自动问答系统、知识资源建设、古文字和其他语种语言信息处理等应用方面也出现了很多重要成果。但与世界先进水平相比,目前在很多领域内我们还只是处于跟跑阶段,并且深度学习算法的红利也已接近释放殆尽,在未来仍需要从算法基础架构、人脑语言的本质、深层语言理解等方面展开研究,发展机器语言能力等新兴方向,并积极开展复合型语言学人才的培养。 展开更多
关键词 计算语言学 深度学习 机器语言能力
在线阅读 下载PDF
综合型语言知识库的建设与利用 被引量:29
4
作者 俞士汶 段慧明 +1 位作者 朱学锋 张化瑞 《中文信息学报》 CSCD 北大核心 2004年第5期1-10,共10页
语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词... 语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词典 ,不同单位对齐的双语语料库 ,多个专业领域的术语库 ,现代汉语短语结构规则库 ,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时 ,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外 ,还将提供支持知识挖掘的工具软件 ,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展 ;提供多种形式的知识传播和信息服务机制 ,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的。 展开更多
关键词 计算机应用 中文信息处理 语言处理 语言知识库 语言数据资源 电子词典 语料库
在线阅读 下载PDF
自然语言处理中主题模型的发展 被引量:247
5
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
在线阅读 下载PDF
非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例 被引量:9
6
作者 刘耀 段慧明 穗志方 《情报杂志》 CSSCI 北大核心 2006年第9期104-107,共4页
非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文... 非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文献特点提出了具体的实施方案与方法,展开了相应的工程实施,取得了显著成效,为基于非相关文献的知识发现奠定了坚实的数据基础。 展开更多
关键词 非相关文献 知识发现 中医药古文献 语言知识库 数据基础
在线阅读 下载PDF
基于大规模语料库的汉语词义相似度计算方法 被引量:26
7
作者 石静 吴云芳 +1 位作者 邱立坤 吕学强 《中文信息学报》 CSCD 北大核心 2013年第1期1-6,80,共7页
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上... 词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。 展开更多
关键词 词义相似度 上下文特征 权值选择 依存关系
在线阅读 下载PDF
唐宋诗之计算机辅助深层研究 被引量:24
8
作者 胡俊峰 俞士汶 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第5期727-733,共7页
介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗... 介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗文进行词语切分的基础上 ,建立了词汇的共现关系、对仗关系以及词汇的作者分布特征信息。系统除了提供面向诗文内容的全文检索功能外 ,还进一步开发了基于词汇的统计分析和诗句相似性检索等功能 。 展开更多
关键词 语料库语言学 未登录词发现 自动注音 唐宋诗计算机辅助研究系统 计算语言学 汉语信息处理
在线阅读 下载PDF
综合型语言知识库及其前景 被引量:9
9
作者 俞士汶 穗志方 朱学锋 《中文信息学报》 CSCD 北大核心 2011年第6期12-20,共9页
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章... 北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。 展开更多
关键词 自然语言处理 计算语言学 语言工程 综合型语言知识库 现代汉语语法信息词典
在线阅读 下载PDF
当代机器语言能力的研究现状与展望 被引量:11
10
作者 耿立波 刘涛 +2 位作者 俞士汶 孙茂松 杨亦鸣 《语言科学》 CSSCI 北大核心 2014年第1期34-41,共8页
机器语言能力是当代科学研究领域中的前沿和重大课题。文章首先对机器语言能力研究的现状进行了回顾和分析,然后对其发展趋势进行了展望,指出研究语言的大脑神经机制是实现机器语言能力研究突破的新路径;有必要构建机器语言能力评估等... 机器语言能力是当代科学研究领域中的前沿和重大课题。文章首先对机器语言能力研究的现状进行了回顾和分析,然后对其发展趋势进行了展望,指出研究语言的大脑神经机制是实现机器语言能力研究突破的新路径;有必要构建机器语言能力评估等级量表,以便有针对性地提升机器处理人类自然语言的能力;提高机器的语言能力还必须加强学科间的合作和研究队伍的培养与建设。 展开更多
关键词 机器 语言能力 神经机制 等级量表
在线阅读 下载PDF
语言模型复杂度度量与汉语熵的估算 被引量:7
11
作者 张仰森 曹元大 俞士汶 《小型微型计算机系统》 CSCD 北大核心 2006年第10期1931-1934,共4页
运用信息论理论,从信息熵的角度对统计语言模型的复杂度度量方法进行了定量化的推理与描述,得出了语言模型对语言熵的估算值越小,说明该模型对语言的描述越精确以及两个n-1元文法模型插值形成的新模型,其性能好于n-1元文法模型,但不及n... 运用信息论理论,从信息熵的角度对统计语言模型的复杂度度量方法进行了定量化的推理与描述,得出了语言模型对语言熵的估算值越小,说明该模型对语言的描述越精确以及两个n-1元文法模型插值形成的新模型,其性能好于n-1元文法模型,但不及n元文法模型的结论.并对应用语言模型估算汉语信息熵的方法进行了探讨. 展开更多
关键词 语言模型 复杂度 语言模型评价
在线阅读 下载PDF
跨语言相似文档检索 被引量:4
12
作者 王洪俊 施水才 +1 位作者 俞士汶 肖诗斌 《中文信息学报》 CSCD 北大核心 2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种... 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 展开更多
关键词 计算机应用 中文信息处理 跨语言相似文档检索 文档相似度 双语文档对齐
在线阅读 下载PDF
古诗研究的计算机支持环境的实现 被引量:12
13
作者 刘岩斌 俞士汶 孙钦善 《中文信息学报》 CSCD 北大核心 1997年第1期27-36,共10页
北京大学正在开发以全宋诗为首选对象的古诗研究系统──古诗研究的计算机支持环境,本文介绍这个系统的设计与实现,该系统已录入陆游的全部诗作9000余首及部分注释,计88万字,本文介绍了该系统的基本功能如:检索、阅读、统计... 北京大学正在开发以全宋诗为首选对象的古诗研究系统──古诗研究的计算机支持环境,本文介绍这个系统的设计与实现,该系统已录入陆游的全部诗作9000余首及部分注释,计88万字,本文介绍了该系统的基本功能如:检索、阅读、统计和辅助研究工具及其实现技术,较详细地介绍了其中的全文检索和超文本技术。本文也介绍了利用该系统可以深入开展的一些研究课题,如:古诗格律研究,古汉语研究和诗人风格研究,从而可以辅助解决古诗研究中的一些困难问题。 展开更多
关键词 古诗电子化 古诗研究系统 计算机支持系统
在线阅读 下载PDF
基于中文维基百科的词语语义相关度计算 被引量:9
14
作者 万富强 吴云芳 《中文信息学报》 CSCD 北大核心 2013年第6期31-37,109,共8页
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相... 语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。 展开更多
关键词 语义相关度 显性语义分析 中文维基百科 先验概率 概念向量
在线阅读 下载PDF
机器翻译与语言研究 被引量:4
15
作者 詹卫东 常宝宝 俞士汶 《语言科学》 2002年第1期47-61,共15页
本文从机器翻译的一般模式谈起,讨论了服务于机器翻译的语言研究应该注意的问题,包括:应更加重视形式与意义之间对应关系的系统研究;应重视以机器为“标准”来扩大关注的语言现象的范围;应重视在形式化的知识表示框架下进行大规模的语... 本文从机器翻译的一般模式谈起,讨论了服务于机器翻译的语言研究应该注意的问题,包括:应更加重视形式与意义之间对应关系的系统研究;应重视以机器为“标准”来扩大关注的语言现象的范围;应重视在形式化的知识表示框架下进行大规模的语言工程实践的研究工作。 展开更多
关键词 机器翻译 语言研究 电子词典 短语结构规则 形式化 语言知识库
在线阅读 下载PDF
词义演化的计算方法 被引量:4
16
作者 王洪俊 施水才 +1 位作者 俞士汶 吕学强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期183-186,共4页
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数... 从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。 展开更多
关键词 词义演化 词义计算 动态语料库
在线阅读 下载PDF
语言学与统计方法结合建立汉语动词SCF类型集 被引量:2
17
作者 冀铁亮 孙薇薇 穗志方 《中文信息学报》 CSCD 北大核心 2007年第5期118-125,共8页
动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的... 动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。 展开更多
关键词 计算机应用 中文信息处理 动词子语类框架 类型集 语言学与统计方法结合
在线阅读 下载PDF
建设综合型语言知识库的理念与成果的价值 被引量:13
18
作者 俞士汶 《中文信息学报》 CSCD 北大核心 2007年第6期3-12,共10页
积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果... 积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果"综合型语言知识库"于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。 展开更多
关键词 计算机应用 中文信息处理 综合型语言知识库 多语言信息处理 计算语言学 自然语言处理 现代汉语语 法信息词典 治学心得
在线阅读 下载PDF
基于语料库和面向统计学的自然语言处理技术 被引量:26
19
作者 周强 《计算机科学》 CSCD 北大核心 1995年第4期36-40,共5页
1引言 语料库语言学(Corpus Linguistics)是八十年代才崭露头角的一门新的计算语言学分支学科.它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分,以及具有上述功能的语料库在语言定量分析、词典编纂。
关键词 自然语言处理 语料库 统计学
在线阅读 下载PDF
隐喻的计算研究与进展 被引量:7
20
作者 王治敏 《中文信息学报》 CSCD 北大核心 2006年第4期16-24,共9页
隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻... 隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展,重点介绍了基于优选限制思想的M et5系统,基于实例方法的M IDAS系统,以及以统计为手段,基于大规模语料库提取的隐喻分析模型CorM et系统。通过总结国外的相关研究成果,探索面向信息处理的汉语隐喻形式化的研究方向。 展开更多
关键词 计算机应用 中文信息处理 综述 隐喻计算模型 源域 目标域 隐喻概念
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部