期刊文献+
共找到93篇文章
< 1 2 5 >
每页显示 20 50 100
基于北京大学中文网库的语义角色分类 被引量:6
1
作者 杨敏 常宝宝 《中文信息学报》 CSCD 北大核心 2011年第2期3-8,共6页
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大... 语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大学中文网库,该文的目的在于测试这类研究方法在新语料的效果,验证之前所使用的特征是否对标注语料具有依赖性。通过实验发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。 展开更多
关键词 语义角色标注 北京大学中文网库 序列标注
在线阅读 下载PDF
中国计算语言学研究现状与展望 被引量:4
2
作者 耿立波 酆格斐 +1 位作者 詹卫东 杨亦鸣 《语言科学》 CSSCI 北大核心 2021年第5期491-499,共9页
“十三五”期间我国的计算语言学取得了长足的进步与发展,受到深度学习算法的推进,基础研究方面出现了较大突破,在语音识别、机器翻译、自动问答系统、知识资源建设、古文字和其他语种语言信息处理等应用方面也出现了很多重要成果。但... “十三五”期间我国的计算语言学取得了长足的进步与发展,受到深度学习算法的推进,基础研究方面出现了较大突破,在语音识别、机器翻译、自动问答系统、知识资源建设、古文字和其他语种语言信息处理等应用方面也出现了很多重要成果。但与世界先进水平相比,目前在很多领域内我们还只是处于跟跑阶段,并且深度学习算法的红利也已接近释放殆尽,在未来仍需要从算法基础架构、人脑语言的本质、深层语言理解等方面展开研究,发展机器语言能力等新兴方向,并积极开展复合型语言学人才的培养。 展开更多
关键词 计算语言学 深度学习 机器语言能力
在线阅读 下载PDF
自然语言处理中主题模型的发展 被引量:248
3
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
在线阅读 下载PDF
综合型语言知识库及其前景 被引量:9
4
作者 俞士汶 穗志方 朱学锋 《中文信息学报》 CSCD 北大核心 2011年第6期12-20,共9页
北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章... 北京大学计算语言学研究所自1986年起,历时25年建成综合型语言知识库(CLKB)。CLKB包括6个语言知识库、10项规范与标准、基础软件工具集和4个应用系统,它们相互支撑,形成一个有机整体。CLKB的系列化的语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。尽管CLKB已形成阶段性成果,但它仍在发展中。该文重点介绍CLKB的语言知识库,也探讨其发展方向。 展开更多
关键词 自然语言处理 计算语言学 语言工程 综合型语言知识库 现代汉语语法信息词典
在线阅读 下载PDF
基于中文维基百科的词语语义相关度计算 被引量:9
5
作者 万富强 吴云芳 《中文信息学报》 CSCD 北大核心 2013年第6期31-37,109,共8页
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相... 语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。 展开更多
关键词 语义相关度 显性语义分析 中文维基百科 先验概率 概念向量
在线阅读 下载PDF
自然语言处理评测数据集质量评估研究 被引量:8
6
作者 王诚文 董青秀 +3 位作者 穗志方 詹卫东 常宝宝 王海涛 《中文信息学报》 CSCD 北大核心 2023年第2期26-40,共15页
评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的... 评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。 展开更多
关键词 自然语言处理 评测 数据集 质量评估
在线阅读 下载PDF
自然语言处理评测中的问题与对策 被引量:11
7
作者 董青秀 穗志方 +1 位作者 詹卫东 常宝宝 《中文信息学报》 CSCD 北大核心 2021年第6期1-15,共15页
自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出... 自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因。最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望。 展开更多
关键词 自然语言处理评测 数据集偏差 评测指标
在线阅读 下载PDF
基于多特征的语义角色标注一致性计算方法研究 被引量:3
8
作者 柯永红 朱永福 +1 位作者 穗志方 俞士汶 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第3期475-480,共6页
综合语义角色标注语料的格式、标签结构、标签内容和用户可信度等多个特征,实现一种自动的语义角色标注一致性计算方法。实验证明,该方法对错误标注的召回率高,并且速度快,结果稳定,可以大幅度地提高语义角色标注一致性检查的效率。
关键词 语料库 多特征 一致性计算 语义角色标注
在线阅读 下载PDF
网络语言中构式的形成机制初探 被引量:9
9
作者 黄思思 詹卫东 《中文信息学报》 CSCD 北大核心 2017年第3期17-24,共8页
构式指整体意义无法从其组成部分简单加合出来的语言单位。该文以网络语言中的构式为考察对象,分析了网络语言中构式的浮现、扩散和固化的过程。网络语言中构式的浮现主要有语境赋义和错配成型两种机制。构式的扩散则可分为同范畴扩容... 构式指整体意义无法从其组成部分简单加合出来的语言单位。该文以网络语言中的构式为考察对象,分析了网络语言中构式的浮现、扩散和固化的过程。网络语言中构式的浮现主要有语境赋义和错配成型两种机制。构式的扩散则可分为同范畴扩容和跨范畴变异两种情况。构式的固化程度可以通过能产性、图式性和组合性三个维度进行衡量。最后该文总结了网络语言中构式化的三个特点。 展开更多
关键词 网络语言 构式 构式化 语言演化
在线阅读 下载PDF
语言知识驱动的词嵌入向量的可解释性研究 被引量:5
10
作者 林星星 邱晓枫 +3 位作者 刘扬 虞梦夏 祁晶 康司辰 《中文信息学报》 CSCD 北大核心 2020年第8期1-9,共9页
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分... 神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论:语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。 展开更多
关键词 可解释性 词嵌入向量 伪语料法
在线阅读 下载PDF
“综合型语言知识库”又获奖励
11
《中文信息学报》 CSCD 北大核心 2011年第3期128-128,共1页
北京大学计算语言学研究所的综合型语言知识库(简称:CLKB)继2007年获教育部科技进步奖一等奖、2008年获北京技术市场金桥奖项目二等奖之后,于2010年又获中国电子学会电子信息科学技术奖一等奖。中国电子学会电子信息科学技术奖是经... 北京大学计算语言学研究所的综合型语言知识库(简称:CLKB)继2007年获教育部科技进步奖一等奖、2008年获北京技术市场金桥奖项目二等奖之后,于2010年又获中国电子学会电子信息科学技术奖一等奖。中国电子学会电子信息科学技术奖是经国家科学技术奖励工作办公室批准设立的奖项(国科奖社准字03—0053号). 展开更多
关键词 国家科学技术奖励 语言知识库 综合型 中国电子学会 北京大学 电子信息 科技进步奖 计算语言学
在线阅读 下载PDF
“综合型语言知识库”获国家科技进步奖二等奖
12
《中文信息学报》 CSCD 北大核心 2012年第2期128-128,共1页
北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,更上一层楼,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-22... 北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,更上一层楼,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-220—2—02)。第一完成人俞士汶教授参加了今年2月14日在北京举行的国家科学技术奖励大会。 展开更多
关键词 语言知识库 国家科技进步奖 综合型 国家科学技术奖励大会 国家科学技术进步奖 北京大学 计算语言学 学术团体
在线阅读 下载PDF
“综合型语言知识库”再次获奖
13
《中文信息学报》 CSCD 北大核心 2010年第2期75-75,共1页
关键词 语言知识库 综合型 教育部重点实验室 北京大学 科技进步奖 计算语言学 技术市场
在线阅读 下载PDF
“综合型语言知识库”获国家科技进步奖二等奖
14
《汉语学报》 CSSCI 北大核心 2012年第2期94-94,共1页
由北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,又获得了2011年度国家科学技术进步奖二等奖(证书号:2011-J-220—2... 由北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,又获得了2011年度国家科学技术进步奖二等奖(证书号:2011-J-220—2—02)。项目第一完成人俞士汶教授2012年2月14日参加了在北京举行的国家科学技术奖励大会。 展开更多
关键词 计算语言学 国家科技进步奖 知识库 综合型 国家科学技术奖励大会 国家科学技术进步奖 LANGUAGE 北京大学
在线阅读 下载PDF
基于多来源文本的中文医学知识图谱的构建 被引量:22
15
作者 昝红英 窦华溢 +4 位作者 贾玉祥 关同峰 奥德玛 张坤丽 穗志方 《郑州大学学报(理学版)》 CAS 北大核心 2020年第2期45-51,共7页
中文医学知识图谱(Chinese medical knowledge graph,CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要。通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命... 中文医学知识图谱(Chinese medical knowledge graph,CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要。通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%。在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6310种疾病、19853种药物(西药、中成药、中草药)、1237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万。所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础。 展开更多
关键词 医学知识图谱 命名实体 实体关系 标注规范 知识图谱构建
在线阅读 下载PDF
面向儿科疾病的命名实体及实体关系标注语料库构建及应用 被引量:19
16
作者 昝红英 刘涛 +3 位作者 牛常勇 赵悦淑 张坤丽 穗志方 《中文信息学报》 CSCD 北大核心 2020年第5期19-26,共8页
当前医学语料库实体及实体关系的分类体系难以满足精准医学发展需求的问题,该文针对儿科疾病开展研究。在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具... 当前医学语料库实体及实体关系的分类体系难以满足精准医学发展需求的问题,该文针对儿科疾病开展研究。在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具对298余万字儿科医学文本中实体及实体关系进行机器预标注、人工标注及人工校对,构建了面向儿科疾病的医学实体及关系语料库。所构建的语料库包含504种儿科常见疾病,共标注命名实体23603个,实体关系36513个,多轮标注一致性分别为0.85和0.82。基于该语料库构建了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统。 展开更多
关键词 儿科疾病 语料库建设 命名实体 实体关系 知识图谱
在线阅读 下载PDF
面向医学文本的实体关系抽取研究综述 被引量:15
17
作者 昝红英 关同峰 +2 位作者 张坤丽 奥德玛 穗志方 《郑州大学学报(理学版)》 CAS 北大核心 2020年第4期1-15,共15页
实体抽取和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展了深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建医学知识图谱,可服务于下游子任务。从医学领域实体关系抽取的相关... 实体抽取和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展了深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建医学知识图谱,可服务于下游子任务。从医学领域实体关系抽取的相关概念出发,从不同角度对深度学习模型进行分类;进而依据数据集的构建方式,对监督学习和远程监督的多实例学习模型进行分析和讨论;最后展望了面向医学文本的实体关系抽取的未来研究方向。 展开更多
关键词 实体关系抽取 医学领域 监督学习 多实例学习
在线阅读 下载PDF
一种基于使用差异的词语领域性分析方法 被引量:5
18
作者 李素建 宋涛 +2 位作者 高杰 幺鹏跃 李文捷 《中文信息学报》 CSCD 北大核心 2009年第6期72-78,共7页
领域知识的表达形式最终体现在词汇的领域性上,因此对领域词及其部件的领域度分析是一个关键。该文在分词的基础上,对各个领域语料进行分析,利用词语之间的关系,引入链接分析方法分析词语在各个领域中的使用重要性,并通过词语在各个领... 领域知识的表达形式最终体现在词汇的领域性上,因此对领域词及其部件的领域度分析是一个关键。该文在分词的基础上,对各个领域语料进行分析,利用词语之间的关系,引入链接分析方法分析词语在各个领域中的使用重要性,并通过词语在各个领域中的使用差异性计算其领域度,从而达到领域分析的目的,获取某个领域的领域部件词。该文采用以上方法在军事、娱乐等领域进行了实验,实验结果表明该方法相对于当前常用的tf×idf方法和Bootstrapping方法,可以更有效地进行领域分析获取领域部件词。 展开更多
关键词 人工智能 自然语言处理 领域性分析 领域词 领域部件词 链接分析 使用差异
在线阅读 下载PDF
副词“就”的用法及其自动识别研究 被引量:6
19
作者 昝红英 张军珲 +1 位作者 朱学锋 俞士汶 《中文信息学报》 CSCD 北大核心 2010年第5期10-16,共7页
作者近年来从事现代汉语虚词知识库研究,并初步构建了包括副词、介词、连词、助词、语气词等的虚词用法词典、用法规则库以及用法语料库的"三位一体"现代汉语虚词知识库。该文在已有工作的基础上,进一步考察副词"就"... 作者近年来从事现代汉语虚词知识库研究,并初步构建了包括副词、介词、连词、助词、语气词等的虚词用法词典、用法规则库以及用法语料库的"三位一体"现代汉语虚词知识库。该文在已有工作的基础上,进一步考察副词"就"在1998年1月《人民日报》分词与词性标注语料中的出现规律,通过规则描述、自动标注、人工校对、机器学习等方面的探索,研究副词"就"用法(包括义项)的形式化描述及其自动识别问题,并给出详细的实验结果。 展开更多
关键词 汉语虚词 用法规则 条件随机场 最大熵 支持向量机 自动识别
在线阅读 下载PDF
基于特征选择和最大熵模型的汉语词义消歧 被引量:37
20
作者 何径舟 王厚峰 《软件学报》 EI CSCD 北大核心 2010年第6期1287-1295,共9页
词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在... 词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval2007:task#5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了3.10%和2.96%. 展开更多
关键词 最大熵模型 分类特征 自动特征选择 汉语词义消歧
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部