期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
中文信息处理研究工作的新进展 被引量:2
1
作者 许嘉璐 朱小健 《云南师范大学学报(哲学社会科学版)》 CSSCI 2010年第4期1-6,共6页
中文信息处理研究应以应用开发带动理论研究和技术研发。我国中文信息处理研究已在三个方面取得了重要进展:应用理论研究方面,语义的知识表示方法从句子扩展到了句群层面,构建了概念—语句—句群统一的知识表示模型;知识库资源建设方面... 中文信息处理研究应以应用开发带动理论研究和技术研发。我国中文信息处理研究已在三个方面取得了重要进展:应用理论研究方面,语义的知识表示方法从句子扩展到了句群层面,构建了概念—语句—句群统一的知识表示模型;知识库资源建设方面,建立了达到应用规模的、包括概念知识库、语言知识库和言语知识库的多层次语义知识库资源;中文智能搜索引擎核心技术研发方面,实现了文本的语义分析和多层次的语义索引技术,以及基于语义理解的文本相似度计算技术,使用户可以用最自然的语言提出搜索请求,而不必受关键词的约束。基于语义的新一代中文搜索引擎即将出现大的突破。要提高我国中文信息处理的竞争力,应当重视具有自主知识产权的基于语义的理论和应用研究,加强人才队伍建设,进行科学组织和管理,促进以智能搜索技术发展及应用为主线的中文信息处理产业联盟的构建。 展开更多
关键词 中文信息处理 应用理论 知识库资源 搜索引擎
在线阅读 下载PDF
我校863课题“中文信息处理应用基础研究”通过验收
2
作者 朱小健 《北京师范大学学报(社会科学版)》 CSSCI 北大核心 2005年第6期56-56,共1页
由全国人大常委会副委员长、我校中文信息处理研究所所长许嘉璐教授承担的国家高技术研究发展计划(863计划)课题“中文信息处理应用基础研究”于2005年10月23日顺利通过科技部的验收。
关键词 中文信息处理 应用基础研究 通过验收 全国人大常委会副委员长 课题 高技术研究发展计划 863计划 科技部 许嘉璐 研究所
在线阅读 下载PDF
中文专利中有标记并列结构的自动识别研究 被引量:5
3
作者 刘小蝶 朱筠 晋耀红 《计算机工程》 CAS CSCD 北大核心 2018年第6期162-168,175,共8页
中文专利中名词性有标记并列结构分布广泛、结构复杂,现有的识别技术仅能运用有限的特征识别某些简单类型的并列结构,总体识别效果不佳。为此,提出一种基于边界感知原则的识别方法。在概念层次网络(HNC)理论的基础上,从数量、层级、语... 中文专利中名词性有标记并列结构分布广泛、结构复杂,现有的识别技术仅能运用有限的特征识别某些简单类型的并列结构,总体识别效果不佳。为此,提出一种基于边界感知原则的识别方法。在概念层次网络(HNC)理论的基础上,从数量、层级、语义类型、语义特征、干扰特征、结构特征、外部环境和位置特征8个维度对并列结构进行标注,考察并总结语义特征、结构特征和外部词特征,制定217条形式化规则,并将其融合到已有的HNC翻译系统中。测试结果表明,与Google在线翻译系统相比,该方法对有标记并列结构的识别正确率较高。 展开更多
关键词 基于规则 边界感知 并列结构 机器翻译 专利文献
在线阅读 下载PDF
自然语言处理在其他学科领域的影响考察——基于CNKI的中文文献挖掘 被引量:8
4
作者 蒋彦廷 胡韧奋 《情报杂志》 CSSCI 北大核心 2021年第12期169-176,共8页
[研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《... [研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《中国图书馆分类法》以及论文间的引证关系,从中国知网采集2159篇NLP典型文献与1376篇非典型文献,可视化分析文献所属刊物、学科分类号的频次信息,提出NLP领域4层级主题分类体系,并据此构建论文多主题分类数据集“NLP-others”,进行文献的多标签分类。[研究结论]NLP在自然、社会与人文各领域均有程度不同的影响,与图书情报学的联系最为密切。相关技术甚至能拓展到处理非自然语言的序列。知识库与知识图谱、神经网络、舆情分析是被广泛提及或应用的技术;LDA、LSTM、CRF、BERT则是在其他领域应用较多的模型算法。 展开更多
关键词 自然语言处理 学科交叉 中国图书馆分类法 NLP主题分类体系 NLP论文主题分类数据集“NLP-others” 多标签分类
在线阅读 下载PDF
唐诗题材自动分类研究 被引量:16
5
作者 胡韧奋 诸雨辰 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期262-268,共7页
将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类,并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础,并有所补充。采用向量空间模... 将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类,并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础,并有所补充。采用向量空间模型(VSM)将唐诗文本转换为向量,通过卡方检验进行词语特征选择,最后基于朴素贝叶斯和支持向量机算法构造文本分类器,取得较好的题材分类效果。此外,还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设,为相关诗歌本体研究提供了科学依据。 展开更多
关键词 唐诗 题材 文本分类 卡方检验 朴素贝叶斯 支持向量机
在线阅读 下载PDF
对外汉语教学领域话题语料库的研究与构建 被引量:13
6
作者 胡韧奋 朱琦 杨丽姣 《中文信息学报》 CSCD 北大核心 2015年第6期62-68,共7页
对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含四个一级话题、23个二级话题和246... 对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含四个一级话题、23个二级话题和246个三级话题的三层话题框架,并据此对197册汉语经典教材中的5 457个文段进行了人工标注及校对,构建了一个规模约12万句的面向对外汉语教学的话题语料库。为了更好地服务于汉语教学及相关研究工作,还抽取、计算了文段的语法点和新HSK词语等级信息,作为话题标注的补充维度加入资源库,以期为汉语教学领域的教师、研究者及教材编写者提供较为全面的话题信息参考。 展开更多
关键词 对外汉语 话题 语料库
在线阅读 下载PDF
基于模板的汉英专利机器翻译研究 被引量:6
7
作者 张冬梅 刘小蝶 晋耀红 《计算机应用研究》 CSCD 北大核心 2013年第7期2044-2046,2071,共4页
为了改善专利文献的机器翻译效果,提出了一种基于模板的机器翻译方法。通过分析汉英双语对齐的专利文献语料,人工书写了600余条模板,模板的设计思想源于弱化的正则文法;设计和实现了一个模板翻译模块,并将其与已有的一个基于规则的机器... 为了改善专利文献的机器翻译效果,提出了一种基于模板的机器翻译方法。通过分析汉英双语对齐的专利文献语料,人工书写了600余条模板,模板的设计思想源于弱化的正则文法;设计和实现了一个模板翻译模块,并将其与已有的一个基于规则的机器翻译系统相融合。实验结果表明,40%以上的测试文本的翻译质量得到了提高,因此,这种基于模板的方法对于改善专利文献的机器翻译效果是有效的。 展开更多
关键词 模板 专利文献 机器翻译 正则文法
在线阅读 下载PDF
基于深层语言模型的古汉语知识表示及自动断句研究 被引量:21
8
作者 胡韧奋 李绅 诸雨辰 《中文信息学报》 CSCD 北大核心 2021年第4期8-15,共8页
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。... 古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。 展开更多
关键词 古汉语 自动断句 深层语言模型
在线阅读 下载PDF
面向汉语(二语)教学的语法点知识库构建及语法点标注研究 被引量:8
9
作者 谭晓平 杨丽姣 苏靖杰 《中文信息学报》 CSCD 北大核心 2015年第6期54-61,共8页
语法是汉语(二语)教学中的重点和难点,而面向语法教学领域的知识库、语料库较少,不能满足汉语国际教育事业发展的需求。该文首先根据三个平面理论和对外汉语教学语法理论提出了面向汉语(二语)教学的语法点描述框架,建立了包含121个教学... 语法是汉语(二语)教学中的重点和难点,而面向语法教学领域的知识库、语料库较少,不能满足汉语国际教育事业发展的需求。该文首先根据三个平面理论和对外汉语教学语法理论提出了面向汉语(二语)教学的语法点描述框架,建立了包含121个教学常用语法点的知识库。其次,在141 464条对外汉语教材语料和新HSK样题文本语料中对121个语法点进行了句法语义信息的综合标注,共获得95 592个句次的标注语料,涉及形式类别580项,语义类别233项,形成了与语法点知识库配套的语法点标注语料库。最后,讨论了语法点知识库和语法点标注语料库在汉语(二语)教学及教材研究领域的应用。 展开更多
关键词 语法点 知识库 标注 语料库 汉语国际教育
在线阅读 下载PDF
面向专利机器翻译的要素句蜕识别和转换研究 被引量:3
10
作者 张冬梅 晋耀红 《计算机科学》 CSCD 北大核心 2014年第S1期67-71,共5页
为了改善专利机器翻译中要素句蜕的翻译效果,提出了一种基于规则的要素句蜕识别和转换方法。通过分析汉语要素句蜕的格式,提取了汉语要素句蜕的描述特征,在此基础上制定了要素句蜕的识别规则。通过对比汉英要素句蜕,总结了两者的差异,... 为了改善专利机器翻译中要素句蜕的翻译效果,提出了一种基于规则的要素句蜕识别和转换方法。通过分析汉语要素句蜕的格式,提取了汉语要素句蜕的描述特征,在此基础上制定了要素句蜕的识别规则。通过对比汉英要素句蜕,总结了两者的差异,在此基础上制定了汉英要素句蜕的转换规则。最后,将识别规则和转换规则应用到一个已有的机器翻译系统中。测试结果表明,这种方法可以有效地实现对要素句蜕的识别和转换,进而提高了专利文本中要素句蜕的机器翻译效果。 展开更多
关键词 要素句蜕 识别 转换 规则 机器翻译 专利
在线阅读 下载PDF
一种混合策略的专利机器翻译系统研究 被引量:13
11
作者 晋耀红 《计算机工程与应用》 CSCD 2012年第4期29-32,共4页
针对专利文本翻译中的复杂语句,提出了一种基于混合策略的方法,融合语义分析技术和基于规则的翻译技术,来提高专利翻译的效果。利用语义分析技术,重点解决句子中心动词识别和句子中有嵌套结构存在的名称短语的分析,把语义分析结果输入... 针对专利文本翻译中的复杂语句,提出了一种基于混合策略的方法,融合语义分析技术和基于规则的翻译技术,来提高专利翻译的效果。利用语义分析技术,重点解决句子中心动词识别和句子中有嵌套结构存在的名称短语的分析,把语义分析结果输入到基于规则的翻译系统中,用以改善翻译的效果。测试结果表明,融合后的翻译系统,BLEU值提高了9.8%。该方法已经集成到了国家知识产权局的在线汉英机器翻译系统中,有效地提高了专利翻译的效果和翻译效率。 展开更多
关键词 语义分析 机器翻译 语义特征 概念层次网络 专利文献
在线阅读 下载PDF
汉英机器翻译中格式转换研究 被引量:2
12
作者 刘智颖 郭艳波 晋耀红 《计算机工程与应用》 CSCD 2014年第6期192-196,共5页
格式在HNC理论中是指广义作用句各主语块位置的不同排列组合方式。由于主语块的排列方式在汉英两种语言中表达的差异,汉语句子翻译到英语时常常发生格式转换。格式转换是HNC机器翻译理论的一个重要内容,是机器翻译理论实践的基础和前提... 格式在HNC理论中是指广义作用句各主语块位置的不同排列组合方式。由于主语块的排列方式在汉英两种语言中表达的差异,汉语句子翻译到英语时常常发生格式转换。格式转换是HNC机器翻译理论的一个重要内容,是机器翻译理论实践的基础和前提。以HNC机器翻译理论为指导,以真实文本的专利文献汉英句对为分析对象,研究专利机器翻译中汉英两种语言之间广义作用句的格式转换规律,制定了排除规则、识别规则和转换规则,对部分规则进行了人工评测,结果表明准确率能达到85%左右。 展开更多
关键词 格式转换 广义作用句 机器翻译
在线阅读 下载PDF
汉语介词短语自动识别研究综述 被引量:1
13
作者 李洪政 晋耀红 《中文信息学报》 CSCD 北大核心 2017年第2期1-10,共10页
作为一种重要的短语类型,介词短语在汉语中分布广泛,正确识别汉语介词短语对自然语言处理领域的很多任务和应用都有重要的作用和意义。该文对近些年与识别汉语介词短语有关的研究做了梳理,从研究对象、实验评价标准和具体研究方法等几... 作为一种重要的短语类型,介词短语在汉语中分布广泛,正确识别汉语介词短语对自然语言处理领域的很多任务和应用都有重要的作用和意义。该文对近些年与识别汉语介词短语有关的研究做了梳理,从研究对象、实验评价标准和具体研究方法等几个方面比较详细地介绍了相关工作,最后归纳了汉语介词短语识别研究中表现出来的一些特点,并对未来研究的发展提出了几点建议。 展开更多
关键词 介词短语 识别 规则 统计
在线阅读 下载PDF
汉语词汇测试自动命题研究 被引量:4
14
作者 胡韧奋 《中文信息学报》 CSCD 北大核心 2017年第1期41-49,共9页
为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难度的词汇知识考查。在词语特征的提取上,构建... 为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难度的词汇知识考查。在词语特征的提取上,构建了一个覆盖词音、词形、词义、语法、搭配、偏误各层次信息的词汇知识库,在句子特征的提取上,实现了语法项目自动识别、句子难度分析等算法,为自动命题中的题干句、目标词和干扰项选择提供依据。通过词句选择和语块合成等步骤,生成四种题型共计7 263道词汇测试题。人工测试数据显示,词汇测试自动命题的初步尝试取得了较好的效果,约58%的试题被评价为完全合理,经人工简单调整,试题接受率达到75.7%。 展开更多
关键词 二语教学 词汇测试 自动命题
在线阅读 下载PDF
专利文本翻译中复杂长句翻译算法研究
15
作者 晋耀红 《计算机应用研究》 CSCD 北大核心 2011年第8期2893-2896,2901,共5页
针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的... 针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的翻译系统的BLEU值达到0.189 8,比融合前的系统提高了30%。实验结果证明,提出的方法可以有效地改进专利翻译效果。 展开更多
关键词 切分 机器翻译 语义特征 概念层次网络 专利
在线阅读 下载PDF
古汉语词义标注语料库的构建及应用研究 被引量:6
16
作者 舒蕾 郭懿鸾 +2 位作者 王慧萍 张学涛 胡韧奋 《中文信息学报》 CSCD 北大核心 2022年第5期21-30,共10页
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单... 古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。 展开更多
关键词 古代汉语 语料库 词义标注 词义消歧
在线阅读 下载PDF
汉语二语教学领域词义标注语料库的研究及构建 被引量:2
17
作者 王敬 杨丽姣 +2 位作者 蒋宏飞 苏靖杰 付静玲 《中文信息学报》 CSCD 北大核心 2017年第1期221-229,共9页
词汇教学在汉语二语教学领域占有极为重要的地位,其中多义词又是词汇教学的重点和难点。该研究通过分析三部经典领域词表,选取了1 181个重点多义词,以《现代汉语词典(第6版)》为标注体系,制定了适合实际标注的多义词标注规范和形式,在19... 词汇教学在汉语二语教学领域占有极为重要的地位,其中多义词又是词汇教学的重点和难点。该研究通过分析三部经典领域词表,选取了1 181个重点多义词,以《现代汉语词典(第6版)》为标注体系,制定了适合实际标注的多义词标注规范和形式,在197册经典汉语二语教材上进行了多义词词义标注,构建了一个规模约350万字的面向汉语二语教学领域的词义标注语料库,并在此基础上对1 811个多义词、4 323个多义词义项进行了计量统计,分析了多义词不同词义的出现情况及其分布规律。为了更好地服务于汉语二语教学,开发了语料库检索系统,设计并实现了多义词义项的查询功能。 展开更多
关键词 汉语二语教学 语料库 多义词标注
在线阅读 下载PDF
现代汉字形声字声符在普通话中的表音度测查 被引量:7
18
作者 胡韧奋 曹冰 杜健一 《中文信息学报》 CSCD 北大核心 2013年第3期41-47,共7页
"形声"作为一种重要的造字方式,构筑了汉字家族中最为庞大的一支。造字之初,形声字以形符表义,以声符表音。随着时代的发展,声符的表音度渐渐发生变化,为人们准确地标音读字造成了一定困难。该文试采用聚类分析的方法,以普通... "形声"作为一种重要的造字方式,构筑了汉字家族中最为庞大的一支。造字之初,形声字以形符表义,以声符表音。随着时代的发展,声符的表音度渐渐发生变化,为人们准确地标音读字造成了一定困难。该文试采用聚类分析的方法,以普通话中3 500常用汉字为对象,结合语言学理论和计算机知识,依据声符表音程度相同、相似和不同制定详细分级标准,并得到每一层级的形声字表和百分数据,从而对现代汉字中形声字声符的表音度情况进行系统、直观而全面地呈现,以期为现代汉字规范的制定和汉语教学提供一定的参考和佐证。 展开更多
关键词 现代汉字 形声字 声符 表音度 聚类分析
在线阅读 下载PDF
基于语言学特征向量和词嵌入向量的汉语动词事件类型预测 被引量:2
19
作者 刘洪超 黄居仁 +1 位作者 侯仁魁 李洪政 《中文信息学报》 CSCD 北大核心 2018年第1期26-33,共8页
该文主要介绍汉语动词事件类型的预测。事件类型是根据内部时间结构对汉语动词进行的重要分类,包括状态、活动、变化(完结和达成)。对汉语动词事件类型进行预测从理论上能够对以往语言学研究提出的特征进行验证,从应用上可以服务于机器... 该文主要介绍汉语动词事件类型的预测。事件类型是根据内部时间结构对汉语动词进行的重要分类,包括状态、活动、变化(完结和达成)。对汉语动词事件类型进行预测从理论上能够对以往语言学研究提出的特征进行验证,从应用上可以服务于机器翻译等任务。该文基于两种方式构建词向量进行汉语动词事件类型的预测,一种是根据语言学特征有监督地构建词向量,另一种是利用word2vec无监督地构建词嵌入向量。通过多元逻辑回归、支持向量机和人工神经网络分类器对汉语动词事件类型进行预测,最终实现了73.6%的总体准确率。 展开更多
关键词 事件类型 汉语动词 语言学特征 词嵌入 分类 预测
在线阅读 下载PDF
基于HNC的现代汉语词语知识库建设 被引量:3
20
作者 苗传江 刘智颖 《云南师范大学学报(哲学社会科学版)》 CSSCI 2010年第4期15-18,共4页
基于HNC的汉语词语知识库是HNC知识库系统的重要组成部分,它以句类知识为核心,从概念、语句和语境三个层面提供汉语理解处理所需的知识。经过10多年的建设,该库已达到80,000多词的规模,成为中文信息处理、汉语教学和汉语本体研究的宝贵... 基于HNC的汉语词语知识库是HNC知识库系统的重要组成部分,它以句类知识为核心,从概念、语句和语境三个层面提供汉语理解处理所需的知识。经过10多年的建设,该库已达到80,000多词的规模,成为中文信息处理、汉语教学和汉语本体研究的宝贵资源。 展开更多
关键词 HNC理论 词语知识库 现代汉语 中文信息处理 自然语言理解
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部