期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
古汉语大语言模型的构建及应用研究 被引量:6
1
作者 李绅 胡韧奋 王立军 《语言战略研究》 CSSCI 北大核心 2024年第5期22-33,共12页
通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI太炎”。通过合理的模型... 通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI太炎”。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持句读标点、典故识别、词义解释及文白翻译等多种具有挑战性的文言文理解任务,兼容简体字和繁体字文本。实验显示,与大型通用模型和其他领域模型相比,“AI太炎”在多项古汉语信息处理关键任务上表现出明显优势,且达到了接近或超过人类基线的水平。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。 展开更多
关键词 大语言模型 古汉语信息处理 人工智能
在线阅读 下载PDF
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究 被引量:26
2
作者 程宁 李斌 +2 位作者 葛四嘉 郝星月 冯敏萱 《中文信息学报》 CSCD 北大核心 2020年第4期1-9,共9页
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析... 古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。 展开更多
关键词 文断句 分词 词性标注 BiLSTM-CRF 古汉语信息处理
在线阅读 下载PDF
时间维度下的史籍全文自动重组研究--数字人文视角下的探索 被引量:4
3
作者 张琪 王东波 +3 位作者 黄水清 李斌 孟凯 邓三鸿 《图书情报知识》 CSSCI 北大核心 2022年第1期51-60,147,共11页
[目的/意义]本文从数字人文的视角出发,试图探究一套具体的技术方法解决古汉语时间描述所存在的省略、共指、歧义、模糊等问题,使得读者可以跨越纪传体、国别体、纪事本末体等体裁壁垒,获取不同史书中关于某一时间段的所有史料。[研究设... [目的/意义]本文从数字人文的视角出发,试图探究一套具体的技术方法解决古汉语时间描述所存在的省略、共指、歧义、模糊等问题,使得读者可以跨越纪传体、国别体、纪事本末体等体裁壁垒,获取不同史书中关于某一时间段的所有史料。[研究设计/过程]在梳理古汉语时间描述类型与特征的基础上,提出一套以时间为线索自动重组史书全文的方法。该方法首先识别古汉语时间描述并进行语义解析,继而识别事件句并将事件句关联至时间描述,最后将提出的方法应用于纪传体史书《史记》和国别体史书《国语》的重组中,检验方法的有效性。[结论/发现]本研究所提出的方法能够有效实现纪传体、国别体史书以时间为线索的重组问题,在有效减少人工标注的前提下达到了较高的准确率。[创新/价值]针对古汉语时间描述存在的歧义与共指等问题,提出一套完整的以时间为线索自动重组史书全文的方法,并通过实验验证了方法的有效性。 展开更多
关键词 数字人文 史书 汉语时间信息处理 汉语时间表达式消歧 事件时间语义关联
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部