期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
古汉语大语言模型的构建及应用研究
被引量:
6
1
作者
李绅
胡韧奋
王立军
《语言战略研究》
CSSCI
北大核心
2024年第5期22-33,共12页
通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI太炎”。通过合理的模型...
通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI太炎”。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持句读标点、典故识别、词义解释及文白翻译等多种具有挑战性的文言文理解任务,兼容简体字和繁体字文本。实验显示,与大型通用模型和其他领域模型相比,“AI太炎”在多项古汉语信息处理关键任务上表现出明显优势,且达到了接近或超过人类基线的水平。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。
展开更多
关键词
大语言模型
古汉语信息处理
人工智能
在线阅读
下载PDF
职称材料
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究
被引量:
26
2
作者
程宁
李斌
+2 位作者
葛四嘉
郝星月
冯敏萱
《中文信息学报》
CSCD
北大核心
2020年第4期1-9,共9页
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析...
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。
展开更多
关键词
古
文断句
分词
词性标注
BiLSTM-CRF
古汉语信息处理
在线阅读
下载PDF
职称材料
时间维度下的史籍全文自动重组研究--数字人文视角下的探索
被引量:
4
3
作者
张琪
王东波
+3 位作者
黄水清
李斌
孟凯
邓三鸿
《图书情报知识》
CSSCI
北大核心
2022年第1期51-60,147,共11页
[目的/意义]本文从数字人文的视角出发,试图探究一套具体的技术方法解决古汉语时间描述所存在的省略、共指、歧义、模糊等问题,使得读者可以跨越纪传体、国别体、纪事本末体等体裁壁垒,获取不同史书中关于某一时间段的所有史料。[研究设...
[目的/意义]本文从数字人文的视角出发,试图探究一套具体的技术方法解决古汉语时间描述所存在的省略、共指、歧义、模糊等问题,使得读者可以跨越纪传体、国别体、纪事本末体等体裁壁垒,获取不同史书中关于某一时间段的所有史料。[研究设计/过程]在梳理古汉语时间描述类型与特征的基础上,提出一套以时间为线索自动重组史书全文的方法。该方法首先识别古汉语时间描述并进行语义解析,继而识别事件句并将事件句关联至时间描述,最后将提出的方法应用于纪传体史书《史记》和国别体史书《国语》的重组中,检验方法的有效性。[结论/发现]本研究所提出的方法能够有效实现纪传体、国别体史书以时间为线索的重组问题,在有效减少人工标注的前提下达到了较高的准确率。[创新/价值]针对古汉语时间描述存在的歧义与共指等问题,提出一套完整的以时间为线索自动重组史书全文的方法,并通过实验验证了方法的有效性。
展开更多
关键词
数字人文
史书
古
汉语
时间
信息
处理
古
汉语
时间表达式消歧
事件时间语义关联
在线阅读
下载PDF
职称材料
题名
古汉语大语言模型的构建及应用研究
被引量:
6
1
作者
李绅
胡韧奋
王立军
机构
北京师范大学文学院
北京师范大学国际中文教育学院
出处
《语言战略研究》
CSSCI
北大核心
2024年第5期22-33,共12页
基金
国家语委重大项目“古籍整理智能化关键技术研究”(ZDA145-9)
国家社科基金重大招标项目“基于历代训释资源库的中国阐释学理论体系构建与实践”(22&ZD257)。
文摘
通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI太炎”。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持句读标点、典故识别、词义解释及文白翻译等多种具有挑战性的文言文理解任务,兼容简体字和繁体字文本。实验显示,与大型通用模型和其他领域模型相比,“AI太炎”在多项古汉语信息处理关键任务上表现出明显优势,且达到了接近或超过人类基线的水平。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。
关键词
大语言模型
古汉语信息处理
人工智能
Keywords
large language model
information processing of ancient Chinese
artifi cial intelligence
分类号
H002 [语言文字—语言学]
在线阅读
下载PDF
职称材料
题名
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究
被引量:
26
2
作者
程宁
李斌
葛四嘉
郝星月
冯敏萱
机构
南京师范大学文学院
哈佛大学计量社会科学研究所
出处
《中文信息学报》
CSCD
北大核心
2020年第4期1-9,共9页
基金
国家自然科学基金(71673143)
国家语委科研项目(WT135-24,YB135-61)
江苏省高校哲学社会科学优秀创新团队建设项目(2017STD006)
文摘
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。
关键词
古
文断句
分词
词性标注
BiLSTM-CRF
古汉语信息处理
Keywords
sentence segmentation of ancient Chinese
word segmentation
part-of-speech tagging
BiLSTM-CRF
ancient Chinese information processing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
时间维度下的史籍全文自动重组研究--数字人文视角下的探索
被引量:
4
3
作者
张琪
王东波
黄水清
李斌
孟凯
邓三鸿
机构
南京大学信息管理学院
南京农业大学信息管理学院
南京师范大学文学院
南京农业大学马克思主义学院
江苏省数据工程与知识服务重点实验室
出处
《图书情报知识》
CSSCI
北大核心
2022年第1期51-60,147,共11页
基金
国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)
国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(71673143)的研究成果之一。
文摘
[目的/意义]本文从数字人文的视角出发,试图探究一套具体的技术方法解决古汉语时间描述所存在的省略、共指、歧义、模糊等问题,使得读者可以跨越纪传体、国别体、纪事本末体等体裁壁垒,获取不同史书中关于某一时间段的所有史料。[研究设计/过程]在梳理古汉语时间描述类型与特征的基础上,提出一套以时间为线索自动重组史书全文的方法。该方法首先识别古汉语时间描述并进行语义解析,继而识别事件句并将事件句关联至时间描述,最后将提出的方法应用于纪传体史书《史记》和国别体史书《国语》的重组中,检验方法的有效性。[结论/发现]本研究所提出的方法能够有效实现纪传体、国别体史书以时间为线索的重组问题,在有效减少人工标注的前提下达到了较高的准确率。[创新/价值]针对古汉语时间描述存在的歧义与共指等问题,提出一套完整的以时间为线索自动重组史书全文的方法,并通过实验验证了方法的有效性。
关键词
数字人文
史书
古
汉语
时间
信息
处理
古
汉语
时间表达式消歧
事件时间语义关联
Keywords
Digital humanities
Historical records
Ancient Chinese temporal expression processing
Ancient Chinese time expression disambiguation
Event-time relation extraction
分类号
G250 [文化科学—图书馆学]
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
古汉语大语言模型的构建及应用研究
李绅
胡韧奋
王立军
《语言战略研究》
CSSCI
北大核心
2024
6
在线阅读
下载PDF
职称材料
2
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究
程宁
李斌
葛四嘉
郝星月
冯敏萱
《中文信息学报》
CSCD
北大核心
2020
26
在线阅读
下载PDF
职称材料
3
时间维度下的史籍全文自动重组研究--数字人文视角下的探索
张琪
王东波
黄水清
李斌
孟凯
邓三鸿
《图书情报知识》
CSSCI
北大核心
2022
4
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部