期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于MU序列标注的古籍命名实体识别研究
1
作者 许乾坤 王东波 +1 位作者 刘禹彤 黄水清 《情报学报》 北大核心 2025年第6期736-747,共12页
命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助... 命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助力古籍资源的智能利用和开发。首先,选取本课题组精加工的二十四史古籍作为原始数据集,使用GujiBERT_FAN预训练模型对Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法进行微调,从而更准确地捕捉实体边界和类型,对古籍文本中的实体进行识别和预测。其次,本文引入多数投票(Majority Voting Combiner,MVC)和合并(Union Combiner,UC)的方法,与预测数据集进行整合并构建新的数据集,基于已识别实体数据集,使用MVC和UC方法结合NER(Named Entity Recognition)模型的预测结果重新生成新的数据集。最后,通过学习判断Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法对实体的预测结果是否错误,并使用提示的思路对模型进行微调。为验证本文提出的方法,采用评估指标来验证模型的效果。实验结果表明,UC方法的加入使得实体识别的召回率显著提升,MVC方法提升了模型的F1值。 展开更多
关键词 序列标注 命名实体识别 二十四史 MU方法 跨度预测
在线阅读 下载PDF
大语言模型评测研究现状、应用、问题与趋势分析
2
作者 赵雪 张海 王东波 《情报学报》 北大核心 2025年第8期1058-1074,共17页
大语言模型(large language model,LLM)评测应包含于科学评价体系之中,探究大语言模型评测相关概念内涵,理析其研究现状、应用、局限和趋势,以期推动大语言模型评测研究与应用。本文探讨大语言模型评测相关概念内涵,全面追踪现有关大语... 大语言模型(large language model,LLM)评测应包含于科学评价体系之中,探究大语言模型评测相关概念内涵,理析其研究现状、应用、局限和趋势,以期推动大语言模型评测研究与应用。本文探讨大语言模型评测相关概念内涵,全面追踪现有关大语言模型评测的研究进展,运用归纳法对现有研究进行分类,分析大语言模型评测研究的现状、应用、局限及发展趋势。研究发现,评测基准已达上百种,涉及大语言模型的理解与生成、知识、伦理安全、多模态等多方面能力。相关研究聚焦评测大语言模型的通用能力,并不断向垂直领域拓展,但目前存在评测体系亟待建立、数据集丰富度不足、评测方法单一等局限。建立科学统一的评价体系、开展多模态评测研究、拓展垂直领域应用评测、与用户研究相结合将成为未来大语言模型评测的前沿课题。 展开更多
关键词 大语言模型 科学评测 人工智能 评测基准 体系构建
在线阅读 下载PDF
基于数字远读技术的社会画像构建方法研究 被引量:1
3
作者 何琳 艾毓茜 +1 位作者 刘建斌 彭秋茹 《现代情报》 CSSCI 2022年第7期22-30,共9页
[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内... [目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论]借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。 展开更多
关键词 社会画像 数字远读 用户画像 文本挖掘 社会发展
在线阅读 下载PDF
基于大语言模型的成语隐喻式构词方法及其应用:知识重组、回溯与发现
4
作者 张卫 王东波 刘浏 《情报学报》 北大核心 2025年第9期1083-1098,共16页
数智时代下,生成式人工智能(generative artificial intelligence,GenAI)为传统人文知识组织、挖掘与生产赋予了新动能。利用人工智能生成内容(artificial intelligence generated content,AIGC)范式将古人对典籍文献进行的成语摘引、... 数智时代下,生成式人工智能(generative artificial intelligence,GenAI)为传统人文知识组织、挖掘与生产赋予了新动能。利用人工智能生成内容(artificial intelligence generated content,AIGC)范式将古人对典籍文献进行的成语摘引、沿用、固化等信息行为重塑为智能化构词模式,对于现有人文知识体系的结构重组、历史回溯、概念发现具有重要意义。本文从文化基因理论与构词法视角提出一套基于大语言模型的成语隐喻式构词方法。首先,面向成语出处定义<短语结构,物象标签(源域),情感标签(目标域)>的隐喻式构词知识体系,利用“出处-构词体系”对照语料构造问答数据集;其次,引入生成式大模型进行短语抽取、隐喻识别的成语构词多任务学习,并重点探索依存句法知识注入下构词大模型指令微调的增强效果。研究发现,训练后的大模型能够面向成语出处文本实现隐喻式构词结构的有效生成,“荀子”模型在多个任务的各项指标上均优于qwen7b、llama3_8b、GPT-4o等通用大模型;依存句法知识能够有效激发大模型理解能力,使得词汇结构、物象标签、情感标签识别准确率分别进一步提升至86.11%、87.82%、85.39%。以《全唐诗》为例展开大模型数字人文应用可知,诗句内的成语识别可实现“成语—诗歌—诗人”链式知识重组,大模型生成结果的时间序列分析实现了130个成语出处的知识回溯(最多向前回溯1000余年),并在成语隐喻文化基因继承下完成了大规模新短语的知识发现,编纂出具有文化产业实践价值的意象主题词表。 展开更多
关键词 数字人文 大语言模型 成语隐喻 构词法 短语抽取
在线阅读 下载PDF
基于机器阅读理解的古文事件抽取研究 被引量:2
5
作者 喻雪寒 何琳 王献琪 《情报学报》 CSSCI CSCD 北大核心 2023年第3期316-326,共11页
准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理... 准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理解模式,将事件抽取中出现的“事件类型”和“论元角色”糅合为问题形式,由此输出的答案即为事件论元。分别选取编年体史书《左传》和纪传体史书《史记》作为训练和泛化的数据,在具体的泛化过程中引入混淆句以验证模型效果,为古文事件抽取提供了可参照的思路。 展开更多
关键词 古籍文本 机器阅读理解 事件抽取 RoBERTa 混淆句
在线阅读 下载PDF
重建知识源流:将结构化知识自动溯源至史籍原文 被引量:1
6
作者 张琪 孔嘉 +3 位作者 胡昊天 王东波 王昊 邓三鸿 《情报学报》 CSSCI CSCD 北大核心 2024年第4期405-415,共11页
将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术... 将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术和方法,提出了结构化历史知识溯源框架;其次,在构造数据集的基础上,通过实验对比了BERT(bidirectional encoder representations from transformers)、SikuBERT与GPT-3(generative pre-trained transformer 3)、GPT-4等不同预训练模型和不同输入策略对知识溯源效果的影响,构建了结构化历史知识溯源模型SHK-Tracer(structured historical knowledge tracing model),其精确率为80.19%;最后,采用SHK-Tracer将史记多维知识库(Shiji Mutil-dimensional Knowledge Base,SMKB)分别溯源至不同的史书,发现《史记》与《左传》《国语》中各史料片段的知识重合度及片段本身所包含的信息含量不成正比。本研究结果一方面能够支持相关读者核验知识真伪、提供不同史料之间的相互参照以及结合史料年代等信息确定知识源头,另一方面能够为史籍知识计量、关系抽取和语言风格计算等数字人文研究提供基础语料。 展开更多
关键词 知识服务 知识溯源 知识计量 数字人文 知识三元组
在线阅读 下载PDF
学术共同体共谋:特邀学者笔谈 被引量:3
7
作者 曹树金 邓小昭 +14 位作者 傅文奇 黄水清 金波 李广建 刘冰 沈固朝 孙建军 吴建中 王曰芬 肖希明 叶继元 于良芝 臧国全 周瑛 朱庆华 《图书情报知识》 CSSCI 北大核心 2020年第5期138-169,共32页
在本篇笔谈中,特别邀请了图书情报与档案管理、信息与数据管理领域的知名学者,畅谈他们在本领域从业、从教、从研等方面的体会和感想。构建和维护良好的学术共同体,是学界共同的使命和责任。
关键词 学术共同体 文华精神 图书情报学 图情档教育 学科发展
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部