期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
中国XCO_(2)无缝隙逐日数据集构建及时空分布
1
作者 刘昭华 谢鹏 +2 位作者 曾昭亮 桂柯 王亚强 《应用气象学报》 北大核心 2025年第4期414-426,共13页
二氧化碳(CO_(2))是关键温室气体,准确掌握其空间分布有助于实现碳达峰与碳中和目标。大气CO_(2)柱平均干空气体积混合比(XCO_(2))是表征大气中CO_(2)体积分数的重要指标。由于卫星观测的XCO_(2)数据受限于狭窄的条带和云层等因素,常出... 二氧化碳(CO_(2))是关键温室气体,准确掌握其空间分布有助于实现碳达峰与碳中和目标。大气CO_(2)柱平均干空气体积混合比(XCO_(2))是表征大气中CO_(2)体积分数的重要指标。由于卫星观测的XCO_(2)数据受限于狭窄的条带和云层等因素,常出现空间数据缺失,因此构建高精度时空无缝XCO_(2)数据集尤为关键。基于轨道碳观测卫星2号(OCO-2)的XCO_(2)观测值,结合多源环境因素,采用XGBoost模型构建了2015年1月-2024年3月中国地区0.05°×0.05°高精度无缝隙逐日XCO_(2)数据集。模型的交叉验证和地面站点验证结果均显示优异的精度,且与瓦里关大气本底站的观测数据变化趋势一致,验证了数据集的高精度和可靠性。基于该数据集,发现中国XCO_(2)的空间分布呈现东高西低特征,高值区主要集中在京津冀、长江三角洲、粤港澳等地区。全国年平均XCO_(2)呈增长趋势,由2015年的401.00×10^(-6)上升至2023年的419.91×10^(-6),年平均增长为2.36×10^(-6),但增长速率逐渐放缓。XCO_(2)季节性波动呈冬春高、夏秋低趋势,可能与植被固碳活动相关。 展开更多
关键词 XCO_(2) 机器学习 数据集构建 时空分布
在线阅读 下载PDF
基于多尺度残差网络的隔震构造质量检测研究
2
作者 党育 何亚 《东南大学学报(自然科学版)》 北大核心 2025年第1期183-193,共11页
为实现隔震构造质量的自动化检测,提出了一种基于计算机视觉的隔震构造质量检测方法。按照隔震构造图像特征和缺陷情况,将隔震构造分为7类。通过收集和拍摄全国已建的315栋隔震工程图片,构建了隔震构造数据集。参考多尺度残差网络模型Re... 为实现隔震构造质量的自动化检测,提出了一种基于计算机视觉的隔震构造质量检测方法。按照隔震构造图像特征和缺陷情况,将隔震构造分为7类。通过收集和拍摄全国已建的315栋隔震工程图片,构建了隔震构造数据集。参考多尺度残差网络模型Res2Net50,设计搭建了一个隔震构造质量初步检测模型ISDNet V2,该模型在Res2Net50的基础上,采用多个小卷积核堆叠,测试集结果表明:模型对各类隔震构造的识别平均准确率达到95.98%,F1分值均大于0.93,说明该模型对复杂背景的各类别隔震构造实拍图片具有很高的检测精度,检测结果偏于工程安全。对设置水平隔震缝的隔震构造,模型不仅能区别是否有缺陷,还可确定出缺陷位置。 展开更多
关键词 多尺度残差网络 隔震构造 数据集 质量检测
在线阅读 下载PDF
基于判决链的法律判决预测
3
作者 吕由钢 郝继泰 +5 位作者 王梓涵 高莘 任鹏杰 陈竹敏 马军 任昭春 《计算机研究与发展》 北大核心 2025年第8期1918-1930,共13页
智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经引起了自然语言处理社区的极大关注.作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和... 智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经引起了自然语言处理社区的极大关注.作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和刑罚条款),成为人工智能技术的一个有前景的应用.然而,现有的法律判决预测方法主要集中在只涉及单一被告的案件上,而忽略了涉及多个被告的案件研究.在实际的刑事案件中,往往涉及多个被告者,并且在他们之间存在着错综复杂的交互关系,现有的单被告法律判决预测技术很难精确区分多被告案件中不同被告的判决结果.为了加速多被告法律判决预测任务的研究,收集了一个大规模的多被告法律判决预测数据集,其具有以下3个特点:1)数据集是多被告法律判决预测最大的人工标注数据集;2)数据集中的多被告案件需要区分不同被告者的法律判决预测结果;3)数据集中包含了完整的多被告判决链,其中包括犯罪关系、量刑情节、法条、罪名和刑期.此外,对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析.此外,提出了基于判决链的法律判决预测方法,其中包括判决链生成策略明确生成犯罪事实相关的判决链,判决链对比策略对比正确判决链和易混淆的判决链来进一步提升效果.实验结果表明,多被告法律判决预测数据集对现有的法律判决预测方法和预训练模型具有挑战性,而基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在法律判决预测中的关键作用. 展开更多
关键词 法律判决预测 判决链 数据集构建 数据集分析 大语言模型
在线阅读 下载PDF
基于数字实体特征的藏文问答数据集构建
4
作者 官却才让 杨毛加 +2 位作者 柔特 班玛宝 才让加 《中文信息学报》 北大核心 2025年第3期59-65,共7页
藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:... 藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:首先,详细分析藏文数字实体的特征并在藏文数字实体分类的基础上,采用BERT-BiLSTM-CRF模型识别藏文数字实体,作为问答三元组(S,Q,A)中的答案(A),经测试,此方法在测试集上的F值可达84.67%;其次,利用藏文数字实体与疑问词间的先验对应关系,设计一种基于数字实体的藏文问题生成算法,以自动生成藏文问题(即问答三元组中的Q);最后,合并原文(S)、问题(Q)和答案(A)来构建三元组藏文问答数据集。通过该方法构建了规模为139786个问答三元组的藏文问答数据集,为进一步研究藏文问答系统奠定了数据基础。 展开更多
关键词 自然语言处理 数字实体 问答系统 数据集构建
在线阅读 下载PDF
中文动词实现状态数据集构建
5
作者 徐进 辛欣 《中文信息学报》 北大核心 2025年第2期27-40,共14页
判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面... 判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信息,总结了中文动词实现状态标注规范。针对中文目前缺少动词实现状态相关语料的问题,该文构建了中文动词实现状态数据集,包括5430条语句和21226个中文动词实例。实验表明,神经网络模型在处理描述客观规律以及缺少时间提示词等情况下的分类时还欠准确。 展开更多
关键词 中文动词实现状态 数据集构建
在线阅读 下载PDF
基于时间编码超表面的跌倒特征模拟与Wi-Fi感知数据集辅助构建
6
作者 陈少楠 顾家铭 +8 位作者 徐超 孙一淼 王思然 陈展野 刘硕 李会东 戴俊彦 何源 程强 《雷达学报(中英文)》 北大核心 2025年第4期950-960,共11页
随着Wi-Fi感知技术在智能健康监测领域的广泛应用,如何构建高质量的数据集成为亟待解决的关键问题。特别是在监测异常行为(如跌倒)时,传统方法依赖于人体的反复实验,这既存在安全隐患,又面临伦理困境。为应对这一挑战,该文提出了一种基... 随着Wi-Fi感知技术在智能健康监测领域的广泛应用,如何构建高质量的数据集成为亟待解决的关键问题。特别是在监测异常行为(如跌倒)时,传统方法依赖于人体的反复实验,这既存在安全隐患,又面临伦理困境。为应对这一挑战,该文提出了一种基于时间编码超表面的辅助数据样本采集方法。通过模拟人体的运动特征,时间编码超表面可以有效替代人体实验,用于辅助构建Wi-Fi感知数据集。为此该文设计了一款具备0~360°全相位调制能力的时间编码超表面验证了该方案的可行性。实验结果表明,超表面生成的信号能够较好地保留人体运动特征,有效补充真实样本,降低数据采集复杂度,并显著提升模型的监测准确性。该方法为Wi-Fi感知技术的数据采集提供了一种创新且可行的解决方案。 展开更多
关键词 Wi-Fi感知 时间编码超表面 运动特征生成 数据集构建 LeNet分类网络
在线阅读 下载PDF
大语言模型的中文多轮指令遵循能力评测研究
7
作者 朱秦 何俊亮 +1 位作者 邱锡鹏 黄萱菁 《中文信息学报》 北大核心 2025年第6期168-178,共11页
该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构... 该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构、拼音、音调等特性,并结合规则与LLM对多轮问题的合法性进行复查,确保评测结果的准确性。在实验中,选取了包括GPT4o和Qwen2.5-72B-Instruct在内的14个开源及闭源模型进行评估。结果显示,主流模型在单轮对话场景中具有较好的指令遵循能力,但多轮对话表现仍有较大提升空间。其中,单轮指令级准确率最高的Claude-3.5-Sonnet在多轮场景下准确率从73.8%下降至40.0%。此外,这些模型在处理中文原子指令时表现出明显的性能下降,中文任务的综合准确率最高仅为51.0%,显著低于其他四类任务平均79.0%的综合准确率。 展开更多
关键词 指令遵循 多轮对话 大语言模型 数据集构建
在线阅读 下载PDF
基于提示学习的记叙文篇章成分识别研究
8
作者 王晓艺 王炯 +1 位作者 刘杰 周建设 《计算机科学》 北大核心 2025年第6期330-335,共6页
篇章结构分析是作文自动评分中的重要技术之一,也是自然语言处理领域中的重要研究内容。近年来,作文篇章结构分析的研究很少且主要集中于议论文,对记叙文的研究还较少,尤其是在记叙文篇章结构方面,研究方法和研究资源都相对有限。针对... 篇章结构分析是作文自动评分中的重要技术之一,也是自然语言处理领域中的重要研究内容。近年来,作文篇章结构分析的研究很少且主要集中于议论文,对记叙文的研究还较少,尤其是在记叙文篇章结构方面,研究方法和研究资源都相对有限。针对这些问题,文中构建了面向中小学记叙文篇章成分识别的数据集,使用基于BERT-BiLSTM的语料自动标注模型提高标注效率,并对内容分布以及语料标注的一致性进行了统计分析。提出了基于提示学习的记叙文篇章成分识别方法,通过自动构建识别篇章成分的前缀提示模板,利用层次注意力机制学习更为丰富的文本特征,从而提高记叙文篇章结构识别能力。在自建数据集下进行实验,结果表明,所提出的方法识别记叙文篇章结构的准确率提高到85.80%,优于对比的预训练语言模型。 展开更多
关键词 数据集构建 篇章结构 作文自动评分 提示学习
在线阅读 下载PDF
空地协同场景下特殊障碍物数据集与检测算法评估系统构建
9
作者 冷呈宇 赵津 +1 位作者 刘畅 杨世凤 《兵工学报》 北大核心 2025年第6期203-215,共13页
在空地协同场景下,特殊障碍物的识别与处理对地面装备安全运行至关重要。针对非结构化环境中样本稀缺的问题,构建了包含33124张图像的检测数据集,覆盖多类典型特殊障碍物,支持复杂场景下的识别任务。为准确评估检测算法性能,设计融合类... 在空地协同场景下,特殊障碍物的识别与处理对地面装备安全运行至关重要。针对非结构化环境中样本稀缺的问题,构建了包含33124张图像的检测数据集,覆盖多类典型特殊障碍物,支持复杂场景下的识别任务。为准确评估检测算法性能,设计融合类别信息与定位精度的综合评价指标,增强模型对比的科学性。提出结合物理属性与环境语义的可通行性分析方法,为地面无人系统路径规划提供依据。实验结果表明,该数据集与评估体系显著提升检测精度,所提方法能有效识别坑洞、水面等典型特殊障碍物。 展开更多
关键词 特殊障碍物检测 空地协同 数据集构建 通行性策略
在线阅读 下载PDF
基于层次标注和自适应预处理的多源农业病害图像数据集构建
10
作者 胡婷 孙晓海 +2 位作者 宋海龙 廖昌义 王福德 《吉林大学学报(理学版)》 北大核心 2025年第3期815-821,共7页
针对农业病害图像数据集存在多样性和图像质量欠佳的问题,提出一种基于层次标注和自适应预处理的多源农业病害图像数据集构建方法.首先,利用智能手机、专业相机和无人机等设备从不同地区、作物种类及生长阶段采集图像,以确保数据的多样... 针对农业病害图像数据集存在多样性和图像质量欠佳的问题,提出一种基于层次标注和自适应预处理的多源农业病害图像数据集构建方法.首先,利用智能手机、专业相机和无人机等设备从不同地区、作物种类及生长阶段采集图像,以确保数据的多样性.其次,构建层次标注体系,涵盖农业病害类型、程度和部位3个层次,使用LabelImg和LabelMe等工具进行标注,并经专家审核.最后,应用自适应预处理方法,包括自动裁剪、归一化、去噪和增强,根据图像特征调整参数以提升质量.实验采用基于ResNet-50架构的卷积神经网络(CNN)模型进行验证,结果表明,层次标注和自适应预处理方法显著提升了数据集的质量和模型性能,模型在准确率、召回率和F1分数上分别达92.5%,91.8%和92.1%,优于其他数据集训练结果. 展开更多
关键词 农业病害图像 数据集构建 层次标注 自适应预处理 多源数据
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成
11
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
基于三重注意力的林业有害生物识别
12
作者 王莞茹 万映彤 唐赫 《林产工业》 北大核心 2025年第6期51-57,共7页
为提高我国林业有害生物防治的智能化水平,提出一种基于三重注意力的林业有害生物识别方法Triplet-attention Network(A3Net)。A3Net是一个细粒度图像识别网络,包含三种不同的注意力模块。其中,硬空间注意力模块根据感兴趣的区域自动裁... 为提高我国林业有害生物防治的智能化水平,提出一种基于三重注意力的林业有害生物识别方法Triplet-attention Network(A3Net)。A3Net是一个细粒度图像识别网络,包含三种不同的注意力模块。其中,硬空间注意力模块根据感兴趣的区域自动裁剪输入图像,软空间注意力模块对感兴趣区域在空间上增加更大的权重,通道注意力对特征通道重加权。网络包含多个循环路径,从而逐步聚焦林业有害生物的关键区域。为验证该方法的有效性,搜集了一个具有15种常见林业有害生物的数据集IP20。结果表明:相比于目前的最优方法,A3Net在林业有害生物识别任务上提高了1.90%的Top-1准确率和0.64%的Top-5准确率。 展开更多
关键词 林业有害生物识别 细粒度图像识别 深度神经网络 注意力 数据集构建
在线阅读 下载PDF
基于扩散模型的传像束光纤图像质量优化
13
作者 刘宝林 熊永平 +1 位作者 石岩 李晓龙 《计算机工程与设计》 北大核心 2025年第1期257-264,共8页
为解决现有图像质量优化算法对于传像束光纤图像存在去模糊不彻底和轮廓细节恢复效果差的挑战,提出一种基于扩散模型的方法FBIDiff(fiber bundle image quality optimization via diffusion models)。设计两阶段网络使图像信息逐步恢复... 为解决现有图像质量优化算法对于传像束光纤图像存在去模糊不彻底和轮廓细节恢复效果差的挑战,提出一种基于扩散模型的方法FBIDiff(fiber bundle image quality optimization via diffusion models)。设计两阶段网络使图像信息逐步恢复;引入扩散模型,使用残差策略学习图像轮廓信息;采用高低频分离思想,以解决图像中的轮廓等高频信息损失严重问题。实验结果表明,与现有算法相比,FBIDiff在结构相似性(structural similarity,SSIM)、学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)和图像显著性变换值(differentiable image saliency transform,DISTS)指标上分别获得2.6%、6.1%和4.1%的提升,有效解决了高频信息损失严重和去模糊不彻底等问题。 展开更多
关键词 扩散模型 传像束图像 图像质量优化 去模糊 频率分离 数据集构建 两阶段网络
在线阅读 下载PDF
基于平行交互注意力网络的中文电子病历实体及关系联合抽取 被引量:2
14
作者 李丽双 王泽昊 +1 位作者 秦雪洋 袁光辉 《中文信息学报》 CSCD 北大核心 2024年第6期108-118,共11页
基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性... 基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性,在多个标准的医学和通用数据集上取得最优结果;当前中文医学实体及关系标注数据集较少,该文基于中文电子病历构建了实体和关系抽取数据集(CEMRIE),与医学专家共同制定了语料标注规范,并基于该文所提出的模型实验得出基准结果。 展开更多
关键词 实体关系联合抽取 双向特征交互模块 自注意力机制 中文电子病历 数据集标注与构建
在线阅读 下载PDF
基于深度学习的盾构隧道表观病害自动检测方法 被引量:2
15
作者 王宝坤 王如路 +2 位作者 陈锦剑 潘越 王鲁杰 《上海交通大学学报》 EI CAS CSCD 北大核心 2024年第11期1716-1723,共8页
为实现高精度像素级地铁盾构隧道表观多病害检测,提出一种基于深度学习的语义分割模型SU-ResNet++.首先,设计基于残差单元结合注意力机制的编码器SE-ResNet50进行预训练,并将其作为U-Net++的主干网络设计新型神经网络模型;其次,通过原... 为实现高精度像素级地铁盾构隧道表观多病害检测,提出一种基于深度学习的语义分割模型SU-ResNet++.首先,设计基于残差单元结合注意力机制的编码器SE-ResNet50进行预训练,并将其作为U-Net++的主干网络设计新型神经网络模型;其次,通过原始数据采集、数据预处理及人工标注,构建具有4 500张图片的盾构隧道表观多病害数据集;最后,将所提出的方法通过数据集进行训练、验证和测试,并应用于实际工程检测,实现了高精度像素级的病害语义分割.实验结果表明,所提出的SU-ResNet++算法适用于盾构隧道病害数据检测,可以自动准确地识别病害类别及形态,病害识别精度相比传统语义分割模型有明显提高,并且满足实际工程需求. 展开更多
关键词 地铁盾构隧道 数据集构建 语义分割 深度迁移学习 U-Net++网络
在线阅读 下载PDF
面向财务审计的数据异常侦测算法研究 被引量:2
16
作者 张学凯 张仰森 +2 位作者 刘帅康 朱思文 孙圆明 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第7期158-165,共8页
为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本... 为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本各通道进行全局加权,对样本不同通道进行融合特征加权,实现对样本数据的全局“注意力”数据增强。通过Resnet18模型(residual network18)提取样本数据的局部特征。结果表明,在财务审计异常侦测数据集上,经典分类网络的评估结果都高于90%,验证了数据集构建方法的有效性;CMA-Resnet18模型的F1值为94.31%,相比Resnet18提高了1.49%,证明了CMA-Resnet18模型能够更好的实现侦测任务;通过经典分类网络及其CMA变种网络在Cifar10公开数据集上进行实验,表明CMA变种网络的准确率普遍高于其原始网络,证明CMA模块的有效性和泛化性。 展开更多
关键词 审计数字化 数图转换 数据集构建 改进注意力机制 残差网络
在线阅读 下载PDF
结合全局对应矩阵和相对位置信息的古汉语实体关系联合抽取
17
作者 胡益裕 左家莉 +3 位作者 涂传龙 曾雪强 万中英 王明文 《中文信息学报》 CSCD 北大核心 2024年第11期35-45,共11页
目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注... 目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注稀疏的特点,模型无法从数据中学习到足量的信息;其次是因为该模型训练时缺少实体的跨度信息,使得模型容易生成长度异常的实体。针对上述问题,该文在研究了开源的《资治通鉴》语料后,人工构建了一个古汉语实体关系数据集,并设计了一种结合全局对应矩阵和相对位置信息的实体关系联合抽取方法。该方法在古汉语实体关系数据集上的精确率和F1值分别达到了81.0%和67.0%,相较于基线模型提升了6.8%和1.4%。同时,该文通过实验验证了上述融合相对位置信息的方法对于解决“容易生成长度异常实体”问题的有效性。 展开更多
关键词 古汉语数据集构建 实体关系联合抽取 全局对应矩阵 相对位置信息
在线阅读 下载PDF
融合多尺度特征的高分辨率森林遥感图像分割 被引量:4
18
作者 贾克斌 何岩 魏之皓 《北京工业大学学报》 CAS CSCD 北大核心 2024年第9期1089-1099,共11页
为实现对青海三江源国家级自然保护区高原森林的有效监测,基于深度学习技术提出一种融合多尺度特征的遥感图像分割算法。首先,构建了该地区首个2 m空间分辨率的高原森林数据集;其次,为解决遥感图像真值标签不足影响网络模型训练的问题,... 为实现对青海三江源国家级自然保护区高原森林的有效监测,基于深度学习技术提出一种融合多尺度特征的遥感图像分割算法。首先,构建了该地区首个2 m空间分辨率的高原森林数据集;其次,为解决遥感图像真值标签不足影响网络模型训练的问题,针对森林遥感图像分割的特点提出一种将图像打乱重组的数据增强方法,将训练数据扩充至1 600张;然后,为解决主流分割网络处理大范围遥感图像存在无法聚焦细节的缺陷,基于编解码结构,提出一种融合多尺度特征的高分辨率森林遥感图像分割网络模型,该模型融合了所设计的卷积模块、多尺度特征融合模块和特征放大提取模块。实验结果表明,所提数据增强方法提升了模型的分割精度,同时该模型经数据增强训练,交并比(intersection over union, IoU)高达89.64%,结果优于当前主流图像分割模型。 展开更多
关键词 深度学习 遥感 图像分割 多尺度特征融合 数据增强 数据集构建
在线阅读 下载PDF
基于中文预训练语言模型的医学量表开发方法和评测指标抽取:评价研究
19
作者 郝洁 彭庆龙 +1 位作者 孙海霞 李姣 《中文信息学报》 CSCD 北大核心 2024年第11期57-69,共13页
该文旨在评估中文预训练语言模型应用在医学量表相关实体识别任务中的表现,包括开发方法和评测指标等。首先,人工标注中文护理学、肿瘤学和精神病学领域的量表开发期刊论文摘要形成CMedS-M研究数据集;然后,选取Chinese-BERT-wwm、MacBER... 该文旨在评估中文预训练语言模型应用在医学量表相关实体识别任务中的表现,包括开发方法和评测指标等。首先,人工标注中文护理学、肿瘤学和精神病学领域的量表开发期刊论文摘要形成CMedS-M研究数据集;然后,选取Chinese-BERT-wwm、MacBERT、ERNIE 3.0等预训练语言模型,实现量表开发方法和评测指标提及抽取;最后,从实体类型、学科领域和字长等视角综合分析不同模型的性能表现。CMedS-M包含自1994年至2023年共230种医学核心期刊的1589篇摘要,涵盖11441个句子和16422个实体提及。在该数据集上的实验结果表明,W2NER(MacBERT)的精确率和Macro-F_(1)值最高,分别达94.01%和95.10%;W2NER(ERNIE 3.0)召回率最高,达97.59%。所有模型在识别开发方法实体提及上的表现均略优于评测指标,在精神病学领域的表现整体低于肿瘤学和护理学,且在3~7个字长的实体提及识别上效果较佳。 展开更多
关键词 医学量表文本 命名实体识别 预训练语言模型 数据集构建
在线阅读 下载PDF
结合信息交互的人物实体链接
20
作者 周沛 陈跃鹤 +1 位作者 贾永辉 陈文亮 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2119-2125,共7页
实体链接是将文本中的实体提及链接到知识图谱中实体节点的任务,是自然语言处理许多下游任务的重要基础.而在各类实体中,人物实体承载了知识图谱中主要的事实组成部分,但由于存在大量重名导致人物链接难度大大增加.人物实体链接是人物... 实体链接是将文本中的实体提及链接到知识图谱中实体节点的任务,是自然语言处理许多下游任务的重要基础.而在各类实体中,人物实体承载了知识图谱中主要的事实组成部分,但由于存在大量重名导致人物链接难度大大增加.人物实体链接是人物知识图谱构建的重要一环,其目的是把一段文本所描述的人物实体链接到图谱中正确的实体节点上.由于目前中文人物实体链接数据集比较缺乏,而通用实体链接数据集大多覆盖多种类型实体并且规模比较有限,因此本文基于百科网页数据构建了新的大规模中文人物实体链接数据集SummaryEL和TextEL,并通过采样验证了数据集的质量.基于新构建的数据集,本文提出基于描述文本和实体属性信息交互的人物实体链接模型,有效地建立描述文本和知识图谱节点之间的联系.实验结果表明,本文所提出的人物实体链接模型取得较高的准确率,在SummaryEL和TextEL测试集上的平均准确率分别达到89.27%和87.43%.该模型可作为该任务未来研究工作的基准方法.新构建的数据集和实验代码将公开在github上. 展开更多
关键词 自然语言处理 知识图谱 人物实体链接 数据集构建
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部