期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
中国XCO_(2)无缝隙逐日数据集构建及时空分布
1
作者 刘昭华 谢鹏 +2 位作者 曾昭亮 桂柯 王亚强 《应用气象学报》 北大核心 2025年第4期414-426,共13页
二氧化碳(CO_(2))是关键温室气体,准确掌握其空间分布有助于实现碳达峰与碳中和目标。大气CO_(2)柱平均干空气体积混合比(XCO_(2))是表征大气中CO_(2)体积分数的重要指标。由于卫星观测的XCO_(2)数据受限于狭窄的条带和云层等因素,常出... 二氧化碳(CO_(2))是关键温室气体,准确掌握其空间分布有助于实现碳达峰与碳中和目标。大气CO_(2)柱平均干空气体积混合比(XCO_(2))是表征大气中CO_(2)体积分数的重要指标。由于卫星观测的XCO_(2)数据受限于狭窄的条带和云层等因素,常出现空间数据缺失,因此构建高精度时空无缝XCO_(2)数据集尤为关键。基于轨道碳观测卫星2号(OCO-2)的XCO_(2)观测值,结合多源环境因素,采用XGBoost模型构建了2015年1月-2024年3月中国地区0.05°×0.05°高精度无缝隙逐日XCO_(2)数据集。模型的交叉验证和地面站点验证结果均显示优异的精度,且与瓦里关大气本底站的观测数据变化趋势一致,验证了数据集的高精度和可靠性。基于该数据集,发现中国XCO_(2)的空间分布呈现东高西低特征,高值区主要集中在京津冀、长江三角洲、粤港澳等地区。全国年平均XCO_(2)呈增长趋势,由2015年的401.00×10^(-6)上升至2023年的419.91×10^(-6),年平均增长为2.36×10^(-6),但增长速率逐渐放缓。XCO_(2)季节性波动呈冬春高、夏秋低趋势,可能与植被固碳活动相关。 展开更多
关键词 XCO_(2) 机器学习 数据集构建 时空分布
在线阅读 下载PDF
基于数字实体特征的藏文问答数据集构建
2
作者 官却才让 杨毛加 +2 位作者 柔特 班玛宝 才让加 《中文信息学报》 北大核心 2025年第3期59-65,共7页
藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:... 藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:首先,详细分析藏文数字实体的特征并在藏文数字实体分类的基础上,采用BERT-BiLSTM-CRF模型识别藏文数字实体,作为问答三元组(S,Q,A)中的答案(A),经测试,此方法在测试集上的F值可达84.67%;其次,利用藏文数字实体与疑问词间的先验对应关系,设计一种基于数字实体的藏文问题生成算法,以自动生成藏文问题(即问答三元组中的Q);最后,合并原文(S)、问题(Q)和答案(A)来构建三元组藏文问答数据集。通过该方法构建了规模为139786个问答三元组的藏文问答数据集,为进一步研究藏文问答系统奠定了数据基础。 展开更多
关键词 自然语言处理 数字实体 问答系统 数据集构建
在线阅读 下载PDF
中文动词实现状态数据集构建
3
作者 徐进 辛欣 《中文信息学报》 北大核心 2025年第2期27-40,共14页
判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面... 判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信息,总结了中文动词实现状态标注规范。针对中文目前缺少动词实现状态相关语料的问题,该文构建了中文动词实现状态数据集,包括5430条语句和21226个中文动词实例。实验表明,神经网络模型在处理描述客观规律以及缺少时间提示词等情况下的分类时还欠准确。 展开更多
关键词 中文动词实现状态 数据集构建
在线阅读 下载PDF
基于层次标注和自适应预处理的多源农业病害图像数据集构建
4
作者 胡婷 孙晓海 +2 位作者 宋海龙 廖昌义 王福德 《吉林大学学报(理学版)》 北大核心 2025年第3期815-821,共7页
针对农业病害图像数据集存在多样性和图像质量欠佳的问题,提出一种基于层次标注和自适应预处理的多源农业病害图像数据集构建方法.首先,利用智能手机、专业相机和无人机等设备从不同地区、作物种类及生长阶段采集图像,以确保数据的多样... 针对农业病害图像数据集存在多样性和图像质量欠佳的问题,提出一种基于层次标注和自适应预处理的多源农业病害图像数据集构建方法.首先,利用智能手机、专业相机和无人机等设备从不同地区、作物种类及生长阶段采集图像,以确保数据的多样性.其次,构建层次标注体系,涵盖农业病害类型、程度和部位3个层次,使用LabelImg和LabelMe等工具进行标注,并经专家审核.最后,应用自适应预处理方法,包括自动裁剪、归一化、去噪和增强,根据图像特征调整参数以提升质量.实验采用基于ResNet-50架构的卷积神经网络(CNN)模型进行验证,结果表明,层次标注和自适应预处理方法显著提升了数据集的质量和模型性能,模型在准确率、召回率和F1分数上分别达92.5%,91.8%和92.1%,优于其他数据集训练结果. 展开更多
关键词 农业病害图像 数据集构建 层次标注 自适应预处理 多源数据
在线阅读 下载PDF
GPR图像的数据集构建及其DRDU-Net去噪算法
5
作者 王惠琴 高大庆 +3 位作者 何永强 刘宾灿 王莹 曹明华 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期20-28,共9页
为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分... 为了解决生成对抗网络(Generative Adversarial Network,GAN)在生成探地雷达(Ground Penetrating Radar,GPR)图像时存在训练不稳定的问题,提出利用带有梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)生成GPR图像,并结合时域有限差分法和实地采集图像提出了一种构建GPR图像数据集的方法.相较于原始GAN与Wasserstein GAN等方法,WGAN-GP具有更好的稳定性,而且生成的GPR图像更接近真实图像.在此基础之上,将密集残差块和U-Net相结合提出了一种适合于GPR图像的密集残差去噪U-Net方法.该方法利用U-Net中编码-解码结构提高了GPR图像的去噪性能;同时,密集残差块的引入加强了GPR图像的特征复用,且使U-Net训练更加稳定.最后,利用仿真实验验证了所提去噪方法的性能,并与三维块匹配(BM3D)和U-Net方法进行了对比.结果表明:所提方法与BM3D以及U-Net去噪方法相比,具有更好的去噪效果.当σ等于20时,在模拟和实测数据上取平均值,其峰值信噪比分别提升了约6.5 dB和2.4 dB;结构相似性分别提升了约0.09和0.04. 展开更多
关键词 GPR数据集构建 GPR图像去噪 WGAN-GP 残差块
在线阅读 下载PDF
基于角度内插仿真的飞机目标多角度SAR数据集构建方法研究 被引量:4
6
作者 王汝意 张汉卿 +5 位作者 韩冰 张月婷 郭嘉逸 洪文 孙巍 胡文龙 《雷达学报(中英文)》 EI CSCD 北大核心 2022年第4期637-651,共15页
随着SAR技术应用领域的扩大以及SAR数据获取技术的发展,构建各种典型目标的多角度SAR数据集的需求日益迫切。针对飞机目标,目前尚未有比较完备的多角度SAR图像数据集。该文探索了一种基于实测数据和智能仿真相结合的数据集构建方法,通... 随着SAR技术应用领域的扩大以及SAR数据获取技术的发展,构建各种典型目标的多角度SAR数据集的需求日益迫切。针对飞机目标,目前尚未有比较完备的多角度SAR图像数据集。该文探索了一种基于实测数据和智能仿真相结合的数据集构建方法,通过飞行试验采集飞机目标SAR多角度数据,并基于散射分析和自注意力生成对抗网络实现特定角度的SAR图像内插仿真,从而为数据集构建和扩容提供新的解决方案。最后,在假定部分数据缺失的情况下,通过6种评价指标对仿真图像和实际采集图像的相似度进行了评价,验证了所提方法的有效性。 展开更多
关键词 数据集构建 飞机目标 图像仿真 生成对抗网络 自注意力
在线阅读 下载PDF
高校学业文本命名实体识别及数据集构建研究 被引量:2
7
作者 何晨 苑迎春 +1 位作者 王克俭 陶佳 《计算机工程与应用》 CSCD 北大核心 2023年第22期322-328,共7页
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开... 近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 展开更多
关键词 高校学业 命名实体识别 数据集构建 实体标注 BiLSTM-CRF
在线阅读 下载PDF
三维模板跟踪的基准合成数据集构建及算法评估 被引量:4
8
作者 何弦 李佳宸 +3 位作者 金立 刘力 钟凡 秦学英 《计算机学报》 EI CAS CSCD 北大核心 2022年第3期585-600,共16页
三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关... 三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关注三维模板跟踪数据集的构建.随着深度学习的普及,各领域中大规模数据集的构建越来越被重视,为算法的训练、测试和评估奠定了基础,极大地推动了相关领域的发展.以往的三维模板跟踪数据集大多存在规模有限,画面不够自然、真实,多样性不足等问题.基于此,本文创建了一个大规模的基于真实感渲染的三维模板跟踪数据集(Render Dataset for Object Tracking,简称RDOT),其包含多种不同结构和材质的物体、复杂的运动模式,并且在场景、光照、噪声、运动模糊和遮挡等方面有丰富细致的设置,是目前三维模板跟踪领域最大的数据集,满足三维模板跟踪算法评估的各种需求.针对现有三维模板跟踪算法测评时使用的数据集不统一,测评结果难以客观全面地反映算法性能的问题,本文基于所构建的数据集,利用平均边缘距离、平均表面距离和重初始化率三种度量标准全面评估了目前主流的三维模板跟踪算法,并对评测结果进行了深入的分析讨论,给出了全面的分析报告和技术展望.此外,基于所构建的数据集,本文提出了对跟踪结果建立误差分析模型,并对结果进行校正的方法,有效改善了三维模版跟踪算法的准确率. 展开更多
关键词 三维模板跟踪 数据集构建 算法测评 增强现实 真实感渲染
在线阅读 下载PDF
SAR图像舰船目标检测数据集构建研究综述 被引量:6
9
作者 黄琼男 朱卫纲 李永刚 《电讯技术》 北大核心 2021年第11期1451-1458,共8页
算法和数据是影响深度学习技术发展的两大关键因素,大多数学者专注于算法的改进和开拓,仅有少部分学者致力于数据的研究。构建合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船数据集是SAR舰船目标检测项目的第一步,也是星载SAR图... 算法和数据是影响深度学习技术发展的两大关键因素,大多数学者专注于算法的改进和开拓,仅有少部分学者致力于数据的研究。构建合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船数据集是SAR舰船目标检测项目的第一步,也是星载SAR图像实际工程应用的基础。分析了影响SAR舰船目标检测性能的关键因素,阐述了SAR舰船数据集的构建方法,概述了TerraSAR-X、“哨兵”1号(Sentinel-1)和高分三号(GF-3)三种SAR图像数据源,并对几种公开的SAR舰船数据集进行梳理与分析,总结了各数据集的发展历程,最后指出构建SAR图像舰船数据集仍需考虑的几个方面。 展开更多
关键词 合成孔径雷达 目标检测 舰船图像 深度学习 数据集构建 数据
在线阅读 下载PDF
糖尿病健康管理对话数据集构建
10
作者 汪正康 刘阳 +2 位作者 杨锦锋 梁先桂 郭熙铜 《中文信息学报》 CSCD 北大核心 2023年第9期23-37,共15页
我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病... 我国是全球糖尿病患病人数最多的国家,患病人数仍在持续快速增长,糖尿病已成为我国重大公共卫生问题。该文关注的糖尿病健康管理对话系统服务于糖尿病患者,为患者解答日常生活中糖尿病相关问题,而目前缺乏用于训练对话系统模型的糖尿病相关数据。基于此,该文构建了首个标注体系完整的糖尿病健康管理中文对话数据集“Diachat”,以支持健康管理对话系统研究。Diachat收集了来自线上聊天平台糖尿病患者与医生的693段对话(Dialogue),共4686句语料(Sentence),完成了6594条对话动作(Dialogue act)标注。Diachat数据集采用基于对话动作的表示方式进行意图表示并定义了15个对话动作标签(Act label)。同时,Diachat定义了6个领域(Domain)涵盖语料涉及的领域,分别为:问题(Problem)、饮食(Diet)、行为(Behavior)、运动(Sport)、治疗(Treatment)、基本信息(Profile)。为了支持构建完整的对话系统,Diachat为用户端和系统端分别构造了对话状态,并为每段对话构造了对话目标。基于Diachat数据集,该课题进行了管道(Pipeline)体系的对话系统四个模块的基本实现。实验结果显示,Diachat数据集能够支持糖尿病健康管理对话系统构建,各模块仍有较大提升空间。 展开更多
关键词 对话系统 数据集构建 语料标注 糖尿病健康管理
在线阅读 下载PDF
基于时间编码超表面的跌倒特征模拟与Wi-Fi感知数据集辅助构建
11
作者 陈少楠 顾家铭 +8 位作者 徐超 孙一淼 王思然 陈展野 刘硕 李会东 戴俊彦 何源 程强 《雷达学报(中英文)》 北大核心 2025年第4期950-960,共11页
随着Wi-Fi感知技术在智能健康监测领域的广泛应用,如何构建高质量的数据集成为亟待解决的关键问题。特别是在监测异常行为(如跌倒)时,传统方法依赖于人体的反复实验,这既存在安全隐患,又面临伦理困境。为应对这一挑战,该文提出了一种基... 随着Wi-Fi感知技术在智能健康监测领域的广泛应用,如何构建高质量的数据集成为亟待解决的关键问题。特别是在监测异常行为(如跌倒)时,传统方法依赖于人体的反复实验,这既存在安全隐患,又面临伦理困境。为应对这一挑战,该文提出了一种基于时间编码超表面的辅助数据样本采集方法。通过模拟人体的运动特征,时间编码超表面可以有效替代人体实验,用于辅助构建Wi-Fi感知数据集。为此该文设计了一款具备0~360°全相位调制能力的时间编码超表面验证了该方案的可行性。实验结果表明,超表面生成的信号能够较好地保留人体运动特征,有效补充真实样本,降低数据采集复杂度,并显著提升模型的监测准确性。该方法为Wi-Fi感知技术的数据采集提供了一种创新且可行的解决方案。 展开更多
关键词 Wi-Fi感知 时间编码超表面 运动特征生成 数据集构建 LeNet分类网络
在线阅读 下载PDF
空地协同场景下特殊障碍物数据集与检测算法评估系统构建
12
作者 冷呈宇 赵津 +1 位作者 刘畅 杨世凤 《兵工学报》 北大核心 2025年第6期203-215,共13页
在空地协同场景下,特殊障碍物的识别与处理对地面装备安全运行至关重要。针对非结构化环境中样本稀缺的问题,构建了包含33124张图像的检测数据集,覆盖多类典型特殊障碍物,支持复杂场景下的识别任务。为准确评估检测算法性能,设计融合类... 在空地协同场景下,特殊障碍物的识别与处理对地面装备安全运行至关重要。针对非结构化环境中样本稀缺的问题,构建了包含33124张图像的检测数据集,覆盖多类典型特殊障碍物,支持复杂场景下的识别任务。为准确评估检测算法性能,设计融合类别信息与定位精度的综合评价指标,增强模型对比的科学性。提出结合物理属性与环境语义的可通行性分析方法,为地面无人系统路径规划提供依据。实验结果表明,该数据集与评估体系显著提升检测精度,所提方法能有效识别坑洞、水面等典型特殊障碍物。 展开更多
关键词 特殊障碍物检测 空地协同 数据集构建 通行性策略
在线阅读 下载PDF
高分辨率、多时相SAR图像数据集的构建 被引量:6
13
作者 郁文贤 柳彬 +3 位作者 丁拥科 胡昊 李元祥 张增辉 《测绘通报》 CSCD 北大核心 2014年第S1期119-122,158,共5页
近20年来,SAR图像理解与信息反演是一个得到广泛、深入研究的世界性难题。即使在高分辨率条件下,由于相干斑噪声、结构极度敏感性、几何畸变、成像系统干扰等原因,SAR图像的高可信解译依然非常困难。SAR测试样本数据集是发展SAR图像解... 近20年来,SAR图像理解与信息反演是一个得到广泛、深入研究的世界性难题。即使在高分辨率条件下,由于相干斑噪声、结构极度敏感性、几何畸变、成像系统干扰等原因,SAR图像的高可信解译依然非常困难。SAR测试样本数据集是发展SAR图像解译与目标认知技术的基础与支撑。但SAR数据集并不是各种SAR数据的简单收集,而是要根据研究内容的需要,制定试验方案,科学地选择样本并进行样本真值标注,并且尽可能收集各种多源辅助数据以相互验证。笔者以上海交通大学闵行校区为场景,构建了一个以高分辨率、多时相SAR图像为主的试验数据集,其由高分辨率SAR数据、地表真值标注、多源辅助数据3个主要的部分组成。笔者认为,该数据集的构建能够为高分辨率SAR图像解译、信息反演和目标识别提供高可信的、实时的、丰富的地表和目标真值信息,能够促进这些研究和相关测试工作的进展。 展开更多
关键词 高分辨率 多时相 SAR图像 数据集构建
在线阅读 下载PDF
面向财务审计的数据异常侦测算法研究 被引量:2
14
作者 张学凯 张仰森 +2 位作者 刘帅康 朱思文 孙圆明 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第7期158-165,共8页
为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本... 为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本各通道进行全局加权,对样本不同通道进行融合特征加权,实现对样本数据的全局“注意力”数据增强。通过Resnet18模型(residual network18)提取样本数据的局部特征。结果表明,在财务审计异常侦测数据集上,经典分类网络的评估结果都高于90%,验证了数据集构建方法的有效性;CMA-Resnet18模型的F1值为94.31%,相比Resnet18提高了1.49%,证明了CMA-Resnet18模型能够更好的实现侦测任务;通过经典分类网络及其CMA变种网络在Cifar10公开数据集上进行实验,表明CMA变种网络的准确率普遍高于其原始网络,证明CMA模块的有效性和泛化性。 展开更多
关键词 审计数字化 数图转换 数据集构建 改进注意力机制 残差网络
在线阅读 下载PDF
基于判决链的法律判决预测
15
作者 吕由钢 郝继泰 +5 位作者 王梓涵 高莘 任鹏杰 陈竹敏 马军 任昭春 《计算机研究与发展》 北大核心 2025年第8期1918-1930,共13页
智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经引起了自然语言处理社区的极大关注.作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和... 智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经引起了自然语言处理社区的极大关注.作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和刑罚条款),成为人工智能技术的一个有前景的应用.然而,现有的法律判决预测方法主要集中在只涉及单一被告的案件上,而忽略了涉及多个被告的案件研究.在实际的刑事案件中,往往涉及多个被告者,并且在他们之间存在着错综复杂的交互关系,现有的单被告法律判决预测技术很难精确区分多被告案件中不同被告的判决结果.为了加速多被告法律判决预测任务的研究,收集了一个大规模的多被告法律判决预测数据集,其具有以下3个特点:1)数据集是多被告法律判决预测最大的人工标注数据集;2)数据集中的多被告案件需要区分不同被告者的法律判决预测结果;3)数据集中包含了完整的多被告判决链,其中包括犯罪关系、量刑情节、法条、罪名和刑期.此外,对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析.此外,提出了基于判决链的法律判决预测方法,其中包括判决链生成策略明确生成犯罪事实相关的判决链,判决链对比策略对比正确判决链和易混淆的判决链来进一步提升效果.实验结果表明,多被告法律判决预测数据集对现有的法律判决预测方法和预训练模型具有挑战性,而基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在法律判决预测中的关键作用. 展开更多
关键词 法律判决预测 判决链 数据集构建 数据分析 大语言模型
在线阅读 下载PDF
大语言模型的中文多轮指令遵循能力评测研究
16
作者 朱秦 何俊亮 +1 位作者 邱锡鹏 黄萱菁 《中文信息学报》 北大核心 2025年第6期168-178,共11页
该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构... 该文提出了一种高效评测中文大语言模型(LLM)指令遵循能力和多轮对话能力的方法,并构建了中文多轮指令遵循基准(Chinese Multiturn Instruction Following Benchmark,CMIF)。该文研究设计了专门针对中文的原子指令数据集,涵盖语言结构、拼音、音调等特性,并结合规则与LLM对多轮问题的合法性进行复查,确保评测结果的准确性。在实验中,选取了包括GPT4o和Qwen2.5-72B-Instruct在内的14个开源及闭源模型进行评估。结果显示,主流模型在单轮对话场景中具有较好的指令遵循能力,但多轮对话表现仍有较大提升空间。其中,单轮指令级准确率最高的Claude-3.5-Sonnet在多轮场景下准确率从73.8%下降至40.0%。此外,这些模型在处理中文原子指令时表现出明显的性能下降,中文任务的综合准确率最高仅为51.0%,显著低于其他四类任务平均79.0%的综合准确率。 展开更多
关键词 指令遵循 多轮对话 大语言模型 数据集构建
在线阅读 下载PDF
基于提示学习的记叙文篇章成分识别研究
17
作者 王晓艺 王炯 +1 位作者 刘杰 周建设 《计算机科学》 北大核心 2025年第6期330-335,共6页
篇章结构分析是作文自动评分中的重要技术之一,也是自然语言处理领域中的重要研究内容。近年来,作文篇章结构分析的研究很少且主要集中于议论文,对记叙文的研究还较少,尤其是在记叙文篇章结构方面,研究方法和研究资源都相对有限。针对... 篇章结构分析是作文自动评分中的重要技术之一,也是自然语言处理领域中的重要研究内容。近年来,作文篇章结构分析的研究很少且主要集中于议论文,对记叙文的研究还较少,尤其是在记叙文篇章结构方面,研究方法和研究资源都相对有限。针对这些问题,文中构建了面向中小学记叙文篇章成分识别的数据集,使用基于BERT-BiLSTM的语料自动标注模型提高标注效率,并对内容分布以及语料标注的一致性进行了统计分析。提出了基于提示学习的记叙文篇章成分识别方法,通过自动构建识别篇章成分的前缀提示模板,利用层次注意力机制学习更为丰富的文本特征,从而提高记叙文篇章结构识别能力。在自建数据集下进行实验,结果表明,所提出的方法识别记叙文篇章结构的准确率提高到85.80%,优于对比的预训练语言模型。 展开更多
关键词 数据集构建 篇章结构 作文自动评分 提示学习
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成
18
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
基于扩散模型的传像束光纤图像质量优化
19
作者 刘宝林 熊永平 +1 位作者 石岩 李晓龙 《计算机工程与设计》 北大核心 2025年第1期257-264,共8页
为解决现有图像质量优化算法对于传像束光纤图像存在去模糊不彻底和轮廓细节恢复效果差的挑战,提出一种基于扩散模型的方法FBIDiff(fiber bundle image quality optimization via diffusion models)。设计两阶段网络使图像信息逐步恢复... 为解决现有图像质量优化算法对于传像束光纤图像存在去模糊不彻底和轮廓细节恢复效果差的挑战,提出一种基于扩散模型的方法FBIDiff(fiber bundle image quality optimization via diffusion models)。设计两阶段网络使图像信息逐步恢复;引入扩散模型,使用残差策略学习图像轮廓信息;采用高低频分离思想,以解决图像中的轮廓等高频信息损失严重问题。实验结果表明,与现有算法相比,FBIDiff在结构相似性(structural similarity,SSIM)、学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)和图像显著性变换值(differentiable image saliency transform,DISTS)指标上分别获得2.6%、6.1%和4.1%的提升,有效解决了高频信息损失严重和去模糊不彻底等问题。 展开更多
关键词 扩散模型 传像束图像 图像质量优化 去模糊 频率分离 数据集构建 两阶段网络
在线阅读 下载PDF
基于三重注意力的林业有害生物识别
20
作者 王莞茹 万映彤 唐赫 《林产工业》 北大核心 2025年第6期51-57,共7页
为提高我国林业有害生物防治的智能化水平,提出一种基于三重注意力的林业有害生物识别方法Triplet-attention Network(A3Net)。A3Net是一个细粒度图像识别网络,包含三种不同的注意力模块。其中,硬空间注意力模块根据感兴趣的区域自动裁... 为提高我国林业有害生物防治的智能化水平,提出一种基于三重注意力的林业有害生物识别方法Triplet-attention Network(A3Net)。A3Net是一个细粒度图像识别网络,包含三种不同的注意力模块。其中,硬空间注意力模块根据感兴趣的区域自动裁剪输入图像,软空间注意力模块对感兴趣区域在空间上增加更大的权重,通道注意力对特征通道重加权。网络包含多个循环路径,从而逐步聚焦林业有害生物的关键区域。为验证该方法的有效性,搜集了一个具有15种常见林业有害生物的数据集IP20。结果表明:相比于目前的最优方法,A3Net在林业有害生物识别任务上提高了1.90%的Top-1准确率和0.64%的Top-5准确率。 展开更多
关键词 林业有害生物识别 细粒度图像识别 深度神经网络 注意力 数据集构建
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部