期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
提升数据价值:质量控制在数据标注过程的应用与优化
1
作者 王峰 张天意 +2 位作者 朱方昊 王坤鑫 蔡韵音 《中国标准化》 2024年第21期267-271,共5页
数据质量是数据分析和应用的基石,而良好的质量控制方法是连接数据质量与数据分析应用效能的桥梁与纽带。为研究质量控制在标注过程中的应用与优化方法,以提高流程标准化水平,本文从质量控制的角度出发,分析当前数据标注过程中数据质量... 数据质量是数据分析和应用的基石,而良好的质量控制方法是连接数据质量与数据分析应用效能的桥梁与纽带。为研究质量控制在标注过程中的应用与优化方法,以提高流程标准化水平,本文从质量控制的角度出发,分析当前数据标注过程中数据质量可能存在的问题,通过评估体系建设、调整组织结构框架、项目制度建设、实施半自动化标注流程等方法应对当前质量控制存在的风险与挑战。最后,对数据标注过程中质量控制未来可能的发展态势进行总结,为提高团队应对数据质量风险的能力、支持业务决策提供支撑。 展开更多
关键词 质量控制 数据质量 数据标注 半自动 应用
在线阅读 下载PDF
数据标注技术在人工智能领域的研究和应用
2
作者 王峰 张天意 +2 位作者 朱方昊 王坤鑫 蔡韵音 《信息技术与标准化》 2024年第12期22-26,共5页
围绕数据标注技术,对数据标注行业现状、特点及其在人工智能大模型中的应用场景进行研究,总结数据标注技术的主要类型及面临的挑战,结合案例进一步验证自动化数据标注技术在人工智能模型中的实际应用及成效,对未来的技术发展趋势进行展望。
关键词 数据标注 人工智能 大模型 模型算法
在线阅读 下载PDF
行业标准《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》解析 被引量:1
3
作者 郝烨 王浩 李佳戈 《协和医学杂志》 CSCD 2023年第6期1185-1188,共4页
伴随机器学习技术的迭代升级,人工智能已成为医疗器械领域的新兴方向,尤其近年来发展迅速。国家药品监督管理局于2022年发布了行业标准YY/T 1833《人工智能医疗器械质量要求和评价》系列标准,标志着我国已初步建立了人工智能医疗器械的... 伴随机器学习技术的迭代升级,人工智能已成为医疗器械领域的新兴方向,尤其近年来发展迅速。国家药品监督管理局于2022年发布了行业标准YY/T 1833《人工智能医疗器械质量要求和评价》系列标准,标志着我国已初步建立了人工智能医疗器械的标准体系。数据标注是人工智能医疗器械质控的重要环节,数据标注的规范化、标准化不仅是标准体系的重要方面,也决定了参考标准的准确性和可靠性,从而对数据集质量和产品质量产生重要影响。《人工智能医疗器械质量要求和评价》第3部分为数据标注通用要求,其对人工智能医疗器械在数据标注环节的质量进行了要求,并对评价方法进行了规范。本文将对其重要内容进行解析,以期更好地开展产品质控,促进产品及行业高质量发展。 展开更多
关键词 数据标注 人工智能医疗器械 产品质控 数据
在线阅读 下载PDF
面向图像分割的数据标注系统 被引量:3
4
作者 张悦 王晓懿 李娟 《铁路通信信号工程技术》 2022年第11期47-53,共7页
图像分割算法训练模型用到的语义分割数据需要经过标注才能使用,目前语义分割相关的开源数据标注工具仅支持描点标注多边形方式标注物体轮廓,存在操作繁多、标注效率低下的缺点。针对上述问题,提出鼠标快速标注方法和整体拷贝/调整标注... 图像分割算法训练模型用到的语义分割数据需要经过标注才能使用,目前语义分割相关的开源数据标注工具仅支持描点标注多边形方式标注物体轮廓,存在操作繁多、标注效率低下的缺点。针对上述问题,提出鼠标快速标注方法和整体拷贝/调整标注多边形方法,并应用于数据标注系统。实验结果表明,使用鼠标快速标注方法和整体拷贝/调整标注多边形方法标注分别可以提高11.6%的标注效率和29.7%的标注效率。使用该面向图像分割的数据标注系统可以有效提高标注人员的标注效率,对大量高质量标注数据的获取有积极作用。 展开更多
关键词 数据标注 多边形标注 标注系统
在线阅读 下载PDF
人工智能数据标注格式转换方法 被引量:5
5
作者 郑琳欣 朱大智 吉承文 《数字技术与应用》 2023年第6期164-166,共3页
数据标注在从劳动密集型向技术密集型转换的同时,也在利用AI提升效率。不过在许多全新的领域,机器始终无法代替人类。清晰且标准化的数据适合AI标注,但模糊且繁琐的社会性数据只能由人来进行。数据标注的准确性决定了人工智能算法的有效... 数据标注在从劳动密集型向技术密集型转换的同时,也在利用AI提升效率。不过在许多全新的领域,机器始终无法代替人类。清晰且标准化的数据适合AI标注,但模糊且繁琐的社会性数据只能由人来进行。数据标注的准确性决定了人工智能算法的有效性,因此,数据标注不仅需要有系统的方法、技术和工具,还需要真正认识目前现有数据标注存在的问题,并针对目前的混乱性,给出自己的解决方案。本文概述了数据标注的类型、数据标注工具、数据标注格式,指明了数据标注目前存在的标注格式不一致和缺乏标准化的问题,此外本文还详细介绍了各种标注格式以及转换过程。 展开更多
关键词 数据标注 人工智能 格式转换 标注格式 提升效率 算法的有效性 技术密集型 混乱性
在线阅读 下载PDF
基于人机交互的深度学习训练数据标注系统 被引量:2
6
作者 尹兆杰 《铁路通信信号工程技术》 2021年第8期24-30,共7页
目前的数据标注平台以及开源数据标注工具普遍存在多人合作的标注流程不合理的问题,无法保证标注的效率和质量。针对该问题,提出一种结对标注法,采用两两分组,同时标注,互相审查的方式进行标注。实验证明,结对标注法可以提高63%的标注... 目前的数据标注平台以及开源数据标注工具普遍存在多人合作的标注流程不合理的问题,无法保证标注的效率和质量。针对该问题,提出一种结对标注法,采用两两分组,同时标注,互相审查的方式进行标注。实验证明,结对标注法可以提高63%的标注效率。另外,提出推测标注法,当输入数据为视频时,基于数据之间的联系,使标注工作量降低为未推测标注的一半。实验证明,推测标注法可以提高25%标注效率。 展开更多
关键词 数据标注 标注系统 深度学习 智能化
在线阅读 下载PDF
ChatGPT背后的数据标注产业链 被引量:2
7
作者 孙媛媛 《小康》 2023年第9期39-41,共3页
制作于公元前196年的罗塞塔石碑(Rosetta Stone),刻有古埃及国王托勒密五世登基的诏书。石碑上用古希腊文、古埃及象形文以及当时埃及平民使用的通俗体文字刻了同样的内容,这让考古学家解读出失传千余年的埃及象形文的意义与结构,找到... 制作于公元前196年的罗塞塔石碑(Rosetta Stone),刻有古埃及国王托勒密五世登基的诏书。石碑上用古希腊文、古埃及象形文以及当时埃及平民使用的通俗体文字刻了同样的内容,这让考古学家解读出失传千余年的埃及象形文的意义与结构,找到读懂古埃及的密码。在AI领域,为了让机器读懂人类世界,同样有一块“罗塞塔石碑”——数据标注,它的存在让大规模训练数据的机器学习成为可能。 展开更多
关键词 机器学习 数据标注 训练数据 象形文 托勒密 古埃及 CHAT 古希腊文
在线阅读 下载PDF
星尘数据:做数据标注领域的罗赛塔石碑
8
作者 陈秀娟 《汽车观察》 2023年第2期63-66,共4页
通过自动标注算法技术、数据策略专家服务和数据闭环系统服务,最终实现行业AI的平民化。在古老的埃及,考古学家在金字塔旁发现了一块罗塞塔石碑Rosetta Stone,这块石碑上同时刻有古埃及法老托勒密五世诏书的三种不同语言版本,让近代的... 通过自动标注算法技术、数据策略专家服务和数据闭环系统服务,最终实现行业AI的平民化。在古老的埃及,考古学家在金字塔旁发现了一块罗塞塔石碑Rosetta Stone,这块石碑上同时刻有古埃及法老托勒密五世诏书的三种不同语言版本,让近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构。如今,在中国,有一家创业型科技公司解决了人类语言和机器语言之间的转译鸿沟,立志于做数据标注领域的罗塞塔石碑,让大规模训练数据的机器学习成为可能。 展开更多
关键词 语言版本 机器语言 机器学习 数据标注 训练数据 闭环系统 托勒密 创业型
在线阅读 下载PDF
基于子空间聚类的视频人脸数据自动标注
9
作者 王锟朋 钟汇才 《电子设计工程》 2019年第21期164-171,共8页
针对人脸数据标注所需的人工和时间成本巨大,标注出的人脸数据集含有较多噪声问题,提出一种基于子空间聚类的视频人脸数据自动标注方法。首先,将海量视频作为人脸数据的采集来源,以满足多种人脸识别任务中不同的人脸数据需求,然后使用... 针对人脸数据标注所需的人工和时间成本巨大,标注出的人脸数据集含有较多噪声问题,提出一种基于子空间聚类的视频人脸数据自动标注方法。首先,将海量视频作为人脸数据的采集来源,以满足多种人脸识别任务中不同的人脸数据需求,然后使用人脸识别模型将人脸数据映射到特征空间,使用改进K近邻算法把人脸数据划分到不同的子特征空间,最后在每个子特征空间内使用K均值算法分离人脸数据中的正样本、难正样本与负样本,收集难正样本构建人脸数据集。实验在公开数据集LFW与真实待标注数据上进行,实验结果表明子空间聚类法的F1度量得分比传统聚类算法分别提高了10%和7%,数据标注速度达到传统人工标注的10倍。使用该方法建立了一个包含200个ID、9 500张人脸照片的模糊人脸数据集,可用于多种人脸识别问题的研究。 展开更多
关键词 数据标注 聚类 人脸识别 K近邻 卷积神经网络
在线阅读 下载PDF
一种机器学习数据集半自动标注方法研究 被引量:6
10
作者 吕博 《信息通信技术与政策》 2019年第7期44-50,共7页
基于“教师-学生”模型,提出了一种数据集半自动标注方法,解决了监督学习中数据集人工标注工作量大,数据质量不一和专业门槛高的问题。在云端试验中,利用该标注方法,一方面实现了对时钟同步模式分类数据的半自动标注,一方面实现了对数... 基于“教师-学生”模型,提出了一种数据集半自动标注方法,解决了监督学习中数据集人工标注工作量大,数据质量不一和专业门槛高的问题。在云端试验中,利用该标注方法,一方面实现了对时钟同步模式分类数据的半自动标注,一方面实现了对数据集的难易程度的自动评估,可用于指导机器学习模型的优化与测评。 展开更多
关键词 机器学习 数据标注 “教师-学生”模型
在线阅读 下载PDF
微表情面部肌电跨模态分析及标注算法
11
作者 王甦菁 王俨 +3 位作者 李婧婷 东子朝 张建行 刘烨 《心理科学进展》 CSSCI CSCD 北大核心 2024年第1期1-13,共13页
长久以来,微表情的小样本问题始终制约着微表情分析的发展,而小样本问题归根到底是因为微表情的数据标注十分困难。本研究希望借助面部肌电作为技术手段,从微表情数据自动标注、半自动标注和无标注三个方面各提出一套解决方案。对于自... 长久以来,微表情的小样本问题始终制约着微表情分析的发展,而小样本问题归根到底是因为微表情的数据标注十分困难。本研究希望借助面部肌电作为技术手段,从微表情数据自动标注、半自动标注和无标注三个方面各提出一套解决方案。对于自动标注,提出基于面部远端肌电的微表情自动标注方案;对于半自动标注,提出基于单帧标注的微表情起止帧自动标注;对于无标注,提出了基于肌电信号的跨模态自监督学习算法。同时,本研究还希望借助肌电模态,对微表情的呈现时间和幅度等机理特征进行拓展研究。 展开更多
关键词 图像标注 微表情分析 远端面部肌电 微表情数据标注
在线阅读 下载PDF
依据MBD技术的船舶数据集定义与标注方法
12
作者 邵明智 李细红 +1 位作者 冯帮顺 方伟 《造船技术》 2021年第3期80-83,共4页
依据基于模型定义(Model Based Definition,MBD)技术开展船舶数据集定义与标注方法研究。介绍MBD技术和MBD数据集,提出船体专业和舾装专业的船舶MBD数据集定义方法及船舶MBD数据集标注方法,为造船企业应用MBD技术提高船舶生产设计水平... 依据基于模型定义(Model Based Definition,MBD)技术开展船舶数据集定义与标注方法研究。介绍MBD技术和MBD数据集,提出船体专业和舾装专业的船舶MBD数据集定义方法及船舶MBD数据集标注方法,为造船企业应用MBD技术提高船舶生产设计水平提供参考。 展开更多
关键词 船舶 MBD 生产设计 数据集定义方法 数据标注方法
在线阅读 下载PDF
基于机器视觉的棉花智能采摘机器人技术概述
13
作者 王颖 《中国棉花》 2025年第1期52-55,共4页
棉花是重要的农作物之一,应用智能采摘机器人可以提高其采摘效率和质量。机器视觉技术在智能采摘机器人中起关键作用,能够准确识别引导采摘成熟的棉花。在介绍其设计关键技术的基础上,分析了当下棉花智能采摘机器人技术研究的短板,如数... 棉花是重要的农作物之一,应用智能采摘机器人可以提高其采摘效率和质量。机器视觉技术在智能采摘机器人中起关键作用,能够准确识别引导采摘成熟的棉花。在介绍其设计关键技术的基础上,分析了当下棉花智能采摘机器人技术研究的短板,如数据采集与标注困难、物体检测和跟踪的准确性不足以及环境适应性有待提升等,并提出优化建议:进一步增强数据多样性,在棉花采摘决策中合理应用强化学习以及改进多模态感知融合技术。 展开更多
关键词 棉花收获 机器视觉 棉花智能采摘机器人 机器学习 深度学习 强化学习 多模态感知融合技术 数据标注
在线阅读 下载PDF
用VB开发基于AutoCAD环境的流域图斑数据采集和标注系统
14
作者 张斌 贾兴义 李林虎 《甘肃水利水电技术》 2012年第11期41-43,58,共4页
采用面向对象技术,以AutoCAD对象模型为核心,Microsoft Excel对象模型为辅助,运用Visual Basic高级语言和流域规划设计等理论研发的流域图斑数据采集和标注系统,实现了流域图斑数据自动采集,并记录到MicrosoftExcel文件,图斑信息自动标... 采用面向对象技术,以AutoCAD对象模型为核心,Microsoft Excel对象模型为辅助,运用Visual Basic高级语言和流域规划设计等理论研发的流域图斑数据采集和标注系统,实现了流域图斑数据自动采集,并记录到MicrosoftExcel文件,图斑信息自动标注到图斑的相应位置,填补了AutoCAD的空白。经在水土保持流域规划设计中应用,不但该系统具有良好的人机界面、使用简单、操作方便、易学易用等特点,而且简化了工作流程,提高了工作效率,避免了人为差错,规范了标注形式,具有较好的实用价值。 展开更多
关键词 AutoCAD 流域图斑数据采集和标注 Visual Basic MICROSOFT Excel
在线阅读 下载PDF
铝硅合金实体关系抽取数据集的构建方法 被引量:4
15
作者 刘英莉 吴瑞刚 +1 位作者 么长慧 沈韬 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第2期245-253,共9页
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法.在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标... 针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法.在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注.在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集.通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务.与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差.针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%.该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集. 展开更多
关键词 数据 构建标准 数据标注 实体关系联合抽取模型 自注意力机制
在线阅读 下载PDF
一种循环迭代的智能语料标注系统 被引量:1
16
作者 刘勇 陆小慧 《广东通信技术》 2021年第10期76-79,共4页
研究并提供了一种人工智能认知智能领域的语料标注方法和系统。根据预设的算法模型对待标注语料集进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次语料标注。通过实施例的实施,以每一次标注后的结果来更新算... 研究并提供了一种人工智能认知智能领域的语料标注方法和系统。根据预设的算法模型对待标注语料集进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次语料标注。通过实施例的实施,以每一次标注后的结果来更新算法模型,较大幅度减少人工标注的工作量,同时也提升了标注的一致性和准确性。 展开更多
关键词 认知智能 数据标注 语料标注
在线阅读 下载PDF
面向异构大数据环境的数据脱敏模型 被引量:13
17
作者 佟玲玲 李鹏霄 +2 位作者 段东圣 任博雅 李扬曦 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第2期249-257,共9页
不同场景下数据类型和脱敏需求的差异,使得传统的数据脱敏方法难以满足大数据背景下的用户隐私保护需求。如何实现异构大数据中敏感信息的精准定向、高效脱敏,从而更好地确保数据安全、可信和可用,是本领域的研究难点。提出了一种在异... 不同场景下数据类型和脱敏需求的差异,使得传统的数据脱敏方法难以满足大数据背景下的用户隐私保护需求。如何实现异构大数据中敏感信息的精准定向、高效脱敏,从而更好地确保数据安全、可信和可用,是本领域的研究难点。提出了一种在异构大数据环境下,基于文本、图片、音频和数据库等异构数据的脱敏模型,并对4个关键模块进行了描述。通过脱敏数据预处理,实现不同应用场景下敏感数据的自动标注和分级设置。采用数据预脱敏处理方法,并从数据可用性、数据关联性、隐私保护度、时间和空间复杂度等5个维度进行脱敏效果评价,实现定制化脱敏策略。经过脱敏任务调度完成脱敏任务分配和执行,并支持用户对部分脱敏数据恢复。基于提出的异构大数据脱敏模型,对2种典型数据脱敏应用场景进行了验证分析,表明所提模型能够实现不同应用场景下异构敏感数据的高效脱敏。 展开更多
关键词 异构大数据 敏感数据自动标注 数据脱敏 脱敏效果评价 机器学习
在线阅读 下载PDF
基于主动学习的唐卡主尊标注研究
18
作者 杨宇帆 赵启军 +1 位作者 高定国 王嘉文 《现代电子技术》 2023年第12期163-167,共5页
唐卡是藏文化中一种特色绘画,有较高的学术价值。为降低唐卡主尊检测任务中数据标注的人力成本,文中采用主动学习流程训练目标检测模型,并针对唐卡主尊分布特点提出最大框选法和最大框不确定性方法,用以优先选取未标注样本中对神经网络... 唐卡是藏文化中一种特色绘画,有较高的学术价值。为降低唐卡主尊检测任务中数据标注的人力成本,文中采用主动学习流程训练目标检测模型,并针对唐卡主尊分布特点提出最大框选法和最大框不确定性方法,用以优先选取未标注样本中对神经网络最有益的样本。采用Faster R-CNN目标检测模型进行唐卡主尊主动学习实验,结果表明:所提出的最大框不确定性方法优于随机采样主动学习方法,仅400张训练数据即可达到98.19%的平均准确率(mAP),与全监督下1 249张数据训练的模型结果(98.17%)接近;在500张数据时mAP可达到最高,为98.31%。所提最大框不确定性采样法可高效挑选出高信息量唐卡主尊数据,不但可以降低训练所需数据量,减少网络训练时间,而且能够减少低信息量数据对模型的影响,对模型的性能具有显著提升效果。 展开更多
关键词 唐卡主尊 数据标注 主动学习 最大框选法 最大框不确定性 目标检测 随机采样
在线阅读 下载PDF
面向可解释性的软件缺陷预测主动学习方法
19
作者 王越 李勇 张文静 《现代电子技术》 北大核心 2024年第20期101-108,共8页
针对软件缺陷预测中数据标注代价较高及深度学习模型缺乏可解释性的问题,提出一种面向可解释性的软件缺陷预测主动学习方法。首先,基于主动学习技术,通过样本选择策略从目标项目中筛选出不确定性高的样本进行专家标注,并将这些标注样本... 针对软件缺陷预测中数据标注代价较高及深度学习模型缺乏可解释性的问题,提出一种面向可解释性的软件缺陷预测主动学习方法。首先,基于主动学习技术,通过样本选择策略从目标项目中筛选出不确定性高的样本进行专家标注,并将这些标注样本放入源项目中以训练预测器。其次,利用领域知识对选定样本进行扰动,构建局部数据集,并通过线性模型在该数据集上模拟数据选择策略的行为,以实现模型的可解释性。实验结果显示:该方法在数据标注方面的指标性能要优于传统的主动学习基准方法;同时,在可解释性方面,该方法的RMSE指标也均低于LIME、全局代理模型以及RuleFit,能较好地解释“黑盒”模型。该方法不仅可以有效提高软件缺陷数据的标注效率,还可以实现模型的可解释性。 展开更多
关键词 软件缺陷预测 主动学习 可解释性 数据标注 数据选择策略 深度学习
在线阅读 下载PDF
绿色食品生产可用农药查询系统构建与应用
20
作者 孙晓明 孙爱东 +1 位作者 刘贤金 卢海燕 《浙江农业科学》 2024年第11期2680-2684,共5页
绿色食品生产中科学安全用药至关重要。为了方便生产主体查询绿色食品可用农药,该研究首先通过网络爬虫获取农药登记信息,然后依据《绿色食品—农药使用准则》(NY/T 393—2020),利用数据标注技术,对绿色食品生产可用的农药进行标注,并... 绿色食品生产中科学安全用药至关重要。为了方便生产主体查询绿色食品可用农药,该研究首先通过网络爬虫获取农药登记信息,然后依据《绿色食品—农药使用准则》(NY/T 393—2020),利用数据标注技术,对绿色食品生产可用的农药进行标注,并且基于Web开发技术,设计开发了一款微信小程序提供查询功能,可按照农药类别、防治对象进行查询,操作简单便捷,易于推广应用,进一步对登记作物、防治对象进行标注,提高查询的准确率和查全率,对提高绿色食品质量安全具有重要意义。 展开更多
关键词 绿色食品 农药使用 农药登记信息 数据标注
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部