-
题名数据分类分级技术研究综述
- 1
-
-
作者
刘乐源
陈格格
吴炜
王永
周帆
-
机构
电子科技大学信息与软件工程学院
宜宾电子科技大学研究院
厅市共建智能终端四川省重点实验室
喀什地区电子信息产业技术研究院
郑州埃文科技有限公司
香港科技大学
-
出处
《计算机科学》
北大核心
2025年第9期195-211,共17页
-
基金
四川省科技计划项目(2023YFG0032)
宜宾市双城协议保障科研经费科技项目(DZKJDX2021020004)
中铁十五局集团有限公司科研项目(2023B20)。
-
文摘
近年来,各类信息系统和物联网不断发展,与人类日常生活的融合日趋紧密,由此产生的海量数据已经成为当今社会经济中的一种新型生产要素,甚至是国家战略资源。对数据要素进行有效的管理,越来越得到国家、企业和科研机构的重视。准确合理的数据分类分级作为数据治理任务中最基础的一步,将对后续数据的确权、共享、安全保护等产生重大影响。首先,对数据分类分级任务进行定义,并介绍了传统分类分级的方法;其次,对新近基于人工智能尤其是大语言模型的数据分类分级技术进行了概括和对比;随后,鉴于数据分类分级与行业的相关性,对重点行业和领域中的数据分类分级应用情况进行了介绍;最后,对数据分类分级技术的发展进行了前瞻,讨论了未来面临的新挑战和可能的发展方向。
-
关键词
数据分级分类
数据要素治理
机器学习
深度学习
大语言模型
-
Keywords
Data classification and grading
Data element governance
Machine learning
Deep Learning
Large language model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于图解析的端到端片段藏文语义角色标注方法
- 2
-
-
作者
班玛宝
罗鹏
头旦才让
尼玛扎西
才让加
于永斌
-
机构
电子科技大学信息与软件工程学院
西藏大学信息科学技术学院
青海师范大学计算机学院
青海师范大学
宜宾电子科技大学研究院
-
出处
《北京大学学报(自然科学版)》
北大核心
2025年第3期440-450,共11页
-
基金
四川省自然科学基金青年基金(25QNJJ3501)
藏语智能全国重点实验室开放课题(2024-Z-001)
+1 种基金
科技创新2030-“新一代人工智能”重大项目(2022ZD0116100)
国家自然科学基金(62306158)资助。
-
文摘
语义角色标注作为通往语义理解的重要途径,在机器翻译、信息抽取和问答系统中具有广泛的应用价值.本文通过借鉴英文和汉文中较为成熟的语义角色标注方法,在已有藏文语义标注体系和方法的基础上,提出一种基于图解析的端到端片段(span)藏文语义角色标注方法.该方法将基于片段的藏文语义角色标注转换成基于词的图解析任务,可分为语义角色标注到图的转换和图至语义角色标注的恢复两个阶段.第一阶段采用藏文预训练语言模型(TiUniLM)进行动态词嵌入,并通过引入谓词标识器P,自动指定谓词,然后通过设计"门控"机制长短时记忆网络(GM-LSTM)对时序特征进一步建模.第二阶段使用Viterbi约束解码,对不合法的图进行校正.最后,通过在TSRLD-Span上的实验表明,该方法在测试集上的最佳F1值可达89.69%,相比基线模型,性能具有显著提升,验证了该方法的有效性.
-
关键词
自然语言处理
图解析
片段
藏文语义角色标注
谓词标识器
-
Keywords
natural language processing(NLP)
graph parsing
span
Tibetan semantic role labeling
predicate indicator
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于微调Qwen2自动构建领域UML模型
- 3
-
-
作者
李嘉威
邓媛丹
陈波
-
机构
电子科技大学信息与软件工程学院
宜宾电子科技大学研究院
厅市共建智能终端四川省重点实验室
-
出处
《计算机科学》
北大核心
2025年第S1期19-22,共4页
-
基金
四川省科技计划项目(2023YFG0032)
四川省科技成果转移转化示范项目(2024ZHCG0029)。
-
文摘
提出了一种基于大模型微调技术的领域UML(统一建模语言)自动构建系统,用于将各领域软件系统制作需求的自然语言描述自动转换为符合统一建模语言标准的UML类图。研究过程包括自然文本数据集构建、模型微调、量化部署以及前端交互界面的开发。通过此系统,非专业用户可以通过简单的自然语言输入,自动生成符合统一建模语言标准的UML类图,大大降低了时间和人力成本。
-
关键词
大模型微调
领域建模
数据集构建
统一建模语言
-
Keywords
Fine tuning of large models
Domain modeling
Dataset construction
Unified modeling language
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-