期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
《多语种智能信息处理专题》卷首语
1
作者 赵小兵 孙媛 李琳 《中国科学数据(中英文网络版)》 CSCD 2022年第2期1-1,共1页
多语种智能信息处理是人工智能发展的前沿方向和关键要点。为了更好地服务于国家“一带一路”倡议发展规划,中国人工智能学会成立了多语种智能信息处理专业委员会,旨在实现语言相通、信息相通,为“一带一路”上各国家各民族的经贸相通... 多语种智能信息处理是人工智能发展的前沿方向和关键要点。为了更好地服务于国家“一带一路”倡议发展规划,中国人工智能学会成立了多语种智能信息处理专业委员会,旨在实现语言相通、信息相通,为“一带一路”上各国家各民族的经贸相通、文化相通与民心相通贡献力量。其中,多语种数据共享与评测是多语种智能信息处理的基础保障。 展开更多
关键词 智能信息处理 多语种 数据共享 人工智能 卷首语 一带一路 民心相通 前沿方向
在线阅读 下载PDF
藏文句向量预训练模型在嵌入式系统中的应用研究
2
作者 吕皓 吕慧 +4 位作者 雍宾宾 多拉 李妍 周庆国 周睿 《小型微型计算机系统》 北大核心 2025年第1期8-15,共8页
本文研究了将藏文句向量预训练模型部署到嵌入式系统上进行推理和测试的问题.在机器学习中,对文本进行编码和表征存在困难,因此句向量技术成为自然语言处理领域的重要研究方向.然而,在藏文自然语言处理领域,句向量研究相对较少.为此,本... 本文研究了将藏文句向量预训练模型部署到嵌入式系统上进行推理和测试的问题.在机器学习中,对文本进行编码和表征存在困难,因此句向量技术成为自然语言处理领域的重要研究方向.然而,在藏文自然语言处理领域,句向量研究相对较少.为此,本文分析了藏文领域已有的预训练模型和句向量表示方法,并设计了一种改进的无监督SimCSE方法(Improved Simple Contrastive Learning of Unsupervised Sentence Embeddings,I-SimCSE).实验结果显示,使用I-SimCSE方法得到的藏文句向量模型性能优于其他方法.同时,本文探讨了边缘计算与预训练模型相结合的应用,并讨论了预训练语言模型在嵌入式系统上的潜在应用场景.最后,本文将I-SimCSE句向量模型部署在嵌入式设备Jetson TX1上,并测试了其平均单次推理时间,结果表明在嵌入式系统上部署预训练语言模型进行推理是可行的.综上所述,本文的研究对于藏文句向量预训练模型在嵌入式系统上的应用研究提供了有益的参考,并为未来藏文大模型在嵌入式系统的发展提供了指导和启示. 展开更多
关键词 藏文 句向量表示 嵌入式系统 预训练模型
在线阅读 下载PDF
泛函映射及其在非刚性三维形状对应领域应用综述
3
作者 王宁 张丹 +3 位作者 徐辰昊 宋美华 张建鹏 彭泉鸿 《计算机工程与应用》 CSCD 北大核心 2024年第24期20-43,共24页
随着三维形状研究的不断发展,非刚性三维形状对应的问题变得愈加重要,这一问题的应用涵盖了计算机图形学、计算机视觉和模式识别等多个领域。泛函映射框架在非刚性三维形状对应中取得了先进的效果,其能够捕捉形状之间的复杂关系,对非刚... 随着三维形状研究的不断发展,非刚性三维形状对应的问题变得愈加重要,这一问题的应用涵盖了计算机图形学、计算机视觉和模式识别等多个领域。泛函映射框架在非刚性三维形状对应中取得了先进的效果,其能够捕捉形状之间的复杂关系,对非刚性形状的拓扑噪声具有鲁棒性。说明了三维形状对应的基本概念以及其研究方向;阐述了泛函映射的基本框架;在此基础上系统地梳理了相关领域内的经典工作,包括传统泛函映射方法和深度泛函映射方法,突出说明了不同方法在处理非刚性形状对应上的优势和局限性;介绍了非刚性三维形状对应领域常用的数据集,对不同方法进行了实验对比与分析;对非刚性三维形状对应的发展趋势进行了展望。 展开更多
关键词 非刚性三维形状 形状对应 泛函映射 拉普拉斯-贝尔特拉米算子
在线阅读 下载PDF
基于局部特征增强的视网膜血管分割
4
作者 王倩 辛月兰 《激光杂志》 CAS 北大核心 2024年第4期216-222,共7页
视网膜血管具有细小复杂的特点,在对其进行分割时,经常出现噪点、断裂和欠分割等问题。针对此现象,提出一种基于局部特征增强的轻量化网络LRU-Net,以捕获更多细小血管特征。首先,在通道注意力模块中加入特征提取模块,对输入特征进行二... 视网膜血管具有细小复杂的特点,在对其进行分割时,经常出现噪点、断裂和欠分割等问题。针对此现象,提出一种基于局部特征增强的轻量化网络LRU-Net,以捕获更多细小血管特征。首先,在通道注意力模块中加入特征提取模块,对输入特征进行二次特征提取,以得到更多的细节特征;其次,设计了一个特征融合模块,在解码器中能更有效地融合高级和低级特性,加强最终的特征表示;最后,设计了一个上下文聚合模块,提取最深层特征不同分辨率的多尺度信息,然后进行拼接,使进入上采样的输入特征更加细化。在FIVES和OCTA-500数据集上的实验结果表明,与基础网络U-Net相比,本文所提方法在做到轻量化的同时,视网膜血管分割的准确度也有了一定的提升,在两个数据集上分别达到了98.45%、97.05%。 展开更多
关键词 特征增强 特征融合模块 上下文聚合模块 视网膜血管分割
在线阅读 下载PDF
结合线稿提示的热贡建筑彩绘图像多路编码上色网络
5
作者 程苗 张效娟 +1 位作者 赵洋 范虹 《计算机工程与应用》 北大核心 2025年第9期277-287,共11页
建筑彩绘是人类非物质文化遗产热贡艺术的重要组成部分,一些年代久远存在褪色氧化现象的建筑彩绘因环境因素和传承现状的限制得不到及时的维护,这严重影响热贡建筑彩绘艺术的鉴赏和保护。针对现有的图像上色方法对建筑彩绘图像进行上色... 建筑彩绘是人类非物质文化遗产热贡艺术的重要组成部分,一些年代久远存在褪色氧化现象的建筑彩绘因环境因素和传承现状的限制得不到及时的维护,这严重影响热贡建筑彩绘艺术的鉴赏和保护。针对现有的图像上色方法对建筑彩绘图像进行上色时存在的颜色混淆、串色漏色等问题,提出一种端到端的结合线稿提示的热贡建筑彩绘图像多路编码上色网络。该网络以提取的线稿图作为图像先验知识补充特征传递过程中忽视的纹理细节信息,加强网络对全局语义的理解,改善串色漏色的现象;多路并行编码模块以三个空洞卷积和传统卷积不同排列方式的编码分支为结构,通过获得不同尺度的的感受野以此更好地捕捉上下文信息,提高色彩特征的提取能力;结合空间注意力和通道注意力的注意力残差模块,通过对特征信息的重新整合加工,帮助网络全面理解图像色彩特征和纹理信息的空间分布,提高上色质量。所提方法在构建的热贡建筑彩绘数据集和动漫数据集上进行对比实验,与现有上色方法相比,所提方法在定性分析和定量分析中具有较好的表现,在主观评价的对比中也获得与人类主观审美和专业要求最一致的结果。实验证明,所提方法图像上色效果优于其他上色方法,在热贡建筑彩绘图像上色领域具有较大应用价值。 展开更多
关键词 热贡建筑彩绘 图像上色 多路并行编码 注意力残差 线稿提示
在线阅读 下载PDF
基于规则的藏文音节纠正算法
6
作者 普尺 吕慧 +2 位作者 李妍 多拉 周庆国 《中文信息学报》 北大核心 2025年第1期28-36,共9页
藏文语料库的质量是影响藏文信息处理的重要因素。通过分析藏文音节拼写规则,该文构建了针对藏文规则音节和非规则音节拼写检查的音节规则库和非规则音节字典(包括未登录词音译、本体藏文和梵音转写),并基于此提出基于规则的藏文音节纠... 藏文语料库的质量是影响藏文信息处理的重要因素。通过分析藏文音节拼写规则,该文构建了针对藏文规则音节和非规则音节拼写检查的音节规则库和非规则音节字典(包括未登录词音译、本体藏文和梵音转写),并基于此提出基于规则的藏文音节纠正算法。该算法利用音节规则库和非规则音节字典对识别后的藏文音节进行拼写检查,通过规则音节构件组合规则来实现藏文音节纠正。实验结果表明,该文提出的藏文规则音节和非规则音节拼写检查算法的F_(1)值达到100%,而规则音节纠正算法的宏平均准确率达到80.43%。 展开更多
关键词 语料库 藏文音节 拼写检查 音节纠正
在线阅读 下载PDF
WSN中基于聚类树的负载平衡算法
7
作者 许瀚 童英华 《计算机工程与设计》 北大核心 2025年第6期1640-1647,共8页
针对无线传感网络在实际应用中网络能耗不均匀、传感器节点容易失效以及网络生命周期短的问题,提出一种基于聚类树的负载平衡算法(load balancing algorithm based on cluster tree, LBACT)。基于聚类树将网络中的节点划分为多层结构,... 针对无线传感网络在实际应用中网络能耗不均匀、传感器节点容易失效以及网络生命周期短的问题,提出一种基于聚类树的负载平衡算法(load balancing algorithm based on cluster tree, LBACT)。基于聚类树将网络中的节点划分为多层结构,通过立即转发机制降低聚类树的高度;使用平衡算法对构造的聚类树进行多轮次负载平衡,在汇聚节点的控制下,通过每个节点多次运行负载平衡算法,使网络中的节点负载平衡。仿真结果表明,相比LEACH(low-energy adaptive clustering hierarchy)和CBSHA(component based self-healing approach),提出的算法能够有效均衡节点能耗,延长网络的稳定期、生命周期,提高网络的吞吐量。 展开更多
关键词 无线传感网络 容错 聚类树 能耗均衡 负载平衡 网络结构 生命周期
在线阅读 下载PDF
基于数据驱动的WSN故障检测框架
8
作者 许瀚 童英华 《计算机应用研究》 北大核心 2025年第6期1815-1821,共7页
WSN节点通常部署在复杂的工作环境中,传感器节点故障不可避免,为了实时检测WSN中的故障,提出了一种数据驱动的故障检测框架。通过对无线传感网络运行初期采集的数据进行过滤和收集,使用过滤后的数据构造用于故障检测模型训练的数据集,... WSN节点通常部署在复杂的工作环境中,传感器节点故障不可避免,为了实时检测WSN中的故障,提出了一种数据驱动的故障检测框架。通过对无线传感网络运行初期采集的数据进行过滤和收集,使用过滤后的数据构造用于故障检测模型训练的数据集,提高模型的检测精度。通过划分时间窗口,使故障诊断模型检测最新时间窗口内的传感器故障,并且恢复其中的异常数据,使用处理后的数据集重新训练模型以检测下一个窗口的故障。通过循环训练和检测,实现检测模型的实时更新以提高模型的检测性能。实验结果表明,相比经典检测模型和最新的机器学习检测模型,在不同类型的故障数据集上,检测精确度、准确度等指标均有提升,且时间复杂度更低。因此,框架具有较好的检测性能,能够更好地适应动态变化的WSN环境。 展开更多
关键词 无线传感网络 容错 故障检测 机器学习 数据驱动 数据插值
在线阅读 下载PDF
空天地一体化网络的无人机轨迹和计算卸载联合优化
9
作者 陈奕天 童英华 《计算机科学》 北大核心 2025年第4期74-84,共11页
空天地一体化网络作为一种新兴的网络架构,近年来引起了广大研究者的关注,它能够很好地提高网络整体的服务质量。针对偏远地区的网络覆盖不全面,缺乏基本的网络基础设施的问题,提出了一种无人机和卫星共同收集任务的偏远地区空天地一体... 空天地一体化网络作为一种新兴的网络架构,近年来引起了广大研究者的关注,它能够很好地提高网络整体的服务质量。针对偏远地区的网络覆盖不全面,缺乏基本的网络基础设施的问题,提出了一种无人机和卫星共同收集任务的偏远地区空天地一体化网络框架,其中无人机与卫星为地面传感器提供边缘计算服务,云服务器为地面传感器提供云服务。由于无人机覆盖率、任务完成率和任务延迟都是影响系统性能的关键因素,因此对无人机轨迹和计算卸载进行联合优化,最大化无人机覆盖率和任务完成率,并且降低延迟。由于所提出的联合优化问题是一个混合非线性规划问题,因此设计了基于白鲸优化算法和沙猫群优化算法的双层优化算法,两层分别对无人机轨迹和计算卸载进行优化。实验结果表明,所提算法显著提高了多个无人机的覆盖率,且在计算卸载中有效提高了任务完成率,降低了任务的平均延迟。 展开更多
关键词 空天地一体化网络 无人机 边缘计算 无人机轨迹 计算卸载
在线阅读 下载PDF
基于混合特征和链接影响力的关键词识别及语义树分析
10
作者 崔宝阳 冶忠林 赵海兴 《计算机应用与软件》 北大核心 2025年第5期271-281,共11页
针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响... 针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响力指标进行关键词识别。构建大规模英文词汇语义树,对其进行关联挖掘分析。实验表明,该方法在大规模语料下有较好的识别效果,挖掘所得语义树能够反映词汇的上下文结构关系及语义信息。 展开更多
关键词 关键词抽取 图模型 BERT 语义树 影响力
在线阅读 下载PDF
现代藏语数量短语的句法语义规则研究 被引量:1
11
作者 完么扎西 《高原科学研究》 CSCD 2021年第3期78-83,共6页
数量短语作为表达“量”范畴的基本语法手段,是人们认识世界、表达世界的概念之一。文章通过对藏语语料的统计和分析,归纳了藏语数量短语的两种语法结构,并采用基于特征结构和合一运算的短语结构语法对两种结构的整体性质和内部组合情... 数量短语作为表达“量”范畴的基本语法手段,是人们认识世界、表达世界的概念之一。文章通过对藏语语料的统计和分析,归纳了藏语数量短语的两种语法结构,并采用基于特征结构和合一运算的短语结构语法对两种结构的整体性质和内部组合情况进行了分析和研究,总结并归纳了15条句法语义规则。这种可计算并形式化的藏语言知识在藏语句法语义分析、藏语机器翻译、藏语自然语言理解等领域有着非常重要的利用价值。 展开更多
关键词 藏语数量短语 语法结构 句法功能
在线阅读 下载PDF
融合依存句法的深度学习藏语句子分割研究
12
作者 头旦才让 仁青东主 +2 位作者 尼玛扎西 完么扎西 才藏太 《中文信息学报》 CSCD 北大核心 2022年第10期73-80,共8页
藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列... 藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征,提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F_(1)值为99.4%。 展开更多
关键词 藏语 依存句法 双向LSTM+CRF 句子分割
在线阅读 下载PDF
单纯形神经网络综述
13
作者 唐春阳 冶忠林 +1 位作者 白立冰 赵海兴 《计算机学报》 北大核心 2025年第7期1617-1638,共22页
图神经网络依托强大的计算能力在文本分类、节点分类和自然语言处理等领域取得了显著成果,其主要用于处理包含成对关系的图结构数据。然而,现实世界中的网络之间往往存在高阶交互关系,若使用图结构表示这种复杂关系,可能会丢失节点间的... 图神经网络依托强大的计算能力在文本分类、节点分类和自然语言处理等领域取得了显著成果,其主要用于处理包含成对关系的图结构数据。然而,现实世界中的网络之间往往存在高阶交互关系,若使用图结构表示这种复杂关系,可能会丢失节点间的重要信息。最近,单纯形被证明不仅可以编码节点间的成对关系,还可以编码多节点间的高阶交互关系。因此,学者们开始探索如何在单纯形上设计神经网络,并随之提出了众多单纯形神经网络模型。与已有的神经网络综述不同,文中重点分析了单纯形神经网络在处理多元高阶交互关系中的前沿研究及应用。首先总结了近几年单纯形神经网络的发展脉络并介绍了单纯复形、边界矩阵和霍奇拉普拉斯矩阵等基础知识;其次依据构建单纯形神经网络时采用的不同方法对其进行归纳分类,并解释了每类的代表性模型;然后介绍了单纯形神经网络的实际应用及性能分析;最后总结并探讨了单纯形神经网络未来的研究方向。本文针对单纯形神经网络进行综述,旨在帮助读者了解单纯形神经网络的理论基础与模型构建方法,力争为模型优化与实际应用提供参考。 展开更多
关键词 单纯形 单纯复形 单纯形神经网络 单纯形邻域 图神经网络
在线阅读 下载PDF
藏语情感语音数据库构建 被引量:5
14
作者 彭毛扎西 才智杰 才让卓玛 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期773-781,共9页
针对目前藏语语音情感类型划分不够细致,语音情感分析数据库规模较小的问题,在分析汉、英等语言语音情感类型划分方案及数据库基础上,提出一种藏语情感语音数据库构建方案,包括藏语语音情感分类、情感语音采集、情感语音标注以及有效性... 针对目前藏语语音情感类型划分不够细致,语音情感分析数据库规模较小的问题,在分析汉、英等语言语音情感类型划分方案及数据库基础上,提出一种藏语情感语音数据库构建方案,包括藏语语音情感分类、情感语音采集、情感语音标注以及有效性分析等。根据此方案,建立面向藏语语音情感分析的情感类型集(TESCS-9),用录音法和剪辑法采集2786句藏语情感语音,并对其进行标注,利用改进的模糊综合评价法评估情感语音得到含2745句藏语情感语音数据库(TESDB-2745),为藏语语音情感分析奠定了基础。 展开更多
关键词 语音信号处理 藏语 情感语音 数据库
在线阅读 下载PDF
一种藏语语音识别中数字文本规范方法 被引量:3
15
作者 贡保加 才智杰 +1 位作者 才让卓玛 彭毛扎西 《高原科学研究》 CSCD 2022年第3期117-124,共8页
语料库是语音识别技术的基础资源,藏语语料中数字的规范对藏语语音识别准确率有极大的影响。文章通过分析藏语语料库中的数字文本,提出了一种藏语语音识别中数字文本的规范方法,能有效规范藏语语料中数字文本,为后续藏语语音库构建及语... 语料库是语音识别技术的基础资源,藏语语料中数字的规范对藏语语音识别准确率有极大的影响。文章通过分析藏语语料库中的数字文本,提出了一种藏语语音识别中数字文本的规范方法,能有效规范藏语语料中数字文本,为后续藏语语音库构建及语音识别工作奠定基础。该方法根据藏文数字文本的特征符号和上下文文本对藏文数字文本进行了分类,并对不同藏文数字文本类型设计了规范化规则及算法,经实验验证,对藏文数字文本规范的准确率达到了99.28%。 展开更多
关键词 藏语语音识别 语料库 数字文本 规范
在线阅读 下载PDF
融合La格虚词语义信息的藏文La格分类模型 被引量:1
16
作者 班玛宝 慈祯嘉措 +1 位作者 张瑞 才让加 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期695-703,共9页
采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的... 采用深度学习方法实现藏文La格(■)分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文La格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析La格虚词的用法及语义特征,在设计La格虚词语义信息标记算法的基础上,提出一种融合La格虚词语义信息的藏文La格分类模型.该模型首先以每个音节及对应La格虚词或其它音节的语义特征嵌入作为输入,丰富嵌入向量的语义信息,增加输入特征的多样性;然后采用一维卷积融合并学习每个音节及对应La格虚词或其它音节语义信息的局部特征向量,提高卷积层的空间特征学习能力;其次使用双向长短时记忆网络(long short-term memory)(LSTM)学习时序特征,提高时序特征的学习能力;最后使用注意力机制对双向LSTM层每一时刻的输出特征进行加权融合,充分利用每一时刻的输出特征,以提高最终文本表示的特征质量.在TLD藏文La格数据集上的实验结果显示,该模型的分类效果优于基线模型及仅用藏文音节嵌入的模型,在测试集上的分类准确率为93.10%. 展开更多
关键词 自然语言处理 La格虚词 语义信息 神经网络 La格分类
在线阅读 下载PDF
基于知识图谱的长短期序列推荐算法 被引量:1
17
作者 胡泽宇 肖玉芝 +1 位作者 霍宣蓉 黄涛 《南京邮电大学学报(自然科学版)》 北大核心 2024年第4期122-130,共9页
现有的部分序列推荐算法较少关注用户短期兴趣随时间变化的问题,从而导致推荐的精度不够理想,且在用户兴趣转变的可解释性上有待提高。据此,提出了一种基于知识图谱的长短期序列推荐算法(KGLSR)。将交互历史划分为长期和短期行为序列后... 现有的部分序列推荐算法较少关注用户短期兴趣随时间变化的问题,从而导致推荐的精度不够理想,且在用户兴趣转变的可解释性上有待提高。据此,提出了一种基于知识图谱的长短期序列推荐算法(KGLSR)。将交互历史划分为长期和短期行为序列后,结合卷积神经网络与注意力机制进行长期兴趣的特征重构,并引入知识图谱与图注意力更新用户的短期偏好,最后实现自适应聚合。经验证,该模型在3类真实场景下的数据集中以HR、MRR和NDCG为评价指标的表现均优于对比实验中的主流基线模型。 展开更多
关键词 序列推荐 知识图谱 长短期兴趣 图注意力网络
在线阅读 下载PDF
基于参数高效微调的藏文大模型研究 被引量:1
18
作者 杨毛加 柔特 +2 位作者 才智杰 官却才让 贡去卓么 《中文信息学报》 CSCD 北大核心 2024年第12期106-115,共10页
大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一... 大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响。随着技术的不断进步,大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点。然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等。特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持。针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景。 展开更多
关键词 自然语言处理 藏文大模型 参数高效微调 增量预训练 指令微调
在线阅读 下载PDF
基于提示学习的低资源藏文文本分类 被引量:3
19
作者 安波 赵维纳 龙从军 《中文信息学报》 CSCD 北大核心 2024年第2期70-78,共9页
文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用... 文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。 展开更多
关键词 藏文文本分类 预训练语言模型 提示学习 小样本学习
在线阅读 下载PDF
一种基于八词位标签的BiLSTM_CRF藏文分词方法 被引量:2
20
作者 常芳玉 才智杰 《中文信息学报》 CSCD 北大核心 2024年第10期64-70,79,共8页
藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集... 藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。 展开更多
关键词 自然语言处理 藏文分词 BiLSTM_CRF 八词位标签
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部