-
题名Ti-ABSA:藏文方面级情感分析数据集
- 1
-
-
作者
田金超
闫晓东
常浩远
巩鑫
-
机构
中央民族大学信息工程学院
国家语言资源监测与研究少数民族语言中心
国家安全研究院语言信息安全研究中心
民族语言智能分析与安全治理教育部重点实验室
-
出处
《中国科学数据(中英文网络版)》
2025年第3期514-522,共9页
-
基金
国家自然科学基金(61972436)
中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22)
国家语委重点项目(ZDI145-61)。
-
文摘
方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语言的研究中,仍存在着数据资源匮乏、标注质量参差不齐等问题。为推动藏文方面级情感分析的研究,本研究采用爬虫的方法从微博网站爬取藏文微博信息,构建了一个用于藏文方面级情感分析的数据集Ti-ABSA。本数据集包含微博和微博评论两类数据,并为其标注方面术语,对于每个方面术语,进一步标注其情感极性,分为正向、中性和负向三类情感信息,分别用2、1和0表示,共包含10577个样本,其中微博数据集包含5872个样本,微博评论数据集包含4705个样本。为确保数据质量,在数据审核环节,本研究结合了中文翻译辅助和藏族学生人工核对的方式提升数据的准确性。数据的方面术语及情感标注阶段则采用了中文翻译标注、藏族学生标注以及大语言模型的自动标注相结合的方法,对比三者标注结果,保留结果一致的数据,确保了数据标注的一致性和可靠性。为进一步提高数据集质量,本研究邀请多位藏族学生对数据进行评估打分,最终筛选出10577个高质量样本。Ti-ABSA数据集的发布将有助于推动藏文方面级情感分析的发展,具有重要的实用价值和研究意义。
-
关键词
方面级情感分析
藏文
微博
数据集
-
Keywords
aspect based sentiment analysis
Tibetan
Weibo
dataset
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-