-
题名针对北京旅游景点的评论文本情感标注数据集
被引量:2
- 1
-
-
作者
朱登赟
万福成
国旗
张东娇
于洪志
-
机构
西北民族大学语言与文化计算教育部重点实验室
西北民族大学甘肃省民族语言文化智能信息处理重点实验室
-
出处
《中国科学数据(中英文网络版)》
2025年第1期453-462,共10页
-
基金
国家自然科学基金(62366046)
甘肃省基础研究创新群体项目(24JRRA154)。
-
文摘
在旅游业高速发展背景下,潜在出行用户想在大量信息中寻找合适的旅游景点不仅耗费时间且缺乏可信度。各类旅游平台的用户评论具有很高的参考价值,本研究基于携程网提取北京部分旅游景点评论文本,通过文本爬取、文本预处理、文本情感倾向标注过程,制作了北京部分旅游景点评论文本情感数据集。实验所爬取旅游景点评论文本数据量为5万条。通过与用户在线查看旅游评论对比验证表明,本数据集具有较高可靠性。本数据集可为做旅游数据文本的情感分析提供数据支撑。
-
关键词
旅游景点
情感分析
评论文本
Python爬虫技术
-
Keywords
tourist attraction
emotion analysis
review text
Python crawler
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
F592.7
[经济管理—旅游管理]
-
-
题名融合降噪微调与图注意力机制的藏文长文本分类
- 2
-
-
作者
敬容
万福成
黄锐
于洪志
马宁
-
机构
西北民族大学语言与文化计算教育部重点实验室
西北民族大学甘肃省民族语言文化智能信息处理重点实验室
-
出处
《计算机工程与科学》
北大核心
2025年第6期1133-1140,共8页
-
基金
国家自然科学基金(62366046)
甘肃省科技计划(24JRRA154)
西北民族大学基本科研业务费项目(31920240102)。
-
文摘
在藏文长文本分类任务中,长距离依赖问题尤为突出。同时,多语言预训练模型在处理藏文文本分类任务时也存在一定的偏差。针对以上问题,基于预训练语言模型CINO-Large,提出融合降噪微调与图注意力机制的藏文长文本分类方法。首先,在CINO-Large中引入不完全信任损失函数In-trust,通过任务适应性损失增强模型在下游任务中的泛化能力。其次,在图结构建模中引入滑动窗口和线性分类,选择性增加文档与文档边缘,提高节点间的特征区分度。最后,利用图注意力机制GAT捕捉不同节点在图中的重要性,完成藏文长文本分类任务。在TNCC中的新闻长文本上,由所提方法构建的模型的分类准确率达到了71.66%,与预训练语言模型CINO-Large相比,其准确率、精确度和F1分数分别提高了1.77%、2.67%和2.03%,在部分分类困难的子类别上,模型的F1分数能显著提升20%左右。
-
关键词
预训练模型
降噪微调
图注意力机制
藏文长文本分类
-
Keywords
pre-training model
denoising fine-tuning
graph attention mechanism
Tibetan long text classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融合多情感的语音驱动虚拟说话人生成方法
被引量:4
- 3
-
-
作者
李帅帅
何向真
张跃洲
王嘉欣
-
机构
西北民族大学语言与文化计算教育部重点实验室
西北民族大学甘肃省民族语言文化智能信息处理重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第8期2546-2553,共8页
-
基金
国家自然科学基金资助项目(62341209)
甘肃省教育教学成果培育项目(2023GSJXCGPY-60)
中央高校基本科研业务费专项资金资助项目(31920230054)。
-
文摘
虚拟说话人生成是人工智能领域的一个重要研究方向,旨在通过计算机生成具有逼真语音的虚拟说话人。然而,现有方法往往忽视情绪表达、生成的人脸图像面部细节缺乏真实感,限制了虚拟说话人的表现能力和交互性。为解决这一问题,提出一种基于Transformer的生成对抗网络(generative adversarial network,GAN)方法,用于生成具有不同情绪的虚拟说话人(GANLTB)。该方法基于GAN架构,生成器采用Transformer模型处理语音和图像特征,结合情绪条件信息和潜在空间向量,生成带有指定情绪的语音和图像。判别器用于评估生成结果的真实性,并提供梯度信号指导生成器训练。通过引入双三次插值法,进一步提升了虚拟说话人生成的图像质量,使得虚拟说话人的面部细节更加清晰可见,表情更加自然和生动。使用情感多样性数据集(CREMA-D)验证了该方法,通过主观评估和客观指标,评估了生成的语音和图像的情绪表达能力和质量。实验结果表明,该方法能够生成具有多样化和逼真情绪表达的虚拟说话人。相比目前其他先进方法,所提方法在流畅度和逼真度等细节上都更加清晰,带来了更好的真实感。
-
关键词
虚拟说话人
生成对抗网络
TRANSFORMER
多情感表达
语音驱动
-
Keywords
virtual speaker
GAN
Transformer
multi-emotion expression
voice-driven
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-