期刊文献+

多语言平行情感语料库的构建与研究

Construction and Research of Multilingual Parallel Emotion Corpus
在线阅读 下载PDF
导出
摘要 在自然语言处理领域,多语平行语料库的构建与应用日益成为研究热点,其在跨文化交流、机器翻译、情感分析及智慧问答等领域的应用价值愈发凸显。特别是在“一带一路”倡议背景下,深化中蒙两国在文化、经济及社会领域的交流合作具有重要意义。因此,该研究构建了一个涵盖中文、传统蒙文和新蒙文的多语平行情感语料库,以推动蒙文体系下的情感分析研究。该语料库的构建不仅有助于深化中蒙两国间的文化交流与合作,还将促进我国民族团结及蒙古族文化的传承与发展。该研究基于SMP2020-EWECT和OCEMOTION两个公开中文情感分析数据集,采用先进的机器翻译技术,将中文文本自动翻译为传统蒙文和新蒙文,并通过机器校对与人工校对相结合的双重验证机制,确保语料库的准确性和高质量。对该语料库进行详尽的数据分析,以确保文本的多样性与平衡性,涵盖不同领域和情感类别,保证语料库在多种自然语言处理任务中的广泛适用性和代表性。通过一系列系统性的实验,探索了多种情感分析模型在蒙文数据上的性能表现,实验结果验证了该语料库在情感分析任务中的可用性和研究价值。 In the field of natural language processing,the construction and application of multilingual parallel corpora has increasingly become a research hotspot,and its application value in the fields of cross-cultural communication,machine translation,sentiment analysis,and intelligent question answering has become more and more prominent.Against the backdrop of“the Belt and Road Initiative”,it is of great significance to deepen exchanges and cooperation between China and Mongolia in the cultural,economic and social fields.Therefore,this paper constructs a multilingual parallel emotion corpus covering Chinese,traditional Mongolian and cyrillic Mongolian to promote sentiment analysis research in the Mongolian system.The construction of this corpus will not only help deepen the cultural exchanges and cooperation between China and Mongolia,but also promote the unity of Chinese nations and the inheritance and development of Mongolian ethnic culture.Based on the two public Chinese sentiment analysis datasets of SMP2020-EWECT and OCEMOTION,this paper first uses advanced machine translation technology to automatically translate Chinese texts into traditional Mongolian and cyrillic Mongolian texts,and ensures the accuracy and high quality of the corpus through a dual verification mechanism combining machine proofreading and human proofreading.Then,detailed data analysis is carried out on the corpus to ensure the diversity and balance of the text,covering different domains and sentiment categories,and ensuring the wide applicability and representativeness of the corpus in a variety of natural language processing tasks.Finally,through a series of systematic experiments,the performance of various sentiment analysis models on Mongolian data is explored,and the experimental results verify the usability and research value of the corpus in sentiment analysis tasks.
作者 张浩 李世琪 刁宇峰 杨亮 林鸿飞 樊小超 ZHANG Hao;LI Shiqi;DIAO Yufeng;YANG Liang;LIN Hongfei;FAN Xiaochao(School of Computer Science and Technology,Inner Mongolia Minzu University,Tongliao,Inner Mongolia 028000,China;School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China;School of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054,China)
出处 《计算机科学与探索》 北大核心 2025年第9期2506-2519,共14页 Journal of Frontiers of Computer Science and Technology
基金 国家自然科学基金(62366040,62006130,62066044) 内蒙古自治区高等学校青年科技英才支持计划(NJYT24037) 内蒙古自治区自然科学基金(2022MS06028,2023LHMS06021) 内蒙古自治区高校科研直属项目(GXKY22050,GXKY23Z067,GXKY22134,GXKY23Z015) 内蒙古民族大学博士科研启动基金(BS662)内蒙古民族大学智慧农牧创新团队项目。
关键词 自然语言处理 多语言平行语料库 传统蒙文 新蒙文 natural language processing multilingual parallel corpus traditional Mongolian cyrillic Mongolian
作者简介 张浩(1999-),男,内蒙古赤峰人,硕士研究生,CCF学生会员,主要研究方向为情感计算;李世琪(2000-),女,内蒙古通辽人,硕士研究生,CCF学生会员,主要研究方向为自然语言处理;通信作者:刁宇峰(1987-),女,内蒙古通辽人,博士,副教授,硕士生导师,主要研究方向为文本挖掘、情感计算,E-mail:diaoyufeng@imun.edu.cn;杨亮(1986-),男,辽宁大连人,博士,副教授,硕士生导师,主要研究方向为情感分析、意见挖掘;林鸿飞(1965-),男,吉林长春人,博士,教授,硕士生导师,主要研究方向为情感分析、社会计算、信息检索、生物信息学;樊小超(1982-),男,新疆乌鲁木齐人,博士,副教授,主要研究方向为情感分析、文本挖掘、生物信息学。
  • 相关文献

参考文献6

二级参考文献133

共引文献542

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部