检索结果-维普期刊中文期刊服务平台

面向社会媒体的立场检测研究综述: 1; 作者赵小兵尹召宁 +2 位作者王子豪张袁硕陈波《计算机应用研究》 CSCD 北大核心 2024年第11期3201-3214,共14页; 随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的... 展开更多; 关键词目标立场立场检测零/少样本立场检测预训练模型; 在线阅读下载PDF 职称材料

基于生成式语言模型的立场检测探究: 2; 作者张袁硕李澳华 +3 位作者陈波尹召宁王潘怡赵小兵《中文信息学报》北大核心 2025年第3期139-147,共9页; 近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的... 展开更多; 关键词生成式语言模型立场检测零样本/少样本提示学习; 在线阅读下载PDF 职称材料

藏汉跨语言摘要数据集TiCLS 被引量：1: 3; 作者欧阳新鹏闫晓东《中国科学数据（中英文网络版）》 CSCD 2024年第4期68-75,共8页; 是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低... 展开更多; 关键词藏汉跨语言摘要藏文低资源数据集; 在线阅读下载PDF 职称材料

Ti-ABSA:藏文方面级情感分析数据集: 4; 作者田金超闫晓东 +1 位作者常浩远巩鑫《中国科学数据(中英文网络版)》 2025年第3期514-522,共9页; 方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语... 展开更多; 关键词方面级情感分析藏文微博数据集; 在线阅读下载PDF 职称材料

基于新闻文本的汉藏新词语数据集(2017-2022) 被引量：2: 5; 作者庞仙陈波 +1 位作者赵小兵胡淇研《中国科学数据（中英文网络版）》 CSCD 2024年第4期30-38,共9页; 随着时代和社会的发展变化,各个语种的新词语不断涌现。新词语几乎都是未登录词,与分词、信息抽取、机器翻译等自然语言处理下游任务密切相关。本研究基于汉、藏新闻文本,利用新词语抽取方法,抽取并构建了2017-2022年度的汉藏新词语数据... 展开更多; 关键词新词语汉藏新闻 2017-2022; 在线阅读下载PDF 职称材料

TN-SUM:藏文文本摘要数据集: 6; 作者黄硕闫晓东田金超《中国科学数据（中英文网络版）》 CSCD 2024年第4期59-67,共9页; 是自然语言处理领域的一个重要研究方向,有助于解决信息过载、提高文本数据的可用性和可理解性的一门技术。藏语是中国少数民族语言之一,属于低资源语言,拥有自己独特的文字和语法结构。与中英文这些主要语言相比,藏文在自动文本摘要领... 展开更多; 关键词自动文本摘要数据集藏文新闻标题; 在线阅读下载PDF 职称材料

题名面向社会媒体的立场检测研究综述: 1; 作者赵小兵尹召宁王子豪张袁硕陈波; 机构中央民族大学信息工程学院中央民族大学国家语言资源监测与研究民族语言中心中央民族大学国家安全研究院语言信息安全研究中心; 出处《计算机应用研究》 CSCD 北大核心 2024年第11期3201-3214,共14页; 基金国家社会科学基金重大项目(22&ZD035) 国家语委资助项目(ZDI145-61)。; 文摘随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的文本,确定用户对目标的立场(支持/反对/中立)。针对立场检测方面的研究阐述了立场检测任务、应用、相关数据资源和相关方法。在任务方面,除了常规的单/多/跨目标立场检测任务,还梳理了零/少样本立场检测的相关工作;在数据资源方面,对近年来公开的数据资源进行了详细梳理介绍;在方法方面,除了传统机器学习方法、神经网络等方法,还梳理了基于预训练模型的方法。最后对立场检测的发展现状进行了总结阐述,并展望了接下来可能的研究热点。; 关键词目标立场立场检测零/少样本立场检测预训练模型; Keywords target stance stance detection zero/few-shot stance detection pre-trained model; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于生成式语言模型的立场检测探究: 2; 作者张袁硕李澳华陈波尹召宁王潘怡赵小兵; 机构中央民族大学信息工程学院国家语言资源监测与研究民族语言中心国家安全研究院语言信息安全研究中心; 出处《中文信息学报》北大核心 2025年第3期139-147,共9页; 基金国家社会科学基金(22&ZD035) 国家语委重点项目(ZDI145-61) 中央民族大学项目(GRSCP202316,2023QNYL22,2024GJYY43)。; 文摘近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。; 关键词生成式语言模型立场检测零样本/少样本提示学习; Keywords Generative Language Model stance detection zero/few shot prompt learning; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名藏汉跨语言摘要数据集TiCLS 被引量：1: 3; 作者欧阳新鹏闫晓东; 机构中央民族大学信息工程学院国家语言资源监测与研究少数民族语言中心国家安全研究院语言信息安全研究中心民族语言智能分析与安全治理教育部重点实验室; 出处《中国科学数据（中英文网络版）》 CSCD 2024年第4期68-75,共8页; 基金国家语委重点项目(ZDI145-61) 国家自然科学基金(61972436) 中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22)。; 文摘是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本研究构建了可用于藏汉跨语言摘要生成任务的数据集,共包含8000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本数据集爬取自藏文新闻网站,为保证数据质量,在爬取数据时,去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本研究从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了8000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。; 关键词藏汉跨语言摘要藏文低资源数据集; Keywords Tibetan-Chinese cross-lingual summarization Tibetan low resources dataset; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名Ti-ABSA:藏文方面级情感分析数据集: 4; 作者田金超闫晓东常浩远巩鑫; 机构中央民族大学信息工程学院国家语言资源监测与研究少数民族语言中心国家安全研究院语言信息安全研究中心民族语言智能分析与安全治理教育部重点实验室; 出处《中国科学数据(中英文网络版)》 2025年第3期514-522,共9页; 基金国家自然科学基金(61972436) 中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22) 国家语委重点项目(ZDI145-61)。; 文摘方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语言的研究中,仍存在着数据资源匮乏、标注质量参差不齐等问题。为推动藏文方面级情感分析的研究,本研究采用爬虫的方法从微博网站爬取藏文微博信息,构建了一个用于藏文方面级情感分析的数据集Ti-ABSA。本数据集包含微博和微博评论两类数据,并为其标注方面术语,对于每个方面术语,进一步标注其情感极性,分为正向、中性和负向三类情感信息,分别用2、1和0表示,共包含10577个样本,其中微博数据集包含5872个样本,微博评论数据集包含4705个样本。为确保数据质量,在数据审核环节,本研究结合了中文翻译辅助和藏族学生人工核对的方式提升数据的准确性。数据的方面术语及情感标注阶段则采用了中文翻译标注、藏族学生标注以及大语言模型的自动标注相结合的方法,对比三者标注结果,保留结果一致的数据,确保了数据标注的一致性和可靠性。为进一步提高数据集质量,本研究邀请多位藏族学生对数据进行评估打分,最终筛选出10577个高质量样本。Ti-ABSA数据集的发布将有助于推动藏文方面级情感分析的发展,具有重要的实用价值和研究意义。; 关键词方面级情感分析藏文微博数据集; Keywords aspect based sentiment analysis Tibetan Weibo dataset; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于新闻文本的汉藏新词语数据集(2017-2022) 被引量：2: 5; 作者庞仙陈波赵小兵胡淇研; 机构中央民族大学中国少数民族语言文学学院中央民族大学信息工程学院国家语言资源监测与研究少数民族语言中心国家安全研究院语言信息安全研究中心云南财经大学国际语言文化学院; 出处《中国科学数据（中英文网络版）》 CSCD 2024年第4期30-38,共9页; 基金国家语委重点项目(ZDI145-61)。; 文摘随着时代和社会的发展变化,各个语种的新词语不断涌现。新词语几乎都是未登录词,与分词、信息抽取、机器翻译等自然语言处理下游任务密切相关。本研究基于汉、藏新闻文本,利用新词语抽取方法,抽取并构建了2017-2022年度的汉藏新词语数据集,包括汉文新词语共3388条,藏文新词语(对应汉文翻译)共1417条。本数据集全过程数据质量控制,并由藏语专业人员筛选,确保获得高质量数据集。本数据集可为自然语言处理领域和语言学研究提供重要基础数据资源,用于监测语言使用状况。; 关键词新词语汉藏新闻 2017-2022; Keywords new word Chinese-Tibetan News 2017-2022; 分类号 H214 [语言文字—少数民族语言] H136 [语言文字—汉语] TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名TN-SUM:藏文文本摘要数据集: 6; 作者黄硕闫晓东田金超; 机构中央民族大学信息工程学院国家语言资源监测与研究少数民族语言中心国家安全研究院语言信息安全研究中心; 出处《中国科学数据（中英文网络版）》 CSCD 2024年第4期59-67,共9页; 基金国家自然科学基金(61972436) 中央民族大学研究生精品示范课程(GRSCP202316,2023QNYL22) 国家语委重点项目(ZDI145-61)。; 文摘是自然语言处理领域的一个重要研究方向,有助于解决信息过载、提高文本数据的可用性和可理解性的一门技术。藏语是中国少数民族语言之一,属于低资源语言,拥有自己独特的文字和语法结构。与中英文这些主要语言相比,藏文在自动文本摘要领域的研究仍然相对滞后,主要原因之一是因为缺乏大规模的可用数据集。为了弥补这一缺失,使用爬虫的方法从各大藏文新闻门户网站抓取了2万篇真实藏文新闻,每篇新闻使用标题作为摘要,创建了一个包含丰富、多样的藏文文本摘要数据集TN-SUM,并寻找了10位藏语作为母语的学生对数据进行打分,以此对数据进行质量控制和评估,进而满足科研人员的需要,来推动藏文在自动文本摘要领域的发展。; 关键词自动文本摘要数据集藏文新闻标题; Keywords automatic text summarization dataset Tibetan news title; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	面向社会媒体的立场检测研究综述	赵小兵尹召宁王子豪张袁硕陈波	《计算机应用研究》 CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
2	基于生成式语言模型的立场检测探究	张袁硕李澳华陈波尹召宁王潘怡赵小兵	《中文信息学报》北大核心	2025	0	在线阅读下载PDF 职称材料
3	藏汉跨语言摘要数据集TiCLS	欧阳新鹏闫晓东	《中国科学数据（中英文网络版）》 CSCD	2024	1	在线阅读下载PDF 职称材料
4	Ti-ABSA:藏文方面级情感分析数据集	田金超闫晓东常浩远巩鑫	《中国科学数据(中英文网络版)》	2025	0	在线阅读下载PDF 职称材料
5	基于新闻文本的汉藏新词语数据集(2017-2022)	庞仙陈波赵小兵胡淇研	《中国科学数据（中英文网络版）》 CSCD	2024	2	在线阅读下载PDF 职称材料
6	TN-SUM:藏文文本摘要数据集	黄硕闫晓东田金超	《中国科学数据（中英文网络版）》 CSCD	2024	0	在线阅读下载PDF 职称材料