期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
面向社会媒体的立场检测研究综述
1
作者 赵小兵 尹召宁 +2 位作者 王子豪 张袁硕 陈波 《计算机应用研究》 CSCD 北大核心 2024年第11期3201-3214,共14页
随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的... 随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的文本,确定用户对目标的立场(支持/反对/中立)。针对立场检测方面的研究阐述了立场检测任务、应用、相关数据资源和相关方法。在任务方面,除了常规的单/多/跨目标立场检测任务,还梳理了零/少样本立场检测的相关工作;在数据资源方面,对近年来公开的数据资源进行了详细梳理介绍;在方法方面,除了传统机器学习方法、神经网络等方法,还梳理了基于预训练模型的方法。最后对立场检测的发展现状进行了总结阐述,并展望了接下来可能的研究热点。 展开更多
关键词 目标 立场 立场检测 零/少样本立场检测 预训练模型
在线阅读 下载PDF
基于生成式语言模型的立场检测探究
2
作者 张袁硕 李澳华 +3 位作者 陈波 尹召宁 王潘怡 赵小兵 《中文信息学报》 北大核心 2025年第3期139-147,共9页
近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的... 近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。 展开更多
关键词 生成式语言模型 立场检测 零样本/少样本 提示学习
在线阅读 下载PDF
藏汉跨语言摘要数据集TiCLS 被引量:1
3
作者 欧阳新鹏 闫晓东 《中国科学数据(中英文网络版)》 CSCD 2024年第4期68-75,共8页
是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低... 是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本研究构建了可用于藏汉跨语言摘要生成任务的数据集,共包含8000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本数据集爬取自藏文新闻网站,为保证数据质量,在爬取数据时,去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本研究从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了8000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。 展开更多
关键词 藏汉跨语言摘要 藏文 低资源 数据集
在线阅读 下载PDF
Ti-ABSA:藏文方面级情感分析数据集
4
作者 田金超 闫晓东 +1 位作者 常浩远 巩鑫 《中国科学数据(中英文网络版)》 2025年第3期514-522,共9页
方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语... 方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语言的研究中,仍存在着数据资源匮乏、标注质量参差不齐等问题。为推动藏文方面级情感分析的研究,本研究采用爬虫的方法从微博网站爬取藏文微博信息,构建了一个用于藏文方面级情感分析的数据集Ti-ABSA。本数据集包含微博和微博评论两类数据,并为其标注方面术语,对于每个方面术语,进一步标注其情感极性,分为正向、中性和负向三类情感信息,分别用2、1和0表示,共包含10577个样本,其中微博数据集包含5872个样本,微博评论数据集包含4705个样本。为确保数据质量,在数据审核环节,本研究结合了中文翻译辅助和藏族学生人工核对的方式提升数据的准确性。数据的方面术语及情感标注阶段则采用了中文翻译标注、藏族学生标注以及大语言模型的自动标注相结合的方法,对比三者标注结果,保留结果一致的数据,确保了数据标注的一致性和可靠性。为进一步提高数据集质量,本研究邀请多位藏族学生对数据进行评估打分,最终筛选出10577个高质量样本。Ti-ABSA数据集的发布将有助于推动藏文方面级情感分析的发展,具有重要的实用价值和研究意义。 展开更多
关键词 方面级情感分析 藏文 微博 数据集
在线阅读 下载PDF
基于新闻文本的汉藏新词语数据集(2017-2022) 被引量:1
5
作者 庞仙 陈波 +1 位作者 赵小兵 胡淇研 《中国科学数据(中英文网络版)》 CSCD 2024年第4期30-38,共9页
随着时代和社会的发展变化,各个语种的新词语不断涌现。新词语几乎都是未登录词,与分词、信息抽取、机器翻译等自然语言处理下游任务密切相关。本研究基于汉、藏新闻文本,利用新词语抽取方法,抽取并构建了2017-2022年度的汉藏新词语数据... 随着时代和社会的发展变化,各个语种的新词语不断涌现。新词语几乎都是未登录词,与分词、信息抽取、机器翻译等自然语言处理下游任务密切相关。本研究基于汉、藏新闻文本,利用新词语抽取方法,抽取并构建了2017-2022年度的汉藏新词语数据集,包括汉文新词语共3388条,藏文新词语(对应汉文翻译)共1417条。本数据集全过程数据质量控制,并由藏语专业人员筛选,确保获得高质量数据集。本数据集可为自然语言处理领域和语言学研究提供重要基础数据资源,用于监测语言使用状况。 展开更多
关键词 新词语 汉藏 新闻 2017-2022
在线阅读 下载PDF
TN-SUM:藏文文本摘要数据集
6
作者 黄硕 闫晓东 田金超 《中国科学数据(中英文网络版)》 CSCD 2024年第4期59-67,共9页
是自然语言处理领域的一个重要研究方向,有助于解决信息过载、提高文本数据的可用性和可理解性的一门技术。藏语是中国少数民族语言之一,属于低资源语言,拥有自己独特的文字和语法结构。与中英文这些主要语言相比,藏文在自动文本摘要领... 是自然语言处理领域的一个重要研究方向,有助于解决信息过载、提高文本数据的可用性和可理解性的一门技术。藏语是中国少数民族语言之一,属于低资源语言,拥有自己独特的文字和语法结构。与中英文这些主要语言相比,藏文在自动文本摘要领域的研究仍然相对滞后,主要原因之一是因为缺乏大规模的可用数据集。为了弥补这一缺失,使用爬虫的方法从各大藏文新闻门户网站抓取了2万篇真实藏文新闻,每篇新闻使用标题作为摘要,创建了一个包含丰富、多样的藏文文本摘要数据集TN-SUM,并寻找了10位藏语作为母语的学生对数据进行打分,以此对数据进行质量控制和评估,进而满足科研人员的需要,来推动藏文在自动文本摘要领域的发展。 展开更多
关键词 自动文本摘要 数据集 藏文新闻 标题
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部