-
题名基于生成式语言模型的立场检测探究
- 1
-
-
作者
张袁硕
李澳华
陈波
尹召宁
王潘怡
赵小兵
-
机构
中央民族大学信息工程学院
国家语言资源监测与研究民族语言中心
国家安全研究院语言信息安全研究中心
-
出处
《中文信息学报》
北大核心
2025年第3期139-147,共9页
-
基金
国家社会科学基金(22&ZD035)
国家语委重点项目(ZDI145-61)
中央民族大学项目(GRSCP202316,2023QNYL22,2024GJYY43)。
-
文摘
近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。
-
关键词
生成式语言模型
立场检测
零样本/少样本
提示学习
-
Keywords
Generative Language Model
stance detection
zero/few shot
prompt learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向社会媒体的立场检测研究综述
- 2
-
-
作者
赵小兵
尹召宁
王子豪
张袁硕
陈波
-
机构
中央民族大学信息工程学院
中央民族大学国家语言资源监测与研究民族语言中心
中央民族大学国家安全研究院语言信息安全研究中心
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第11期3201-3214,共14页
-
基金
国家社会科学基金重大项目(22&ZD035)
国家语委资助项目(ZDI145-61)。
-
文摘
随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的文本,确定用户对目标的立场(支持/反对/中立)。针对立场检测方面的研究阐述了立场检测任务、应用、相关数据资源和相关方法。在任务方面,除了常规的单/多/跨目标立场检测任务,还梳理了零/少样本立场检测的相关工作;在数据资源方面,对近年来公开的数据资源进行了详细梳理介绍;在方法方面,除了传统机器学习方法、神经网络等方法,还梳理了基于预训练模型的方法。最后对立场检测的发展现状进行了总结阐述,并展望了接下来可能的研究热点。
-
关键词
目标
立场
立场检测
零/少样本立场检测
预训练模型
-
Keywords
target
stance
stance detection
zero/few-shot stance detection
pre-trained model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向新闻文本的汉藏新词抽取及分析
- 3
-
-
作者
庞仙
陈波
赵小兵
-
机构
教育部语言文字应用研究所
首都师范大学文学院
中央民族大学国家语言资源监测与研究民族语言中心
中央民族大学信息工程学院
-
出处
《北京大学学报(自然科学版)》
北大核心
2025年第1期45-52,共8页
-
基金
国家社会科学基金重大项目(22&ZD035)资助。
-
文摘
提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够减少人工筛选工作量,并显著地提高新词抽取的效率。与《中国语言生活状况报告2023》发布的2022年度汉文新词相比,该方法抽取的新词在数量和语种方面优势明显。此外,对汉文和藏文新词进行对齐,并从新词的发展和使用状况角度开展案例分析。
-
关键词
新闻文本
汉文
藏文
新词抽取
-
Keywords
news text
Chinese
Tibetan
new words extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名跨学科视角下的文本解读——以《故乡》为例
- 4
-
-
作者
赵哲
葛东雷
-
机构
北京警察学院公安管理系
中央民族大学国家语言资源监测与研究民族语言中心
北京工业职业技术学院基础教育学院
-
出处
《语文建设》
北大核心
2025年第8期56-59,共4页
-
基金
2022年教育部人文社会科学研究项目“语言文字治理的理论体系与路径研究”(项目编号:22YJC740015)阶段性成果。
-
文摘
跨学科视角对提升学生核心素养具有重要作用。文章探讨了跨学科视角在文本分析中的应用,从社会学、马克思主义哲学和历史学等角度对鲁迅的《故乡》展开多维度文本分析。从城乡二元结构塑造性格底色、社会阶层差异造就身份认同、半殖民地半封建的社会现实导致人物悲剧等角度,分析了《故乡》中“我”与“闰土”的人物特色,并深入探讨了社会阶层固化对个体身份认同的影响。
-
关键词
《故乡》
文本解读
跨学科视角
-
分类号
G633.3
[文化科学—教育学]
-
-
题名TibNER:藏文命名实体识别数据集
- 5
-
-
作者
周毛克
俄见才让
道吉才旦
戚肖克
赵小兵
-
机构
中央民族大学中国少数民族语言文学学院
国家语言资源监测与研究民族语言中心
中央民族大学信息工程学院
中国民族语文翻译中心(局)
中国政法大学法治信息管理学院
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第4期10-20,共11页
-
基金
国家社科基金重大项目(22&ZD035)。
-
文摘
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。
-
关键词
藏语
命名实体识别
实体词典
数据集
-
Keywords
Tibetan
named entity recognition
entity dictionary
dataset
-
分类号
H214
[语言文字—少数民族语言]
TP391.1
[自动化与计算机技术—计算机应用技术]
-