期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于生成式语言模型的立场检测探究
1
作者 张袁硕 李澳华 +3 位作者 陈波 尹召宁 王潘怡 赵小兵 《中文信息学报》 北大核心 2025年第3期139-147,共9页
近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的... 近年来,立场检测任务受到越来越多的关注,但相关标注数据在范围和规模上都有限,不能有效支撑基于神经网络的立场检测。为此,该文探索在零样本/少样本场景下生成式语言模型在立场检测任务上的能力。首先,构建了一个全新的面向立场检测的数据集,包含5个主题,共2500个人工标注样例;然后,在此数据集上进行了一系列探索实验,实验结果表明,生成式语言模型在零样本设定下,采用结构化的提示学习表现良好;增加额外信息能够显著提升模型性能;在少样本设定下,提供相同目标的示例能够明显提升模型性能,而不同目标示例产生了负面作用;使用思维链可以显著提升模型性能;受提示学习的启发,微调预训练语言模型进一步论证提供额外信息对立场检测的增益显著。 展开更多
关键词 生成式语言模型 立场检测 零样本/少样本 提示学习
在线阅读 下载PDF
面向社会媒体的立场检测研究综述
2
作者 赵小兵 尹召宁 +2 位作者 王子豪 张袁硕 陈波 《计算机应用研究》 CSCD 北大核心 2024年第11期3201-3214,共14页
随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的... 随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的文本,确定用户对目标的立场(支持/反对/中立)。针对立场检测方面的研究阐述了立场检测任务、应用、相关数据资源和相关方法。在任务方面,除了常规的单/多/跨目标立场检测任务,还梳理了零/少样本立场检测的相关工作;在数据资源方面,对近年来公开的数据资源进行了详细梳理介绍;在方法方面,除了传统机器学习方法、神经网络等方法,还梳理了基于预训练模型的方法。最后对立场检测的发展现状进行了总结阐述,并展望了接下来可能的研究热点。 展开更多
关键词 目标 立场 立场检测 零/少样本立场检测 预训练模型
在线阅读 下载PDF
面向新闻文本的汉藏新词抽取及分析
3
作者 庞仙 陈波 赵小兵 《北京大学学报(自然科学版)》 北大核心 2025年第1期45-52,共8页
提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够... 提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够减少人工筛选工作量,并显著地提高新词抽取的效率。与《中国语言生活状况报告2023》发布的2022年度汉文新词相比,该方法抽取的新词在数量和语种方面优势明显。此外,对汉文和藏文新词进行对齐,并从新词的发展和使用状况角度开展案例分析。 展开更多
关键词 新闻文本 汉文 藏文 新词抽取
在线阅读 下载PDF
跨学科视角下的文本解读——以《故乡》为例
4
作者 赵哲 葛东雷 《语文建设》 北大核心 2025年第8期56-59,共4页
跨学科视角对提升学生核心素养具有重要作用。文章探讨了跨学科视角在文本分析中的应用,从社会学、马克思主义哲学和历史学等角度对鲁迅的《故乡》展开多维度文本分析。从城乡二元结构塑造性格底色、社会阶层差异造就身份认同、半殖民... 跨学科视角对提升学生核心素养具有重要作用。文章探讨了跨学科视角在文本分析中的应用,从社会学、马克思主义哲学和历史学等角度对鲁迅的《故乡》展开多维度文本分析。从城乡二元结构塑造性格底色、社会阶层差异造就身份认同、半殖民地半封建的社会现实导致人物悲剧等角度,分析了《故乡》中“我”与“闰土”的人物特色,并深入探讨了社会阶层固化对个体身份认同的影响。 展开更多
关键词 《故乡》 文本解读 跨学科视角
在线阅读 下载PDF
TibNER:藏文命名实体识别数据集
5
作者 周毛克 俄见才让 +2 位作者 道吉才旦 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 CSCD 2024年第4期10-20,共11页
结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动... 结构化的语言资源是自然语言处理的重要基础。目前,由于缺乏公开的大规模数据集,藏文命名实体识别研究进展缓慢,成果积累较少。基于此,本文利用实体词典半自动地构建并公开了藏文命名实体识别数据集(TibNER)。为保证数据集质量,对自动标注结果进行了人工校审。TibNER包含20096个句子,平均句长为44.2069个音节,标注的实体类型包括人名、地名、组织机构名,三类实体总数达43678。为了验证数据集的有效性,本文在三个主流的序列标注模型上进行对比测试,最优模型的F1值达到80.60%。经研究,本数据为低资源语言提供了数据构建经验,同时为藏文命名实体识别等任务提供了一定的数据基础。 展开更多
关键词 藏语 命名实体识别 实体词典 数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部