期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
大语言模型的中文文本简化能力研究 被引量:1
1
作者 杨尔弘 朱君辉 +2 位作者 朱浩楠 宗绪泉 杨麟儿 《语言战略研究》 CSSCI 北大核心 2024年第5期34-47,共14页
大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词... 大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词表和少样本+规则这4种提示策略,综合已有的和本研究特有的语言特征评估指标,测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现,少样本提示策略在文本特征上表现最佳,显著提高了信息保存度;在提示中加入外部词表,有助于大语言模型使用相对简单的词语;在提示中融入简化规则,能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限,但在语篇衔接与连贯和段落划分上与人类专家存在明显差距,且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集,多角度诱导语言大模型的文本简化能力。 展开更多
关键词 中文文本简化 大语言模型 语言特征分析
在线阅读 下载PDF
大模型生成回答与人类回答文本的语言特征比较研究 被引量:5
2
作者 朱君辉 王梦焰 +3 位作者 杨尔弘 聂锦燃 杨麟儿 王誉杰 《中文信息学报》 CSCD 北大核心 2024年第4期17-27,共11页
近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3293个问题的回答作为语料,对两种语... 近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。 展开更多
关键词 ChatGPT 人类语言 语言特征 机器学习
在线阅读 下载PDF
面向语言学习者的跨语言反馈评语生成方法
3
作者 安纪元 朱琳 杨尔弘 《中文信息学报》 北大核心 2025年第7期148-161,共14页
反馈评语生成是近年来自然语言处理研究的一个热点任务,旨在为语言学习者的作文提供纠偏及解释性的评价,以帮助学习者理解并内化语言规则,从而提高写作水平。现有研究主要聚焦于单一语言的反馈评语生成,忽略了非母语学习者可能面临的理... 反馈评语生成是近年来自然语言处理研究的一个热点任务,旨在为语言学习者的作文提供纠偏及解释性的评价,以帮助学习者理解并内化语言规则,从而提高写作水平。现有研究主要聚焦于单一语言的反馈评语生成,忽略了非母语学习者可能面临的理解障碍,以及评语中存在陌生语言知识等问题。该文提出了一种新的跨语言反馈评语生成(CLFCG)任务,其目的是为汉语母语者学习英语提供汉语的反馈评语。首先,通过构建首个英-汉跨语言反馈评语数据集,探索了大语言模型(如GPT-4)和预训练语言模型(如mBART、mT5)在该任务上的性能,并针对预训练语言模型,分析了修正编辑、线索词语和语法术语等附加信息对反馈评语生成效果的影响。其次,该文提出了一种基于大语言模型的评估方法,以更加准确地评估反馈评语生成效果。实验结果显示,基于微调的预训练语言模型能够更好地对齐人类教师的评语,但其生成的准确性略逊于采用少样本学习策略的GPT-4模型。最后,该文对实验结果进行了深入讨论和分析,以期为跨语言反馈评语生成任务提供更多思路和见解。 展开更多
关键词 智能辅助语言学习 反馈评语生成 跨语言文本生成 预训练语言模型 大语言模型
在线阅读 下载PDF
基于大语言模型自身的提示语公平性自动优化与评估
4
作者 朱述承 霍虹颖 +2 位作者 王伟康 刘颖 刘鹏远 《计算机科学》 北大核心 2025年第4期240-248,共9页
随着大语言模型的迅速发展,模型公平性日益受到关注,目前研究主要聚焦于生成文本及下游任务中的偏见。为了生成更加公平的文本,需要仔细设计和审查提示语的公平性。为此,采用了4个中文大语言模型作为优化器,自动迭代生成描述优势群体和... 随着大语言模型的迅速发展,模型公平性日益受到关注,目前研究主要聚焦于生成文本及下游任务中的偏见。为了生成更加公平的文本,需要仔细设计和审查提示语的公平性。为此,采用了4个中文大语言模型作为优化器,自动迭代生成描述优势群体和劣势群体的公平提示语。同时,研究模型温度、初始提示语类型及优化方向等变量对优化过程的影响,并评估思维链、角色扮演等提示语风格的公平性。结果显示,大语言模型能有效生成更无偏或有偏的提示语,优势群体的提示语在低温度下优化效果更佳。生成偏见提示语相对困难,模型采用反对抗策略应对。使用问句作为初始提示可产生更随机但更高质量的输出。不同模型表现出不同的优化策略,其中思维链和消偏风格的提示语生成的文本更为公平。提示语在模型公平性中至关重要,需进一步研究其公平性。 展开更多
关键词 大语言模型 提示语 公平性 自动评估 自优化
在线阅读 下载PDF
面向汉语作为第二语言学习的个性化语法纠错 被引量:4
5
作者 张生盛 庞桂娜 +4 位作者 杨麟儿 王辰成 杜永萍 杨尔弘 黄雅平 《中文信息学报》 CSCD 北大核心 2021年第12期28-35,共8页
语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习... 语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习者,提出个性化语法纠错,对不同特征的学习者所犯的错误分别进行纠正,并构建了不同领域汉语学习者的数据集进行实验。实验结果表明,将语法纠错模型适应到学习者的各个领域后,性能得到明显提升。 展开更多
关键词 语法纠错 个性化 汉语学习者 领域适应
在线阅读 下载PDF
中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估 被引量:2
6
作者 赵继舜 杜冰洁 +1 位作者 刘鹏远 朱述承 《中文信息学报》 CSCD 北大核心 2023年第9期15-22,共8页
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏... 在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。 展开更多
关键词 性别偏见 数据集 预训练语言模型
在线阅读 下载PDF
基于语料库的我国职业性别无意识偏见共时历时研究 被引量:4
7
作者 朱述承 苏祺 刘鹏远 《中文信息学报》 CSCD 北大核心 2021年第5期130-140,共11页
性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的... 性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。 展开更多
关键词 语料库 职业 性别 无意识偏见 标记理论
在线阅读 下载PDF
汉语增强依存句法自动转换研究 被引量:1
8
作者 余婧思 师佳璐 +2 位作者 杨麟儿 肖丹 杨尔弘 《中文信息学报》 CSCD 北大核心 2023年第10期26-33,共8页
在斯坦福基础依存句法规范的基础上,该文研制了汉语增强依存句法规范,主要贡献在于:介词和连词的增强、并列项的传播、句式转换和特殊句式的增强。此外,该文提供了基于Python的汉语增强依存句法转换的转换器,以及将句子从基础依存句法... 在斯坦福基础依存句法规范的基础上,该文研制了汉语增强依存句法规范,主要贡献在于:介词和连词的增强、并列项的传播、句式转换和特殊句式的增强。此外,该文提供了基于Python的汉语增强依存句法转换的转换器,以及将句子从基础依存句法树通过所提规范解析成依存图的Web演示。最后,该文探索了增强依存句法的实际应用,并以搭配抽取和信息抽取为例进行相关讨论。 展开更多
关键词 依存句法 汉语增强依存句法 自动转换
在线阅读 下载PDF
小样本关系分类研究综述 被引量:11
9
作者 胡晗 刘鹏远 《中文信息学报》 CSCD 北大核心 2022年第2期1-11,共11页
关系分类作为构建结构化知识的重要一环,在自然语言处理领域备受关注。但在很多应用领域中(如医疗、金融等领域)收集充足的用于训练关系分类模型的数据十分困难。近年来,仅需要少量训练样本的小样本学习逐渐应用于关系分类研究中。该文... 关系分类作为构建结构化知识的重要一环,在自然语言处理领域备受关注。但在很多应用领域中(如医疗、金融等领域)收集充足的用于训练关系分类模型的数据十分困难。近年来,仅需要少量训练样本的小样本学习逐渐应用于关系分类研究中。该文对近期小样本关系分类模型与方法进行了系统的综述。根据度量方法的不同,将现有方法分为原型式和分布式两大类。根据是否利用额外信息,将模型分为预训练和非预训练两大类。此外,除了常规设定下的小样本学习,该文还梳理了跨领域和稀缺资源场景下的小样本学习,探讨了目前小样本关系分类方法的局限性,并分析了跨领域小样本学习面临的技术挑战。最后,展望了小样本关系分类未来的发展方向。 展开更多
关键词 关系分类 小样本学习 元学习
在线阅读 下载PDF
多目标情感分类中文数据集构建及分析研究 被引量:3
10
作者 刘鹏远 田永胜 +1 位作者 杜成玉 邱立坤 《中文信息学报》 CSCD 北大核心 2021年第6期30-38,共9页
目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中... 目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题,该文构建了一个针对多目标情感分类的中文数据集,人工标注了6339个评价目标,共2071条数据。该数据集具备以下特点:①评价目标个数分布平衡;②情感正负极性分布平衡;③多目标情感倾向分布平衡。随后,该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明,现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类,尤其是目标的情感倾向为中性时。因此多目标情感分类任务具有一定的难度与挑战性。 展开更多
关键词 目标级情感分类 中文数据集 多目标
在线阅读 下载PDF
半监督跨领域语义依存分析技术研究 被引量:1
11
作者 毛达展 李华勇 邵艳秋 《中文信息学报》 CSCD 北大核心 2022年第2期22-28,共7页
近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降。因此为了使其走向实用,就必须解决领域适应问题。该文提出一... 近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降。因此为了使其走向实用,就必须解决领域适应问题。该文提出一个新的基于对抗学习的领域适应依存分析模型,该模型基于对抗学习的共享双编码器结构,并引入领域私有辅助任务和正交约束,同时也探究了多种预训练模型在跨领域依存分析任务上的效果和性能。 展开更多
关键词 语义依存分析 领域适应 对抗学习
在线阅读 下载PDF
句式结构树库的自动构建研究
12
作者 谢晨晖 胡正升 +2 位作者 杨麟儿 廖田昕 杨尔弘 《中文信息学报》 CSCD 北大核心 2023年第2期15-25,共11页
句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研... 句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研究的问题。人工标注句法树库费时费力,树库质量也难以保证,为此,该文尝试通过规则的方法,将宾州中文树库(CTB)转换为句式结构树库,从而扩大现有句式结构树库的规模。实验结果表明,该文提出的基于树库转换规则的方法是有效的。 展开更多
关键词 句式结构 短语结构 树库构建
在线阅读 下载PDF
CoreValue:面向价值观计算的中文核心价值-行为体系及知识库 被引量:1
13
作者 刘鹏远 张三乐 +1 位作者 于东 薄琳 《中文信息学报》 CSCD 北大核心 2024年第11期13-26,共14页
由主体行为推断其价值观是人工智能理解并具有人类价值观的前提之一。在自然语言处理相关领域,研究主要集中在对文本价值观或道德的是非判断上,鲜见由主体行为推断其价值观的工作,也缺乏相应的数据资源。该文首先构建了中文核心价值-行... 由主体行为推断其价值观是人工智能理解并具有人类价值观的前提之一。在自然语言处理相关领域,研究主要集中在对文本价值观或道德的是非判断上,鲜见由主体行为推断其价值观的工作,也缺乏相应的数据资源。该文首先构建了中文核心价值-行为体系。该体系以社会主义核心价值观为基础,分为两部分:①类别体系,共包含8大类核心价值,进一步细分为19小类双方向价值并对应38类行为;②要素体系,划分为核心要素与非核心要素共7种。随后,抽取语料中含有主体行为的文本句,依据该体系进行人工标注,构建了一个包含6994个行为句及其对应的细粒度价值与方向,34965个要素的细粒度中文价值-行为知识库。最后,该文提出了价值观类别判别、方向判别及联合判别任务并进行了实验。结果表明,基于预训练语言模型的方法在价值观方向判别上表现优异,在细粒度价值类别判别以及价值类别多标签判别上,有较大提升空间。 展开更多
关键词 价值观计算 人工智能伦理 价值-行为体系 价值-行为知识库
在线阅读 下载PDF
基于门控化上下文感知网络的词语释义生成方法 被引量:2
14
作者 张海同 孔存良 +3 位作者 杨麟儿 何姗 杜永萍 杨尔弘 《中文信息学报》 CSCD 北大核心 2020年第7期105-112,共8页
传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标... 传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标词生成词语释义。该模型基于编码器—解码器架构。编码器首先利用双向GRU对目标词的上下文进行编码,并采用不同的匹配策略进行目标词与上下文的交互,结合注意力机制分别从粗粒度和细粒度两个层次将上下文信息融合到目标词的向量表示中,最终获得目标词在特定语境中的编码向量。解码器则同时基于目标词的语境与语义信息为目标词生成上下文相关的词语释义。此外,通过向模型提供目标词字符级特征信息,进一步提高了生成释义的质量。在英文牛津词典数据集上进行的实验表明,该文提出的方法能够生成易于阅读和理解的词语释义,在释义建模的困惑度和生成释义的BLEU值上分别超出此前模型4.45和2.19,性能有显著提升。 展开更多
关键词 释义生成 GRU 编码器—解码器 注意力机制
在线阅读 下载PDF
汉语中介语的依存句法标注规范及标注实践 被引量:4
15
作者 肖丹 杨尔弘 +2 位作者 张明慧 陆天荧 杨麟儿 《中文信息学报》 CSCD 北大核心 2020年第11期19-28,36,共11页
汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步... 汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。 展开更多
关键词 汉语中介语 依存句法 标注规范
在线阅读 下载PDF
汉语学习者依存句法树库构建 被引量:2
16
作者 师佳璐 罗昕宇 +6 位作者 杨麟儿 肖丹 胡正升 王一君 袁佳欣 余婧思 杨尔弘 《中文信息学报》 CSCD 北大核心 2022年第1期39-46,共8页
汉语学习者依存句法树库为非母语者语料提供依存句法分析,对第二语言教学与研究,以及面向第二语言的句法分析、语法改错等相关研究有重要意义。然而,现有的汉语学习者依存句法树库数量较少,且在标注方面仍存在一些问题。为此,该文提出... 汉语学习者依存句法树库为非母语者语料提供依存句法分析,对第二语言教学与研究,以及面向第二语言的句法分析、语法改错等相关研究有重要意义。然而,现有的汉语学习者依存句法树库数量较少,且在标注方面仍存在一些问题。为此,该文提出一个依存句法标注规范,搭建在线标注平台,并开展汉语学习者依存句法标注。该文重点介绍了数据选取、标注流程等问题,并对标注结果进行质量分析,以探索二语偏误对标注质量与句法分析的影响。 展开更多
关键词 汉语学习者 依存句法树库 语料标注 偏误分析 依存句法分析
在线阅读 下载PDF
基于螺旋注意力网络的方面级别情感分析模型 被引量:16
17
作者 杜成玉 刘鹏远 《中文信息学报》 CSCD 北大核心 2020年第9期70-77,共8页
方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种... 方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种建立在BERT表示上的螺旋注意力网络(BHAN)来解决这一问题,模型中的螺旋注意力机制与之前注意力机制不同的是,基于方面词得到加权后的上下文表示后,用这个新的表示计算方面词的权重,然后用这个新的方面词的表示重新计算上下文的权重,如此循环往复,上下文和方面词的表示会得到螺旋式的提高。该文在2014年SemEval任务4和Twitter数据集上进行了模型评估,实验结果表明,其性能超过了之前最佳模型的结果。 展开更多
关键词 螺旋注意力 方面级别情感分析 文本表示
在线阅读 下载PDF
CDCPP:跨领域中文标点符号预测 被引量:2
18
作者 刘鹏远 王伟康 +1 位作者 邱立坤 杜冰洁 《中文信息学报》 CSCD 北大核心 2021年第6期131-140,共10页
在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社... 在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该文首次提出跨领域中文标点符号预测任务,该任务首先利用标点符号基本规范正确的大规模新闻领域文本,建立标点符号预测模型;然后在标点符号标注不规范的社交媒体及问答领域,进行跨领域标点符号预测。随后,构建了新闻、社交媒体及问答三个领域的相应数据集。最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析。实验结果表明,直接利用新闻领域训练的模型,在社交媒体及问答领域进行标点符号预测的性能均有所下降,在问答领域下降较小,在微博领域下降较大,超过20%,说明跨领域标点符号预测任务具有一定的挑战性。 展开更多
关键词 中文标点符号预测 跨领域 数据集
在线阅读 下载PDF
基于片段预测的词汇约束文本生成
19
作者 聂锦燃 杨麟儿 杨尔弘 《中文信息学报》 CSCD 北大核心 2023年第8期150-158,共9页
词汇约束文本生成是自然语言处理领域的重要研究任务之一,旨在给定一组有序词汇,生成包含这些词汇的流畅文本,在语言教学、文本生成、信息检索等领域有广泛应用。现有的生成方法存在生成速度慢、无法包含所有约束词等问题,难以满足实际... 词汇约束文本生成是自然语言处理领域的重要研究任务之一,旨在给定一组有序词汇,生成包含这些词汇的流畅文本,在语言教学、文本生成、信息检索等领域有广泛应用。现有的生成方法存在生成速度慢、无法包含所有约束词等问题,难以满足实际应用需求。该文提出一种基于片段预测的端到端词汇受限文本生成方法,将词汇约束文本生成视为对约束词之间的文本片段的预测,利用基于二维位置编码的预训练语言模型预测所有片段,再将其填充回约束词的对应位置,从而保证了生成速度和词汇约束;利用词性标注方式构造多参考数据进行数据增强,进一步提升了文本生成质量。为验证方法的有效性,该文在公开的英文数据集,以及基于国际中文教材构建的中文数据集上进行了实验,结果表明,该文提出的LCTG-SP方法可以满足所有词汇约束、具有较快生成速度,生成文本的流利度和多样性表现更好。本文中的模型代码和数据开源在GitHub上①。 展开更多
关键词 词汇约束 片段预测 文本生成 数据增强
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部