期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于提示微调的汉语词汇简化研究 被引量:1
1
作者 肖子豪 程苗苗 +3 位作者 巩捷甫 韩旭 王士进 宋巍 《中文信息学报》 CSCD 北大核心 2024年第8期34-43,共10页
词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BAR... 词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。 展开更多
关键词 词汇简化 提示学习 提示微调 文本简化 小样本学习
在线阅读 下载PDF
“语言智能”多人谈 被引量:5
2
作者 宋柔 李斌 +5 位作者 王宝鑫 杨子清 伍大勇 李辰 荀恩东 苏祺 《语言战略研究》 CSSCI 北大核心 2023年第4期53-56,共4页
语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力... 语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力;规模过于庞大,消耗太多的算力;不具备人脑的深度抽象能力和由之而来的创新能力。随着大模型的数据量和参数量不断扩充,这些缺陷会有所改善,但大模型的系统架构决定了不可能完全消除这些不足。 展开更多
关键词 语言智能 语言模型 系统架构 事实性 抽象能力 逻辑谬误 参数量 创新能力
在线阅读 下载PDF
一种面向初高中英语单选题的类人答题系统 被引量:1
3
作者 陈志刚 刘青文 +2 位作者 林伟 汪洋 陈小平 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第3期231-237,共7页
初高中英语考试中单选题的机器类人答题问题(sentence completion problem),其目标是从一个词或短语集合中选择最佳答案填入目标句子的适当位置使其成为一个合理通顺的句子.尽管针对该问题学术界已经提出了许多解决方案,但是都停留在语... 初高中英语考试中单选题的机器类人答题问题(sentence completion problem),其目标是从一个词或短语集合中选择最佳答案填入目标句子的适当位置使其成为一个合理通顺的句子.尽管针对该问题学术界已经提出了许多解决方案,但是都停留在语言模型和隐语义分析的算法框架下.为此以语言模型和隐语义分析两种方法为基线,分别从固定搭配抽取、动词时态分析两个方面抽取试题的词法、语法和语义特征,以初高中英语题库中的部分试题为训练集,构建了一个基于学习排序模型的类人答题系统.该系统的在初中和高中的单选题测试集上分别达到78%和76%的准确率,与基于语言模型和隐语义分析的基线模型相比均提高了4个百分点. 展开更多
关键词 类人答题 句子完形 语言模型 信息抽取 时态分析
在线阅读 下载PDF
基于时域波形的半监督端到端虚假语音检测方法 被引量:3
4
作者 方昕 黄泽鑫 +6 位作者 张聿晗 高天 潘嘉 付中华 高建清 刘俊华 邹亮 《计算机应用》 CSCD 北大核心 2023年第1期227-231,共5页
现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(D... 现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。 展开更多
关键词 虚假语音检测 语音合成 音色转换 说话人识别 时域 半监督学习
在线阅读 下载PDF
面向作文自动评分的优美句识别 被引量:22
5
作者 付瑞吉 王栋 +2 位作者 王士进 胡国平 刘挺 《中文信息学报》 CSCD 北大核心 2018年第6期88-97,共10页
语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(C... 语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行优美句识别,并和CNN、BiLSTM网络进行了对比。实验证明,混合神经网络的准确率最高,达到89.23%,F1值与BiLSTM相当,达到75.39%。此外,该文将优美句子特征用于作文自动评分任务,可使计算机评分和人工评分的大分差比例下降21.41%。 展开更多
关键词 优美句识别 深度神经网络 作文自动评分
在线阅读 下载PDF
利用深层语言分析改进中文作文自动评分方法 被引量:3
6
作者 魏思 巩捷甫 +2 位作者 王士进 宋巍 宋子尧 《中文信息学报》 CSCD 北大核心 2022年第4期111-123,共13页
利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自... 利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自动修辞分析、优秀表达识别等手段反映语言表达能力,以及通过细粒度篇章质量分析评估篇章整体质量,来构建有效特征。该文同时提出了结合语言分析特征与深度神经网络编码的自适应混合评分模型。在真实语文作文数据上的实验表明,融入深层语言分析特征可有效提高作文评分效果;年级与主题自适应的模型训练策略,可提高模型的迁移能力和预测效果。消融实验进一步分析和解释了不同类型特征对评分效果的贡献。 展开更多
关键词 语文作文自动评分 深层语言分析 自适应混合评分模型
在线阅读 下载PDF
基于要点匹配的文科主观题通用评分 被引量:3
7
作者 王士进 巩捷甫 +3 位作者 汪意发 宋巍 陈志刚 魏思 《中文信息学报》 CSCD 北大核心 2023年第6期165-178,共14页
主观题自动评分是智慧教育创新中的重要环节,逐步成为人工智能与教育行业领域交叉的热门方向之一。该文面向文科要点主观题,提出基于多任务学习的要点匹配评价模型:评估学生作答与标准答案各个要点之间的匹配等级,并抽取其中与要点相对... 主观题自动评分是智慧教育创新中的重要环节,逐步成为人工智能与教育行业领域交叉的热门方向之一。该文面向文科要点主观题,提出基于多任务学习的要点匹配评价模型:评估学生作答与标准答案各个要点之间的匹配等级,并抽取其中与要点相对应的具体片段,通过这两个任务的结果同时刻画学生对每个要点的掌握程度,并作为自动评分的关键特征;将要点匹配评价结果与文本相似度特征相结合,实现主观题作答自动评分,在无定标数据的通用评分场景下大幅提升了效果。对比实验证明了相比传统特征,基于要点匹配评价结果的特征在评分模型中更加重要。 展开更多
关键词 文科主观题 作答要点匹配评价 多任务训练 通用评分
在线阅读 下载PDF
基于时域建模的自动语音识别 被引量:6
8
作者 王海坤 伍大勇 +3 位作者 刘江 王士进 胡国平 胡郁 《计算机工程与应用》 CSCD 北大核心 2017年第20期243-248,共6页
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式... 端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。 展开更多
关键词 卷积神经网络 递归神经网络 声学模型 端到端模型
在线阅读 下载PDF
基于韵律特征辅助的端到端语音识别方法 被引量:4
9
作者 刘聪 万根顺 +1 位作者 高建清 付中华 《计算机应用》 CSCD 北大核心 2023年第2期380-384,共5页
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型... 针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1000 h及10000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。 展开更多
关键词 语音识别 端到端 语义歧义 注意力机制 韵律特征
在线阅读 下载PDF
学生议论文中的比喻论证作用分析
10
作者 武阗阗 宋子尧 +4 位作者 韩旭 程苗苗 巩捷甫 王士进 宋巍 《中文信息学报》 CSCD 北大核心 2023年第10期158-166,共9页
在议论文中,比喻不仅是一种修辞技巧,也是一种重要的论证方式。该文提出结合比喻识别和论辩挖掘技术自动分析议论文中的比喻及其论证作用。该文构建了一个数据集,标注了约1200篇学生议论文中的比喻句、论辩角色及论辩质量等级,分析了比... 在议论文中,比喻不仅是一种修辞技巧,也是一种重要的论证方式。该文提出结合比喻识别和论辩挖掘技术自动分析议论文中的比喻及其论证作用。该文构建了一个数据集,标注了约1200篇学生议论文中的比喻句、论辩角色及论辩质量等级,分析了比喻与论点、论据、阐释和其他论辩角色的作用方式以及比喻运用与篇章质量的关系。该文发现作为常见的修辞手段,比喻句的数量与论辩质量的相关性较弱,但比喻句作为论点时与论辩质量的相关性要强于作为其他论辩角色。此外,该文进一步标注了比喻论点类型以描述比喻的论证作用,包括事实、价值和策略,发现比喻论点的作用主要是传递价值与提出策略。通过比较两类比喻论点类型识别方法,发现基于精调预训练语言模型的方法优于基于提示学习的方法。最后,该文构建了一个集成比喻识别、论辩角色识别与论点类型分类的流水线系统,实验结果显示,该任务具有一定的实用性和挑战性。该研究对于作文自动评分与风格化的论点生成具有很好的应用前景和潜力。 展开更多
关键词 比喻论证 论辩挖掘 大语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部