期刊文献+
共找到305篇文章
< 1 2 16 >
每页显示 20 50 100
双字词识别中首、尾词素位置概率对位置编码灵活程度的影响
1
作者 李馨 张美 +2 位作者 顾俊娟 王永胜 梁菲菲 《心理学报》 北大核心 2025年第8期1309-1322,共14页
本研究通过两个平行实验,探讨首、尾词素位置概率如何影响双字词识别中位置编码的灵活程度及其时间进程。采用掩蔽启动词汇判断任务,操纵启动条件(原词启动、转换启动、替换启动)和启动时间(80 ms、150 ms、300 ms)。实验1操纵首词素位... 本研究通过两个平行实验,探讨首、尾词素位置概率如何影响双字词识别中位置编码的灵活程度及其时间进程。采用掩蔽启动词汇判断任务,操纵启动条件(原词启动、转换启动、替换启动)和启动时间(80 ms、150 ms、300 ms)。实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同。以144名大学生为研究对象,结果发现:(1)词汇位置编码的灵活性体现在词汇识别全程。(2)首、尾词素位置概率均作用于词汇识别,但尾词素位置概率的作用时程更长。(3)首词素而不是尾词素的位置概率调节词汇位置编码的灵活程度,当启动时间为150 ms,首词素经常用在词首时词汇的位置编码更灵活。由此推断,首词素的位置概率可能与词汇识别的位置编码灵活程度相关;尾词素的位置概率则与位置编码的灵活程度无关。 展开更多
关键词 词素转置效应 词素位置概率 词汇位置编码 双字词识别
在线阅读 下载PDF
顶中区N200是中文单字字形识别的神经标识
2
作者 胡伟 张豹 +4 位作者 贾小飞 陈辉贤 袁杰 方卓 张学新 《心理学报》 北大核心 2025年第7期1127-1138,I0001-I0003,共15页
中文视觉词汇加工近年来的一个重要发现是,中文双字词识别诱发了一个反映词形加工的顶中区N200脑电成分,该成分呈现了较为少见的重复增强效应。双字词的词形加工是一个复杂过程,不仅包含对两个单字字形信息的加工,还有两个单字间的相对... 中文视觉词汇加工近年来的一个重要发现是,中文双字词识别诱发了一个反映词形加工的顶中区N200脑电成分,该成分呈现了较为少见的重复增强效应。双字词的词形加工是一个复杂过程,不仅包含对两个单字字形信息的加工,还有两个单字间的相对位置关系信息。要进一步理解N200对应的字形加工过程,需要回应一个关键问题,N200是否与单字的字形加工有关。本文以3个实验系统研究了在双字词N200这一时间段内单字诱发的脑电反应,发现与双字词一样,单字在刺激呈现后200 ms也诱发了清晰的顶中区N200反应,且该效应在重复启动时出现增强效应。N200的幅度在双字条件下高于单字,在真字条件下高于假字、非字,说明该成分反映了从部件到单字,从单字到双字的整合加工,是中文单字字形识别的神经标识,为揭示中文词汇识别的时间进程提供了一个关键线索。 展开更多
关键词 顶中区N200 中文 单字 字形加工 词汇识别
在线阅读 下载PDF
WORD与“字”的形态结构对比研究 被引量:7
3
作者 张维友 《湖北大学学报(哲学社会科学版)》 北大核心 2007年第5期83-89,共7页
WORD和字分别是英汉两种语言中的自然单位。汉语中的字等于或小于词,是汉语的构词单位,相当于英语中的词素。在形态结构上,汉语中的字和英语中的词大都可以分析成更小的音义单位。而分出的这些单位都相当于英语中的Morpheme。Morpheme... WORD和字分别是英汉两种语言中的自然单位。汉语中的字等于或小于词,是汉语的构词单位,相当于英语中的词素。在形态结构上,汉语中的字和英语中的词大都可以分析成更小的音义单位。而分出的这些单位都相当于英语中的Morpheme。Morpheme可译成词素或字素,相当于汉语的偏旁部首。英语中的构词和汉语中的构字部件都不变,但洐生能力极强,掌握这些基本的构件,对于提高语言学习的效力是很有意义的。 展开更多
关键词 word 词素 部件 对比研究
在线阅读 下载PDF
基于字词融合和注意力机制的兽药文本命名实体识别
4
作者 颜士军 朱红梅 +1 位作者 王雅童 张亮 《中国农机化学报》 北大核心 2025年第3期336-342,352,共8页
针对兽药领域信息专业性强、关联性强、局部特征明显和一词多义的特点,以及主流的命名实体识别模型未充分利用词汇信息的问题,提出一种基于字词融合和注意力机制的兽药文本命名实体识别模型。首先,将BERT预训练模型得到的字向量和Word2... 针对兽药领域信息专业性强、关联性强、局部特征明显和一词多义的特点,以及主流的命名实体识别模型未充分利用词汇信息的问题,提出一种基于字词融合和注意力机制的兽药文本命名实体识别模型。首先,将BERT预训练模型得到的字向量和Word2vec得到的词向量融合。然后,在双向长短期记忆网络中提取全局上下文特征的基础上加入多头自注意力机制挖掘序列的局部特征。最后,通过条件随机场获得最佳标签序列来完成实体识别任务。在兽药文本数据集上进行多组对比试验,结果表明,该模型识别的准确率、召回率和F 1值分别为94.73%、95.29%和95.01%,性能均优于对比模型。 展开更多
关键词 兽药文本 命名实体识别 字词融合 多头自注意力机制
在线阅读 下载PDF
利用双向SOFM网络模拟汉字认知过程的研究
5
作者 艾轶博 穆志纯 陈静 《计算机应用》 CSCD 北大核心 2006年第12期2971-2973,2976,共4页
在汉字的认知过程中有“字优效应”和“字劣效应”,前者认为在汉字认知过程中整字信息优于部件或笔画信息,后者反之。以自组织特征映射算法为理论基础,提出了一种双向自组织特征映射(SOFM)网络,利用自组织网络实现根据汉字和部件多维表... 在汉字的认知过程中有“字优效应”和“字劣效应”,前者认为在汉字认知过程中整字信息优于部件或笔画信息,后者反之。以自组织特征映射算法为理论基础,提出了一种双向自组织特征映射(SOFM)网络,利用自组织网络实现根据汉字和部件多维表征的聚类,并建立两层网络之间的连接关系,通过双向测试,得到不同构型汉字所具有的字优效应和字劣效应,从新的角度实现了SOFM的应用。研究结果对于汉字教学方法有一定的参考价值。 展开更多
关键词 自组织特征映射 汉字认知 聚类 字优效应 字劣效应
在线阅读 下载PDF
现代汉语异形词规范化研究六十年
6
作者 王迎春 《汉语学习》 北大核心 2025年第3期64-73,共10页
文章以1962年殷焕先提出“词语书面形式分歧现象”为起点,以2002年《第一批异形词整理表》开始试行为时间节点,将现代汉语异形词规范化研究分为两个阶段,分别对这两个阶段的研究进行述评。在此基础上,归纳出了异形词规范化研究的“三个... 文章以1962年殷焕先提出“词语书面形式分歧现象”为起点,以2002年《第一批异形词整理表》开始试行为时间节点,将现代汉语异形词规范化研究分为两个阶段,分别对这两个阶段的研究进行述评。在此基础上,归纳出了异形词规范化研究的“三个转向”:从“摆事实”转向“讲道理”,从以微观研究为主转向微观研究与宏观研究并重,从对异形词的整理转向对异形词的规范。 展开更多
关键词 异形词 规范化 语文辞书 微观研究 宏观研究
在线阅读 下载PDF
一种基于内容特征的Word文件雕复方法 被引量:3
7
作者 陈默 郑宁 +2 位作者 徐明 楼永坚 汪霞 《计算机应用与软件》 CSCD 2010年第1期100-102,126,共4页
提出一种不依赖于文件系统元信息,而凭借于文件数据内容及其内部结构特征的Word文件雕复方法,其基本原理是利用文件头/根存储/最大扇区、分片文件的扇区分配表和分片文件的数据流等验证方法。此雕复方法能自动雕复在原始磁盘镜像中连续... 提出一种不依赖于文件系统元信息,而凭借于文件数据内容及其内部结构特征的Word文件雕复方法,其基本原理是利用文件头/根存储/最大扇区、分片文件的扇区分配表和分片文件的数据流等验证方法。此雕复方法能自动雕复在原始磁盘镜像中连续和分片有序存储的Word文件。实验结果表明该方法可以在Word文件自动雕复的高准确率情况下,确保低"误报"率。 展开更多
关键词 文件雕复 内容特征 word文件
在线阅读 下载PDF
阅读伴随词汇学习的词切分:首、尾词素位置概率的不同作用 被引量:5
8
作者 梁菲菲 冯琳琳 +2 位作者 刘瑛 李馨 白学军 《心理学报》 CSSCI CSCD 北大核心 2024年第3期281-294,共14页
本研究通过两个平行实验,探讨重复学习新词时首、尾词素位置概率信息作用于词切分的变化模式。采用阅读伴随词汇学习范式,将双字假词作为新词,实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同... 本研究通过两个平行实验,探讨重复学习新词时首、尾词素位置概率信息作用于词切分的变化模式。采用阅读伴随词汇学习范式,将双字假词作为新词,实验1操纵首词素位置概率高低,保证尾词素相同;实验2操纵尾词素位置概率高低,保证首词素相同。采用眼动仪记录大学生阅读时的眼动轨迹。结果显示:(1)首、尾词素位置概率信息的词切分作用随新词在阅读中学习次数的增加而逐步变小,表现出“熟悉性效应”。(2)首词素位置概率信息的“熟悉性效应”表现在回视路径时间、总注视次数两个相对晚期的眼动指标,而尾词素位置概率信息的“熟悉性效应”则从凝视时间开始,到回视路径时间,再持续到总注视时间。结果表明首、尾词素的位置概率信息均作用于阅读伴随词汇学习的词切分,但首词素的作用时程更长,更稳定,支持了首词素在双字词加工中具有优势的观点。 展开更多
关键词 词素位置概率 词切分 阅读伴随词汇学习 中文阅读
在线阅读 下载PDF
基于多头注意力机制字词联合的中文命名实体识别 被引量:2
9
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
在线阅读 下载PDF
文本相似度计算方法综述 被引量:10
10
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
在线阅读 下载PDF
基于字词向量融合的民航智慧监管短文本分类 被引量:2
11
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
在线阅读 下载PDF
基于深度字词融合的小麦种质信息实体关系联合抽取
12
作者 刘合兵 贾笑笑 +3 位作者 时雷 熊蜀峰 马新明 席磊 《计算机工程与设计》 北大核心 2024年第4期1079-1086,共8页
为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based ... 为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。 展开更多
关键词 小麦种质信息 字词融合 实体关系抽取 联合抽取 层叠指针网络 实体识别 关系抽取
在线阅读 下载PDF
汉字词进入朝鲜语的适应性
13
作者 金海月 《云南师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2024年第3期36-44,共9页
朝鲜语在与汉语的长期接触中吸收了大量借词,形成了今日的汉字词。朝鲜语中,汉字词的使用十分常见,尤其是在一些专业领域。汉字词在朝鲜语中的适应性很强。汉字词之所以能够适应朝鲜语语言环境实现本语化,与其生存发展的生态环境及自身... 朝鲜语在与汉语的长期接触中吸收了大量借词,形成了今日的汉字词。朝鲜语中,汉字词的使用十分常见,尤其是在一些专业领域。汉字词在朝鲜语中的适应性很强。汉字词之所以能够适应朝鲜语语言环境实现本语化,与其生存发展的生态环境及自身特性有密切关联。在朝鲜语的发展过程中,汉字词的使用有两次大爆发,第一次是约7~15世纪统一新罗时期至朝鲜王朝前期,第二次是1876~1910年开化时期,这两个时期为汉字词的快速发展提供了良好的生存土壤。汉字词的特性有四:一是表达精细、容易理解;二是构词能力强、能产性高;三是竞争力强;四是影响力大,甚至可以影响到语法体系。 展开更多
关键词 朝鲜语 汉字词 适应性 语言接触 生态环境
在线阅读 下载PDF
基于词汇增强和对抗训练的中文命名实体识别
14
作者 杨竣辉 刘保冰 《计算机工程与设计》 北大核心 2024年第12期3712-3718,共7页
针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的... 针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的字符级嵌入向量和词汇向量进行字词融合;使用字词融合的嵌入向量通过MOA方式生成对抗样本;使用BiGRU和CRF分别获取语义编码信息并进行解码得到预测结果。实验结果表明,该方法在中文命名实体识别数据集Resume和中药说明书上的F1值分别达到97.14%和73.65%,验证了该模型的有效性。 展开更多
关键词 中文命名实体识别 词汇增强 预训练模型 字词融合 对抗训练 双向门控循环单元 条件随机场
在线阅读 下载PDF
基于标目数据的《春秋》三传人物信息组织与处理流程 被引量:2
15
作者 徐健 何琳 +2 位作者 刘浏 王东波 黄水清 《图书馆论坛》 CSSCI 北大核心 2024年第9期103-110,共8页
手工时代编纂的《春秋经传引得》具有较高的质量,将其中标目数据应用于典籍人物组织有助于继续发挥其在数字化时代的价值。文章利用数字化《春秋经传引得》中标目数据对《左传》《公羊传》《谷梁传》中人名称谓进行消歧,按照说明语对相... 手工时代编纂的《春秋经传引得》具有较高的质量,将其中标目数据应用于典籍人物组织有助于继续发挥其在数字化时代的价值。文章利用数字化《春秋经传引得》中标目数据对《左传》《公羊传》《谷梁传》中人名称谓进行消歧,按照说明语对相关标目进行聚合,赋予人物唯一标识符以实现人物信息的规范控制;对多标目人物进行校验,建构起一套可追溯、可复用、动态维护的典籍人物信息组织方案。文章共完成3本典籍中3,270条人物信息的组织,提出的“典籍-标目-人物”信息组织架构有助于实现典籍知识的组织与挖掘。 展开更多
关键词 《春秋》三传 人物 标目 知识库
在线阅读 下载PDF
双字词的形态结构对汉字位置信息编码的影响 被引量:3
16
作者 苏省之 李骁轩 +2 位作者 李蓉蓉 赵长泽 崔磊 《心理学报》 CSSCI CSCD 北大核心 2024年第4期383-393,共11页
字母转置效应是指颠倒单词的字母位置后,读者仍可识别目标词的现象,表明字母位置信息编码具有一定的灵活性。近年来,研究者通过对比不同形态结构词语的字母转置效应,探讨词语的认知加工方式。本研究采用眼动追踪技术,结合边界范式考察... 字母转置效应是指颠倒单词的字母位置后,读者仍可识别目标词的现象,表明字母位置信息编码具有一定的灵活性。近年来,研究者通过对比不同形态结构词语的字母转置效应,探讨词语的认知加工方式。本研究采用眼动追踪技术,结合边界范式考察了不同形态结构双字词的汉字位置信息编码。研究结果显示,偏正复合词的汉字转置效应小于并列复合词和单语素词,而并列复合词和单语素词之间没有显著差异。结果表明,与偏正复合词相比,单语素词和并列复合词的汉字位置信息编码更为灵活,表明词语的形态结构会对汉字位置信息编码产生不同的影响,支持了形态复杂词的双通路加工理论。 展开更多
关键词 复合词 汉字转置效应 位置信息编码 形态结构
在线阅读 下载PDF
基于BERT模型的网站敏感信息识别及其变体还原技术研究 被引量:1
17
作者 符泽凡 姚竟发 滕桂法 《现代电子技术》 北大核心 2024年第23期105-112,共8页
针对各类网站为了避免被检测到敏感信息,网站内的文字常采用变体词对敏感词词库进行规避。为解决这一问题,文中提出一种基于BERT模型结合变体字还原算法的网站敏感信息识别的方法。该方法将针对文本中的变体词进行还原,通过采用BERT模... 针对各类网站为了避免被检测到敏感信息,网站内的文字常采用变体词对敏感词词库进行规避。为解决这一问题,文中提出一种基于BERT模型结合变体字还原算法的网站敏感信息识别的方法。该方法将针对文本中的变体词进行还原,通过采用BERT模型对文本内容进行向量化,并将其输入由Bi LSTM层和CNN层构成的模型进行训练,从而实现对网站内敏感信息及其变体词的识别。实验结果显示,变体词还原的正确率较高,通过BERT模型获取的文本向量在文本分类任务中表现出色。与其他模型相比,BERT-Bi LSTM-CNN模型在网站敏感信息识别任务中表现出更高的准确率、召回率和F1值,呈现明显的提升。文中模型为变体词还原问题和敏感信息识别领域提供了参考和支持,具有一定的实际应用价值。 展开更多
关键词 网站 敏感信息 变体词 BERT 双向长短期记忆网络 卷积神经
在线阅读 下载PDF
“人心惟危,道心惟微”的治道内涵——对朱熹解读的重新思考 被引量:1
18
作者 乐爱国 《中州学刊》 CSSCI 北大核心 2024年第11期111-117,共7页
古文《尚书·大禹谟》讲“人心惟危,道心惟微,惟精惟一,允执厥中”,接着又讲民之可畏、君民相须,讲“四海困穷,天禄永终”,要求重视百姓疾苦,实际上是就治道而言。历代儒家既有从治道层面予以解读,将“人心”解为“民心”的,也有从... 古文《尚书·大禹谟》讲“人心惟危,道心惟微,惟精惟一,允执厥中”,接着又讲民之可畏、君民相须,讲“四海困穷,天禄永终”,要求重视百姓疾苦,实际上是就治道而言。历代儒家既有从治道层面予以解读,将“人心”解为“民心”的,也有从道德心性层面加以发挥,讲“天理”“人欲”的。朱熹早年把“惟精惟一”与儒家“南面亦恭己”的无为而治联系起来,后来又从治道层面强调君王应当敬守“虞廷十六字”,并且要求“谨守其所居之位,修其所愿欲之事”,尤其要体恤百姓,解救百姓之困穷。因此,朱熹后学把“虞廷十六字”当作为人之“心法”,而忽视其为君王治天下之法的治道内涵,并为今人所发挥,这样的理解似有偏颇。 展开更多
关键词 朱熹 虞廷十六字 治道 心性
在线阅读 下载PDF
中文重叠关系抽取的动态分层级联标记模型 被引量:1
19
作者 张利 张欢欢 袁玉波 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期450-458,共9页
构建了动态分层级联标记中文重叠关系抽取(RWG-LSA)模型:首先基于预训练语言模型和gated机制构建了动态字词融合特征学习模型(RWG),有效避免了主体标记模块的特征缺失和无法并行计算等问题;其次引入动态权局部自注意力(LSA),自主学习到... 构建了动态分层级联标记中文重叠关系抽取(RWG-LSA)模型:首先基于预训练语言模型和gated机制构建了动态字词融合特征学习模型(RWG),有效避免了主体标记模块的特征缺失和无法并行计算等问题;其次引入动态权局部自注意力(LSA),自主学习到主体层面的语义特征;最后在有效融合了输入序列的全局和主体局部特征的基础上,实现RWG-LSA模型对文本中实体对和关系的抽取。在SKE中文数据集上的实验表明,本模型对重叠关系抽取有显著效果,F1值达到了82.44%。 展开更多
关键词 文本挖掘 中文重叠关系抽取 动态字词融合 预训练语言模型 gated机制 局部自注意力机制
在线阅读 下载PDF
混合特征及多头注意力的中文短文本分类
20
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部