期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于大语言模型的成语隐喻式构词方法及其应用:知识重组、回溯与发现
1
作者 张卫 王东波 刘浏 《情报学报》 北大核心 2025年第9期1083-1098,共16页
数智时代下,生成式人工智能(generative artificial intelligence,GenAI)为传统人文知识组织、挖掘与生产赋予了新动能。利用人工智能生成内容(artificial intelligence generated content,AIGC)范式将古人对典籍文献进行的成语摘引、... 数智时代下,生成式人工智能(generative artificial intelligence,GenAI)为传统人文知识组织、挖掘与生产赋予了新动能。利用人工智能生成内容(artificial intelligence generated content,AIGC)范式将古人对典籍文献进行的成语摘引、沿用、固化等信息行为重塑为智能化构词模式,对于现有人文知识体系的结构重组、历史回溯、概念发现具有重要意义。本文从文化基因理论与构词法视角提出一套基于大语言模型的成语隐喻式构词方法。首先,面向成语出处定义<短语结构,物象标签(源域),情感标签(目标域)>的隐喻式构词知识体系,利用“出处-构词体系”对照语料构造问答数据集;其次,引入生成式大模型进行短语抽取、隐喻识别的成语构词多任务学习,并重点探索依存句法知识注入下构词大模型指令微调的增强效果。研究发现,训练后的大模型能够面向成语出处文本实现隐喻式构词结构的有效生成,“荀子”模型在多个任务的各项指标上均优于qwen7b、llama3_8b、GPT-4o等通用大模型;依存句法知识能够有效激发大模型理解能力,使得词汇结构、物象标签、情感标签识别准确率分别进一步提升至86.11%、87.82%、85.39%。以《全唐诗》为例展开大模型数字人文应用可知,诗句内的成语识别可实现“成语—诗歌—诗人”链式知识重组,大模型生成结果的时间序列分析实现了130个成语出处的知识回溯(最多向前回溯1000余年),并在成语隐喻文化基因继承下完成了大规模新短语的知识发现,编纂出具有文化产业实践价值的意象主题词表。 展开更多
关键词 数字人文 大语言模型 成语隐喻 构词法 短语抽取
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的工业控制协议逆向工程
2
作者 连莲 李素敏 +1 位作者 宗学军 何戡 《沈阳工业大学学报》 北大核心 2025年第5期609-616,共8页
【目的】工业控制协议解析是工业互联网安全中的关键环节,但传统方法存在普适性差和准确率低的问题,导致协议解析效率低下,难以满足实际工业场景中对高精度和高适应性解析的需求。【方法】提出一种基于深度学习模型的工业控制协议逆向... 【目的】工业控制协议解析是工业互联网安全中的关键环节,但传统方法存在普适性差和准确率低的问题,导致协议解析效率低下,难以满足实际工业场景中对高精度和高适应性解析的需求。【方法】提出一种基于深度学习模型的工业控制协议逆向解析方法,通过结合BERT预训练模型、双向长短期记忆网络(BiLSTM)和条件随机场(CRF),提升协议解析的普适性和准确率,为工业控制系统的安全分析和漏洞挖掘提供技术支持。首先,利用BERT预训练模型对工业控制协议数据进行动态词向量编码,将协议数据转化为高维向量,以捕捉协议数据的语义信息。BERT预训练模型通过其强大的上下文理解能力,能够有效处理复杂且多样的协议数据。其次,采用双向长短期记忆网络对协议数据之间的关系以及协议数据与标签数据之间的关联性进行建模。双向长短期记忆网络能够捕获协议数据中的长距离依赖关系,从而更好地理解协议的结构和语义。最后,引入条件随机场作为约束条件,对工业控制协议的格式和语义进行最优预测。条件随机场通过引入标签之间的转移概率,进一步提高了预测的准确性和一致性。通过BERT预训练模型、双向长短期记忆网络和条件随机场的结合,实现了对工业控制协议的格式提取和语义分析。此外,本文方法还针对大规模协议数据进行了优化,确保其在处理复杂工业场景时的高效性和稳定性。【结果】针对三种典型工业控制协议展开实验,结果表明本文方法在格式提取和语义分析上的精度均超过96%,较传统方法有所提升,在不同协议上均表现出高适应性和准确性,能够有效识别字段边界与语义信息。【结论】本文方法显著提升了工业控制协议解析的普适性和准确率,为工业控制系统的安全分析提供了可靠的技术支持。未来将进一步优化模型,拓展应用场景,提升方法的实用性。 展开更多
关键词 工业控制协议 协议逆向工程 BERT预训练模型 双向长短期记忆网络 条件随机场 词向量 格式提取 语义分析
在线阅读 下载PDF
基于判别式分类和重排序技术的藏文分词 被引量:9
3
作者 孙萌 华却才让 +3 位作者 才智杰 姜文斌 吕雅娟 刘群 《中文信息学报》 CSCD 北大核心 2014年第2期61-65,90,共6页
本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构... 本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%。 展开更多
关键词 判别式 藏文分词 构词粒度 重排序
在线阅读 下载PDF
融合规则与统计的微博新词发现方法 被引量:16
4
作者 周霜霜 徐金安 +1 位作者 陈钰枫 张玉洁 《计算机应用》 CSCD 北大核心 2017年第4期1044-1050,共7页
结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博... 结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博新词抽取方法。一方面,人工启发式规则是指对微博新词的分类和归纳总结,并从微博新词构词的词性(POS)、字符类别和表意符号等角度设计的微博新词的构词规则;另一方面,改进的C/NC-value方法通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函数,并使用CRF模型训练和识别新词,最终达到提高新词边界识别准确率和低频新词识别精度的目的。实验结果显示,与传统方法相比,所提出的方法能有效地提高微博新词识别的F值。 展开更多
关键词 微博新词 构词规则 统计量特征 C/NC-value方法 条件随机场模型
在线阅读 下载PDF
滦平盆地西瓜园组(上侏罗统—下白垩统)暗色泥岩中恐龙脚印化石及其地质意义 被引量:8
5
作者 纪友亮 孙玉花 贾爱林 《古地理学报》 CAS CSCD 2008年第4期379-384,共6页
通过对滦平盆地西瓜园组(上侏罗统—下白垩统)暗色泥岩和油页岩的岩相特征及其中所发现的各种恐龙脚印化石的研究,分析了恐龙脚印化石形成的环境。认为在前扇三角洲或深湖—半深湖环境的暗色泥岩中出现恐龙脚印化石,说明湖平面变化频繁... 通过对滦平盆地西瓜园组(上侏罗统—下白垩统)暗色泥岩和油页岩的岩相特征及其中所发现的各种恐龙脚印化石的研究,分析了恐龙脚印化石形成的环境。认为在前扇三角洲或深湖—半深湖环境的暗色泥岩中出现恐龙脚印化石,说明湖平面变化频繁,在枯水期,湖平面下降,前扇三角洲或深湖—半深湖相暗色泥岩暴露出水面,一些恐龙经过此处到低洼处喝水,留下脚印。由此推断中国东部古近纪陆相断陷湖盆中的暗色泥岩所夹的砂砾岩和盐岩并不全是深水重力流成因,暗色泥岩所夹的盐岩也不一定是深水成因;并建立了暗色泥岩中所夹的砂砾岩和盐岩的成因沉积模式。 展开更多
关键词 滦平盆地 西瓜园组 恐龙脚印化石 暗色泥岩 湖平面变化 沉积模式 低位三角洲
在线阅读 下载PDF
汉语词汇中的非理复合词——一种特殊的词汇结构类型:既非单纯词又非合成词 被引量:11
6
作者 俞理明 《四川大学学报(哲学社会科学版)》 CSSCI 北大核心 2003年第4期86-91,共6页
非理复合词是汉语词汇在历史发展中,一些来源于多个语素却又不能按一般语义结构规则分析的词。它有四个来源:两个不同层次的成分长期相邻使用,形成跨层次凝合词;从一个常用词语中选取部分音素或音节组合成等义的新形式形成缩略词;从一... 非理复合词是汉语词汇在历史发展中,一些来源于多个语素却又不能按一般语义结构规则分析的词。它有四个来源:两个不同层次的成分长期相邻使用,形成跨层次凝合词;从一个常用词语中选取部分音素或音节组合成等义的新形式形成缩略词;从一个熟习的词语中略去所要表达的词,让剩余部分表示被略去词的意义,是隐缺词;用不对应成分替换一个词的部分,造成一个与原词整体意义对应的词,产生非理仿词。 展开更多
关键词 构词法 非理复合词 跨层次凝合 缩略 隐缺 仿词
在线阅读 下载PDF
语义透明度和构词频率对汉语动词多词素词识别的影响 被引量:12
7
作者 王娟 张积家 许锦宇 《心理与行为研究》 CSSCI 2014年第6期769-774,共6页
采用重复启动范式,通过两个实验,考察语义透明度和词素构词频率对动词多词素词识别的影响。结果发现:(1)语义透明度影响多词素动词的识别,识别高语义透明度的动词快于识别低语义透明度的动词。(2)词素的构词频率影响低语义透明度动词的... 采用重复启动范式,通过两个实验,考察语义透明度和词素构词频率对动词多词素词识别的影响。结果发现:(1)语义透明度影响多词素动词的识别,识别高语义透明度的动词快于识别低语义透明度的动词。(2)词素的构词频率影响低语义透明度动词的识别,不影响高语义透明度动词的识别。对低语义透明动词,词素的构词频率低的动词的反应时显著短于词素的构词频率高的动词。研究结果支持汉语多词素词的多层次双系统选择加工模型。 展开更多
关键词 动词多词素词 语义透明度 构词频率 多层次双系统选择加工模型
在线阅读 下载PDF
当代汉语新词语表人词语模主观性解析 被引量:5
8
作者 赵艳梅 杨文全 《新疆大学学报(哲学社会科学版)》 CSSCI 2018年第1期139-144,共6页
从主观性角度来分析当代汉语新词语中的表人词语模是一种新的尝试。表人词语模的主观性可以从说话人的视角、情感和认识三个方面来探讨。这种称说上的主观性是表人词语模造词功能的一种重要体现,也进一步证明了语言的主观性是普遍存在的。
关键词 表人词语模 主观性 造词功能 新词语
在线阅读 下载PDF
基于字簇的多模型中文分词方法研究 被引量:2
9
作者 李对红 王裴岩 +1 位作者 张桂平 张少阳 《计算机应用研究》 CSCD 北大核心 2020年第2期355-359,374,共6页
字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个... 字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。 展开更多
关键词 中文分词 构词规律 模型参数 聚类
在线阅读 下载PDF
汉语双音化效应再探 被引量:9
10
作者 吴耀根 吴为善 《华东师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2018年第3期106-112,共7页
双音化是中古时期汉语发展中出现的特定现象,是汉语韵律的一个基本形式,也是汉语韵律句法研究最重要的起点之一。通常认为双音化是个很简单的现象,即两个音节的连缀,是汉语词汇的主要形式。笔者认为,汉语的双音化现象看似简单,其实不简... 双音化是中古时期汉语发展中出现的特定现象,是汉语韵律的一个基本形式,也是汉语韵律句法研究最重要的起点之一。通常认为双音化是个很简单的现象,即两个音节的连缀,是汉语词汇的主要形式。笔者认为,汉语的双音化现象看似简单,其实不简单,从历时的、动态的观点来看,汉语的双音化效应至少表现在两个重要层面:一个是在汉语层级体系构建中具有"枢纽"效应,另一个是在汉语词法构式成型中具有"整合"效应。 展开更多
关键词 双音化 两字组 层级体系 词法构式 概念整合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部