题名 基于潜层主题结构表示增强的跨领域文本生成
1
作者
刘小明
赵梦婷
杨关
刘杰
机构
中原工学院计算机学院
河南省网络舆情监测与智能分析重点实验室
郑州市文本处理与图像理解重点 实验室
北方工业大学信息学院
国家语委中国语言智能 研究中心
出处
《中文信息学报》
北大核心
2025年第5期150-163,176,共15页
基金
国家科技创新-2030重大项目(2020AAA0109700)
国家自然科学基金(62076167,61772020)
河南省高等学校重点科研项目(24A520058,23A520022)。
文摘
现有的低资源生成模型大多使用预训练的词嵌入来解决目标领域数据稀疏问题,但这种方法难以捕捉不同领域间的潜层结构信息,经常忽略潜在主题对捕捉关键信息的重要作用。为了解决这些问题,该文联合神经主题模型提取潜在主题,从而为生成的语句选择提供全局特征,并结合词嵌入和主题嵌入,增强模型对潜在主题信息的利用,然后通过对不同领域的主题对齐,捕捉相似潜层主题结构表示。在文本生成不同任务的数据集上进行的大量实验表明,该模型在摘要生成任务的六个低资源领域数据集、CNN/DailyMail数据集和SAMsum数据集上的ROUGE-1均值相较于基准模型分别提高了0.92%、3.71%和1.0%;在对话生成任务中,该模型在ESConv数据集上的各项指标也表现出良好的结果。
关键词
低资源
结构特征
主题模型
Keywords
low resources
structural features
topic model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于知识图谱增强的恶意代码分类方法
2
作者
夏冰
何取东
刘文博
楚世豪
庞建民
机构
中原工学院前沿信息技术研究院
河南省网络舆情监测与智能分析重点实验室
数学工程与先进计算国家重点 实验室
出处
《郑州大学学报(理学版)》
CAS
北大核心
2025年第2期61-68,共8页
基金
河南省科技攻关项目(232102211088)。
文摘
针对应用程序接口(application programming interface,API)序列识别的恶意代码分类方法存在特征描述能力弱和调用关系缺失的问题,提出一种基于知识图谱增强的恶意代码分类方法。首先,基于函数调用图抽取恶意代码所含的API实体及其调用关系,在此基础上构建恶意代码API知识图谱。其次,使用Word2Vec技术计算携带上下文调用语义的API序列向量,借助TransE技术捕获API知识图谱中的API实体向量,将这两个向量的融合结果作为API特征。最后,将恶意代码所含的API表示为特征矩阵,输入TextCNN进行分类模型训练。在恶意代码家族分类任务中,与基线模型相比,所提方法的准确率有较大提升,达到93.8%,表明知识图谱可以有效增强恶意代码家族分类效果。同时,通过可解释性实验证实了所提方法具有应用价值。
关键词
恶意代码
API序列
语义抽取
知识图谱
可解释性
Keywords
malware
API sequence
semantic extraction
knowledge graph
explainability
分类号
TP309.5
[自动化与计算机技术—计算机系统结构]
题名 基于动态异构冗余架构的车载网络内生安全机制
被引量:3
3
作者
王鹏
翟浡琨
李玉峰
郑秋生
机构
中原工学院前沿信息技术研究院
网络 通信与安全紫金山实验室
上海大学计算机工程与科学学院
河南省网络舆情监测与智能分析重点实验室
出处
《电子与信息学报》
EI
CSCD
北大核心
2023年第1期272-281,共10页
基金
国家自然科学基金(61702547)。
文摘
针对车载网络通信报文容易被捕获重放的问题,该文提出一种基于动态异构冗余(DHR)架构的车载网络内生安全机制(ESM-VN)。首先,对车载网络重放攻击进行建模分析,总结重放攻击依赖的车载网络特征;然后结合网络空间内生安全理论,设计车载网络通信报文动态异构冗余的实现机制,通过拟态裁决和负反馈机制实现攻击感知与主动防御的协调统一。实验结果表明,相比于传统车载网络防御方法,该文所提机制能够在至少降低50%报文响应时延的同时,有效提高车载网络对重放攻击的防御能力。
关键词
内生安全
车载网络
重放攻击
动态异构冗余
Keywords
Endogenous security
In-vehicle network
Replay attack
Dynamic Heterogeneous Redundancy(DHR)
分类号
TN915.08
[电子电信—通信与信息系统]
题名 因果关系表示增强的跨领域命名实体识别
4
作者
刘小明
曹梦远
杨关
刘杰
王杭
机构
中原工学院计算机学院
国家语委中国语言智能 研究中心
郑州市文本处理与图像理解重点 实验室
河南省网络舆情监测与智能分析重点实验室
北方工业大学信息学院
出处
《计算机工程与应用》
CSCD
北大核心
2024年第18期176-188,共13页
基金
国家自然科学基金(62076167,61772020)
河南省高等学校重点科研项目(24A520058,23A520022)。
文摘
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。
关键词
跨领域命名实体识别
迁移学习
因果关系
结构因果模型
语义特征表示
Keywords
cross-domain named entity recognition
transfer learning
causal relationship
structural causal model
semantic feature representation
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于事实和风格的多通道融合虚假新闻检测
被引量:1
5
作者
赵中杰
郑秋生
张龙
机构
中原工学院前沿信息技术研究院
河南省网络舆情监测与智能分析重点实验室
出处
《中文信息学报》
CSCD
北大核心
2024年第8期158-166,共9页
基金
河南省高等学校重点科研项目(22B520054)
嵩山实验室预研项目(YYJC032022021)
中原工学院自然科学基金(K2023MS021)。
文摘
虚假新闻的大量传播对个人和社会都造成巨大的危害,通过智能算法检测虚假新闻是阻止虚假新闻传播的重要途径。针对不同语境中虚假新闻检测不准确的问题,该文将新闻的背景事实特征和新闻的风格特征融入到模型中,可以提高模型解决缺少背景知识的虚假新闻检测能力,增强模型的鲁棒性,其中新闻的风格包括情感风格和文本风格。同时该文构建了多通道融合器融合新闻与背景知识的差异性特征,语义特征和风格特征,组成了基于事实和风格的虚假新闻检测框架FSFD。在CHEF中文开放数据集上的实验证明,该文提出的检测方法在F1值上比基准模型提升了2.3%,可见,该文方法适用于背景丰富的新闻,为在线社交媒体的虚假新闻检测提供有力支持。
关键词
虚假新闻检测
证据检索
多通道融合
预训练模型
Keywords
fake news detection
evidence retrieval
multi-channel fusion
pre-trained model
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于潜层关系增强的实体和关系联合抽取
6
作者
王鹏
刘小明
杨关
刘杰
刘阳
机构
中原工学院计算机学院
中原工学院河南省网络舆情监测与智能分析重点实验室
北方工业大学信息学院
国家语委中国语言智能 研究中心
西安电子科技大学通信工程学院
出处
《计算机工程与设计》
北大核心
2024年第6期1780-1788,共9页
基金
国家科技创新-2030重大基金项目(2020AAA0109700)
国家自然科学基金项目(62076167)
+1 种基金
东北师范大学应用统计教育部重点实验室基金项目(135131007)
国家自然科学基金青年基金项目(61906141)。
文摘
为充分发掘文本序列中潜层语义关系信息,提出一种实体和关系联合抽取的潜层关系增强模型SREM(text subtext relationship enhancement model)。在潜层关系表示层利用结构化对齐的方式,获取并保持文本序列中的语义信息结构。在融合注意力机制的关系网络层中对数据进行建模,提高模型对文本词汇间关系信息的捕获能力。结合注意力机制获取细粒度语义信息,对上下文信息进行选择过滤。实验结果表明,在数据集NYT和WebNLG上取得的F1值分别为92.40%和92.52%,验证了模型的有效性。
关键词
联合抽取
语义关系
结构化知识
潜层表示
注意力机制
关系网路
信息过滤
Keywords
joint extraction
semantic relation
structured knowledge
submerged representation
attention
relationship network
information filtering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于扩散序列的多元可控文本生成
7
作者
李晨阳
张龙
郑秋生
钱少华
机构
中原工学院前沿信息技术研究院
河南省网络舆情监测与智能分析重点实验室
重庆长安汽车软件科技有限公司
出处
《计算机应用》
CSCD
北大核心
2024年第8期2414-2420,共7页
基金
河南省高等学校重点科研项目(22B520054)
嵩山实验室预研项目(YYJC032022021)
中原工学院自然科学基金资助项目(K2023MS021)。
文摘
随着大规模预训练语言模型的出现,文本生成技术已取得突破性进展。然而,在开放性文本生成领域,生成的内容缺乏拟人化的情感特征,使生成的文本难以让人产生共鸣和情感上的联系,可控文本生成在弥补当前文本生成技术不足方面具有重要意义。首先,在ChnSentiCorp数据集的基础上完成主题和情感属性的扩展,同时,为构建一个可生成流畅文本且情感丰富的多元可控文本生成模型,提出一种基于扩散序列的可控文本生成模型DiffuSeq-PT。该模型以扩散模型为基础架构,利用主题情感属性和文本数据在无分类器引导条件下对序列执行扩散过程,使用预训练模型ERNIE 3.0(Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation)的编码解码能力贴合扩散模型的加噪去噪过程,最终生成符合相关主题和多情感粒度的目标文本。与基准模型DiffuSeq相比,所提模型在2个公开的真实数据集(ChnSentiCorp和辩论数据集)上分别取得0.13和0.01的BERTScore值的提升,困惑度分别下降了14.318和9.46。
关键词
扩散模型
序列扩散
预训练模型
提示
文本生成
可控生成
细粒度情感
Keywords
diffusion model
sequence diffusion
pre-trained model
prompt
text generation
controllable generation
fine-grained emotion
分类号
TP191
[自动化与计算机技术—控制理论与控制工程]
题名 基于自适应特征融合与转换的小样本图像分类
被引量:4
8
作者
许栋
杨关
刘小明
刘阳
刘济宗
陈静
郭清宇
机构
中原工学院计算机学院
河南省网络舆情监测与智能分析重点实验室
中原工学院前沿信息技术研究院网络 舆情 研究中心
西安电子科技大学通信工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2022年第24期223-232,共10页
基金
国家自然科学基金(61772576,61906141)
河南省科技攻关项目(182102210126)
+1 种基金
陕西省自然科学基金(2020JQ-317)
河南省高等学校重点科研项目(23A520022)。
文摘
小样本学习中数据采样不断变化的特点使得模型特征提取不充分,同时,模型对提取的特征也难以进行相应操作;数据分布的变化也影响着小样本模型的性能。针对这些问题,提出一种基于自适应加权多路分支小样本图像分类模型。多路特征处理模块对输入数据进行特征提取和融合,以便充分利用少量数据;自适应的支路权重使得特征信号随特征进行相应的放缩;特征转换模块对多变的数据分布进行适应性变化,以便更好地聚合同类,提高分类效果。通过使用Caltech-UCSD Birds-200-2011数据集和mini-ImageNet数据集,对所提模型在不同场景下进行分类效果测试。实验结果表明,所提模型在5-Way 1-Shot和5-Way 5-Shot任务中的准确率分别比baseline相比分别提升9.81、8.16个百分点和9.16、9.21个百分点,验证了模型的有效性。
关键词
图像分类
小样本学习
特征融合
特征转换
自适应加权多路分支
Keywords
image classification
few shot learning
feature fusion
feature conversion
adaptive weighted multi-branch
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 多层结构化语义知识增强的跨领域命名实体识别
被引量:2
9
作者
张文韩
刘小明
杨关
刘杰
机构
中原工学院计算机学院
河南省网络舆情监测与智能分析重点实验室 (中原工学院)
北方工业大学信息学院
国家语委中国语言智能 研究中心(首都师范大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第12期2864-2876,共13页
基金
国家重点研发计划项目(2020AAA0109700)
国家自然科学基金项目(62076167)
河南省高等学校重点科研项目(23A520022)。
文摘
跨域命名实体识别旨在缓解目标领域标注数据不足的问题.现有方法通常利用特征表示或者模型参数的共享来实现实体识别能力的跨领域迁移,但对文本序列中结构化知识的充分利用仍有所欠缺.基于此,提出了基于多层结构化语义知识增强的跨领域命名实体识别(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型,即通过在多个层级实现对源领域和目标领域文本各自蕴含的结构化表示的对齐来促进实体识别能力跨领域迁移.首先,MSKE-CDNER利用结构特征表示层从不同领域中获取文本的结构化语义知识表示;然后,将获得的结构化语义知识表示通过潜层对齐模块在对应的层级进行结构化对齐,获取结构化的跨领域不变知识,从而提高模型对文本结构化知识的利用;此外,将域不变知识与特定域知识融合,进一步增强模型的泛化能力;最后,分别在5个英文数据集和特定的跨域命名实体识别数据集上进行实验.结果显示,对比当前跨域模型,MSKE-CDNER的平均性能提高了0.43%和1.47%,表明利用特征表示中的结构化知识可以有效提高目标领域的实体识别能力.
关键词
跨域命名实体识别
跨领域迁移
结构化对齐
结构化知识
域不变知识
Keywords
cross-domain named entity recognition
cross-domain transfer
structured alignment
structured knowledge
domain invariant knowledge
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于空间关系与频率特征的视觉问答模型
被引量:4
10
作者
付鹏程
杨关
刘小明
刘阳
张紫明
成曦
机构
中原工学院计算机学院
河南省网络舆情监测与智能分析重点实验室
西安电子科技大学通信工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第9期96-104,共9页
基金
国家自然科学基金(61772576,61906141)
陕西省自然科学基金(2020JQ-317)
河南省科技厅科技攻关计划(182102210126)。
文摘
视觉问答作为多模态数据处理中的重要任务,需要将不同模态的信息进行关联表示。现有视觉问答模型无法有效区分相似目标对象且对于目标对象之间的空间关系表达不准确,从而影响模型整体性能。为充分利用视觉问答图像和问题中的细粒度信息与空间关系信息,基于自底向上和自顶向下的注意力(BUTD)模型及模块化协同注意力网络(MCAN)模型,结合空间域特征和频率域特征构造多维增强注意力(BUDR)模型和模块化共同增强注意力网络(MCDR)模型。利用离散余弦变换得到频率信息,改善图像细节丢失问题。采用关系网络学习空间结构信息和潜在关系信息,减少图像和问题特征出现对齐错误,并加强模型推理能力。在VQA v2.0数据集和test-dev验证集上的实验结果表明,BUDR和MCDR模型能够增强图像细粒度识别性能,提高图像和问题目标对象间的关联性,相比于BUTD和MCAN模型预测精确率分别提升了0.14和0.25个百分点。
关键词
离散余弦变换
细粒度识别
关系网络
注意力机制
特征融合
Keywords
Discrete Cosine Transform(DCT)
fine-grained identification
Relation Network(RN)
attention mechanism
feature fusion
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 基于采样技术的动态混合数据竞争检测算法
被引量:3
11
作者
李梦珂
郑秋生
王磊
机构
中原工学院前沿信息技术研究院
河南省网络舆情监测与智能分析重点实验室
出处
《计算机科学》
CSCD
北大核心
2020年第10期315-321,共7页
基金
国家重点研发计划项目(2016QY07X1503,162300410190)。
文摘
数据竞争是多线程程序并发错误的主要来源,目前已有许多静态和动态程序分析技术用于检测数据竞争,但这些检测器或者会产生巨大的检测开销,或者会漏掉许多真实的数据竞争错误。文中提出了一种基于优化的FastTrack算法和锁模式的动态混合数据竞争检测算法AsampleLock。该算法利用采样技术,监控同一时刻同时运行的来自并发线程的函数对,通过预竞争检测获得真正涉及数据竞争的内存访问对,从而减小竞争检测分析开销;为了减弱线程调度对算法相关性能的影响,AsampleLock算法采用nolock-hb关系来判断访问事件的并发关系;采用map记录所有共享变量的读写信息,并采用锁模式进行动态数据竞争检测,降低漏报率和误报率。基于上述方法实现了原型系统AsampleLock,选择基准测试集Parsec对该系统进行评估,并与FastTrack算法、LiteRace算法和Multilock-HB算法进行对比。实验结果表明,AsampleLock算法与FastTrack算法相比整体时间开销平均降低了8%;AsampleLock算法的数据竞争检测率与LiteRace算法和FastTrack算法相比分别增加了39%和27%。
关键词
多线程程序
数据竞争检测
预竞争检测
锁模式
Keywords
Multithreaded program
Data race detection
Preliminary data race
Locking patterns
分类号
TP311.53
[自动化与计算机技术—计算机软件与理论]
题名 基于潜层结构化语义增强的低资源摘要模型
被引量:1
12
作者
刘宇
刘小明
刘卫光
杨关
刘杰
机构
中原工学院计算机学院
河南省网络舆情监测与智能分析重点实验室
中原工学院软件学院
北方工业大学信息学院
国家语委中国语言智能 研究中心
出处
《计算机科学与探索》
CSCD
北大核心
2023年第8期1961-1973,共13页
基金
国家重点研发计划(2020AAA0109700)
国家自然科学基金(62076167,61772020)。
文摘
生成任务通常采用数据增强或预训练结合微调的方式进行处理,对于源文本与目标摘要之间的潜层结构化语义信息未能充分利用。为此,提出一种基于潜层结构化语义增强的低资源摘要模型,以图结构对齐的方式增强模型对结构化信息的利用。首先,该模型通过结构特征表示层获取源文本与预测摘要的潜层结构化语义特征。然后,将获得的语义特征利用潜层结构对齐模块进行节点对齐和边对齐,这种对齐有助于模型捕捉语义特征中的结构化信息,从而增强模型对结构化知识的利用。最后,利用源文本与预测摘要之间的结构化特征对齐距离作为目标损失的正则项来辅助模型进行优化。在六个领域的低资源数据集上进行实验,ROUGE-1分值相对于基线模型平均提高了0.58。结果表明利用潜层结构化语义知识可以有效提高低资源摘要生成的能力。
关键词
低资源
结构化
语义特征
图结构
Keywords
low resources
structured
semantic features
graph structure
分类号
TP399
[自动化与计算机技术—计算机应用技术]
题名 基于跨模态多维关系增强的多模态模型研究
13
作者
成曦
杨关
刘小明
刘阳
机构
中原工学院计算机学院
中原工学院河南省网络舆情监测与智能分析重点实验室
西安电子科技大学通讯工程学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第8期2367-2374,共8页
基金
国家自然科学基金青年资助项目(61906141)
河南省高等学校重点科研资助项目(23A520022)
东北师范大学应用统计教育部重点实验室资助项目(135131007)。
文摘
针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(multi-dimensional relationship enhancement model,MRE),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明了该方法在多模态任务方面的广泛适用性。
关键词
图像描述
视觉问答
特征多样性
空间关系
上下文语义关系
特征融合
多模态编码
Keywords
image description
visual question answering
feature diversification
spatial relationship
contextual semantic relationship
feature fusion
multimodal encoding
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 视觉特征对比解耦的广义零样本学习
14
作者
张志远
杨关
刘小明
刘阳
机构
中原工学院
河南省网络舆情监测与智能分析重点实验室
西安电子科技大学
出处
《计算机应用研究》
CSCD
北大核心
2023年第6期1912-1920,共9页
基金
国家自然科学基金青年项目(61906141)
东北师范大学应用统计教育部重点实验室资助项目(135131007)
河南省高等学校重点科研项目(23A520022)。
文摘
广义零样本学习通常利用在ImageNet上预训练的深度模型来提取相应的视觉特征,然而预训练模型提取到的视觉特征不可避免地包含和语义无关的信息,这将导致语义—视觉对齐的偏差以及对不可见类的负迁移,从而影响分类结果。为解决上述问题,提出了视觉特征对比解耦的广义零样本学习模型(visual feature contrast decoupling for generalized zero-shot learning,VFCD-GZSL),通过解耦出视觉特征中的语义相关表示来降低冗余信息对分类结果的影响。具体来说,首先用条件变分自编码器生成不可见类的视觉特征。然后通过解耦模块将视觉特征解耦语义相关和语义无关的潜层表示,同时添加总相关惩罚和对比损失来鼓励两者间的相互独立,并用语义关系匹配模型衡量其语义一致性,从而指导模型学习语义相关表示。最后使用特征细化模块细化后的特征和语义相关表示联合学习一个广义零样本学习分类器。在四个数据集上的实验均取得较优的结果,证实了所提方法的有效性。
关键词
广义零样本学习
解耦表征学习
变分自编码器
生成模型
特征融合
Keywords
generalized zero-shot learning
decoupling representation learning
variational auto-encoder
generative model
feature fusion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向申威1621通用矩阵乘算法的实现与优化
被引量:1
15
作者
李爽
赵荣彩
王磊
机构
中原工学院计算机学院
中原工学院前沿信息技术研究院
河南省网络舆情监测与智能分析重点实验室
出处
《计算机科学》
CSCD
北大核心
2021年第S02期699-704,718,共7页
文摘
BLAS库作为高性能计算中最基本的数学库,对高性能计算机平台上的数值计算、人工智能等领域应用都起着重要作用。BLAS3级函数GEMM是整个BLAS库性能的核心指标。目前,还没有能够充分发挥申威1621平台优势的高性能BLAS库。针对上述问题,在申威1621平台上,实现了GotoBLAS的移植与优化。提出了一种使用SIMD向量化进行核心代码优化的算法实现,为满足向量优化的算法实现分别进行了数据重排、计算数据块选择、浮点寄存器分配、向量化指令改写等优化技术。分别比较了SGEMM和DGEMM在Micro-kernel中使用cache行和使用向量化优化的最优数据块选择方案。实验结果表明,优化后最佳分块下的SGEMM单核性能比GotoBLAS单核单精度浮点数平均加速52.09倍,DGEMM单核性能比GotoBLAS单核双精度浮点数平均加速32.75倍。
关键词
申威1621
程序优化
GEMM
算法实现
SIMD
Keywords
Sunway1621
Program optimization
GEMM
Algorithm implementation
SIMD
分类号
TP319
[自动化与计算机技术—计算机软件与理论]