期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于匹配滤波的非接触生命体征测量 被引量:1
1
作者 曹杰 温力 +2 位作者 唐敏 郭宜竞 顾昌展 《电子测量技术》 北大核心 2025年第1期39-45,共7页
针对目前非接触生命体征测量中稳定性和精度有限且各解决方法复杂度较高的问题,设计了一种基于匹配滤波的非接触生命体征测量方法,以实现低计算复杂度的同时保持最优性估计。在办公室环境下对五个样本进行了测试,结果表明所提出方法的... 针对目前非接触生命体征测量中稳定性和精度有限且各解决方法复杂度较高的问题,设计了一种基于匹配滤波的非接触生命体征测量方法,以实现低计算复杂度的同时保持最优性估计。在办公室环境下对五个样本进行了测试,结果表明所提出方法的有效性,能降低实际环境中由于人员体动等所导致的生命体征测量误差。以样本4为例,在平稳性设计下心率方差由2 825下降至82,在精度跟踪校准设计下,心率均方根误差由16下降至4。临床实验则与现行医学参考标准进一步对比,结果表明呼吸率误差在1 bpm内,同时心率的测量结果也更好,具有潜在的实用性。 展开更多
关键词 匹配滤波 非接触生命体征测量 心率估计 毫米波雷达
在线阅读 下载PDF
基于多尺度残差网络的闪电类型识别
2
作者 杨俊 刘岩 +3 位作者 李杰 赵子琪 郑猛 张其林 《科学技术与工程》 北大核心 2025年第27期11483-11489,共7页
闪电类型识别在雷电探测和气象防灾减灾等领域具有重要的作用。目前闪电类型识别面临数据多样性、波形特征复杂等难题,限制了识别算法的准确性和泛化能力。提出了一种基于多尺度残差网络和注意力机制的闪电波形多分类算法MSRES-SA(multi... 闪电类型识别在雷电探测和气象防灾减灾等领域具有重要的作用。目前闪电类型识别面临数据多样性、波形特征复杂等难题,限制了识别算法的准确性和泛化能力。提出了一种基于多尺度残差网络和注意力机制的闪电波形多分类算法MSRES-SA(multi-scale residuals and self-attention),旨在提高闪电波形识别的准确性。首先构建了一个多尺度残差特征提取模块,用于提取闪电波形在时间维度上不同尺度的信息,并使用残差连接来增强模型的表征能力。然后使用注意力机制来动态加权重要特征,捕捉波形序列中的长距离关联。实验结果表明,MSRES-SA算法的平均识别精度为99.35%,在多个闪电波形类别识别中优于基线模型,并通过消融实验证明了多尺度残差模块和注意力模块在闪电波形识别任务中的有效性。 展开更多
关键词 闪电识别 多尺度 残差 注意力机制
在线阅读 下载PDF
基于反事实用户行为生成的会话推荐方法
3
作者 卢香葵 邬俊 《电子学报》 北大核心 2025年第4期1264-1278,共15页
为保护用户隐私,许多平台为用户提供了匿名登录选项,迫使推荐系统仅能访问当前会话中的有限用户行为记录,进而催生了会话推荐(Session-Based Recommendation,SBR)系统.现有SBR技术在很大程度上沿用了传统非匿名用户行为建模思路,聚焦于... 为保护用户隐私,许多平台为用户提供了匿名登录选项,迫使推荐系统仅能访问当前会话中的有限用户行为记录,进而催生了会话推荐(Session-Based Recommendation,SBR)系统.现有SBR技术在很大程度上沿用了传统非匿名用户行为建模思路,聚焦于序列建模以习得会话表征.然而,当会话长度偏短时,现有SBR技术性能衰减严重,难以应对以短会话为主的真实会话推荐场景.有鉴于此,提出一种通过频繁模式引导长会话生成的反事实推理方法(Counterfactual inference by frequent pattern guided Long Session Generation,CLSG),试图回答反事实问题:“如果会话内包含更丰富的交互物品,SBR模型预测结果将会如何?”CLSG遵循反事实理论的“归纳-行动-预测”经典三阶段推理流程.“归纳”:从已观测会话集合中构建频繁模式知识库;“行动”:基于所构建知识库生成反事实长会话;“预测”:度量已观测会话和反事实会话预测结果间的差异,并将其作为正则化项并入目标函数,以达到表征一致性的目的 .值得注意的是,CLSG具有模型无关的技术特点,可对现有SBR模型实现普惠式赋能.三个基准数据集上的实验结果表明,CLSG提升了五款现有SBR模型的预测性能,在命中率(Hit Rate,HR)和平均倒数排名(Mean Reciprocal Rank,MRR)评价指标上均取得6%左右的平均性能提升. 展开更多
关键词 会话推荐 反事实推理 频繁模式挖掘 用户行为建模 匿名会话
在线阅读 下载PDF
基于多尺度融合的道岔点云分割方法
4
作者 宋奕霄 赵鑫欣 +2 位作者 王胜春 严至成 李清勇 《北京交通大学学报》 北大核心 2025年第3期23-32,共10页
针对当前道岔区轨道状态检查方法存在的人工依赖程度高、检测效率低下以及二维视觉检测具有缺失深度信息的局限性等问题,提出基于多尺度融合策略的道岔点云分割方法(Point-Bidirectional Encoder Representations from Transformers-Tur... 针对当前道岔区轨道状态检查方法存在的人工依赖程度高、检测效率低下以及二维视觉检测具有缺失深度信息的局限性等问题,提出基于多尺度融合策略的道岔点云分割方法(Point-Bidirectional Encoder Representations from Transformers-Turnout,Point-BERT-T).首先,在道岔局部点云编码过程中采用不同大小的球半径进行分组,并融合不同半径球体空间内点的特征,形成具有空间层次性的混合特征表达,融合后的特征包含道岔的不同尺度信息,能够优化对铁路基础设施的高效识别和分割,提升铁路道岔的三维点云数据识别能力和下游病害及形变检测能力;其次,在数据预处理阶段采用随机旋转平移和非均匀切分策略,有效模拟实际扫描采集过程中存在的随机性数据,增强模型在不同数据采集条件下的鲁棒性;最后,为验证本文方法的有效性,将改进方法与已有方法进行对比实验.研究结果表明:较现有方法Point-BERT,提出的Point-BERT-T方法在道岔点云分割性能上提高了1.9%,在分割难度较高的心轨和翼轨上的分割交并比(Intersection over Union,IoU)分别提升了4.7%和5.6%,在三维铁路道岔点云数据的语义分割任务中,有效实现了准确且鲁棒的分割. 展开更多
关键词 铁路巡检 道岔 深度学习 点云分割
在线阅读 下载PDF
面向中文场景文本编辑的不确定性感知生成网络
5
作者 高宇童 张颖 +4 位作者 刘湘赣 刘怡典 姜山 郭子毅 宋非凡 《北京师范大学学报(自然科学版)》 北大核心 2025年第3期285-292,共8页
通过研究,提出了一种基于不确定性建模的中文场景文本编辑(Chinese scene text editing,CSTE)方法,并发现了1种有效的技术解决方案.该方法通过不确定性引导的调整机制优化预测噪声,提升噪声估计准确性,从而增强生成文本的清晰度和结构... 通过研究,提出了一种基于不确定性建模的中文场景文本编辑(Chinese scene text editing,CSTE)方法,并发现了1种有效的技术解决方案.该方法通过不确定性引导的调整机制优化预测噪声,提升噪声估计准确性,从而增强生成文本的清晰度和结构完整性.同时,通过过滤文本和图像特征中的无关信息,提高了跨模态对齐能力,实现了文本与背景纹理的融合. 展开更多
关键词 中文场景文本编辑 不确定性感知机制 跨模态对齐 冗余消除 噪声矫正
在线阅读 下载PDF
基于局部扰动的时间序列预测对抗攻击 被引量:1
6
作者 张耀元 原继东 +2 位作者 刘海洋 王志海 赵培翔 《软件学报》 EI CSCD 北大核心 2024年第11期5210-5227,共18页
时间序列预测模型已广泛应用于日常生活中的各个行业,针对这些预测模型的对抗攻击关系到各行业数据的安全性.目前,时间序列的对抗攻击多在全局范围内进行大规模扰动,导致对抗样本易被感知.同时,对抗攻击的效果会随着扰动幅度的降低而明... 时间序列预测模型已广泛应用于日常生活中的各个行业,针对这些预测模型的对抗攻击关系到各行业数据的安全性.目前,时间序列的对抗攻击多在全局范围内进行大规模扰动,导致对抗样本易被感知.同时,对抗攻击的效果会随着扰动幅度的降低而明显下降.因此,如何在生成不易察觉的对抗样本的同时保持较好的攻击效果,是当前时间序列预测对抗攻击领域亟需解决的问题之一.首先提出一种基于滑动窗口的局部扰动策略,缩小对抗样本的扰动区间;其次,使用差分进化算法寻找最优攻击点位,并结合分段函数分割扰动区间,进一步降低扰动范围,完成半白盒攻击.和已有的对抗攻击方法在多个不同深度模型上的对比实验表明,所提出的方法能够生成不易感知的对抗样本,并有效改变模型的预测趋势,在股票交易、电力消耗、太阳黑子观测和气温预测这4个具有挑战性的任务中均取得了较好的攻击效果. 展开更多
关键词 时间序列预测 对抗攻击 对抗样本 半白盒攻击 滑动窗口 差分进化
在线阅读 下载PDF
基于关系感知和标签消歧的细粒度面部表情识别算法 被引量:1
7
作者 刘雅芝 许喆铭 +2 位作者 郎丛妍 王涛 李浥东 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3336-3346,共11页
细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的... 细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的相关性,导致所学特征带来的性能提升有限.其次,现有细粒度表情识别方法并未有效利用和挖掘粗细粒度的层级关系,因而限制了模型的识别性能.此外,现有细粒度表情识别算法忽略了由于标注主观性和情感复杂性导致的标签歧义性问题,极大影响了模型的识别性能.针对上述问题,本文提出一种基于关系感知和标签消歧的细粒度面部表情识别算法(fine-grained facial expression recognition algorithm based on Relationship-Awareness and Label Disambiguation,RALD).该算法通过构建层级感知的图像特征增强网络,充分挖掘图像之间、层级标签之间以及图像和标签之间的依赖关系,以获得更具辨别性的图像特征.针对标签歧义性问题,算法设计了基于近邻样本的标签分布学习模块,通过整合邻域信息进行标签消歧,进一步提升模型识别性能.在细粒度表情识别数据集FG-Emotions上算法的准确度达到97.34%,在粗粒度表情识别数据集RAF-DB上比现有主流表情分类方法提高了0.80%~4.55%. 展开更多
关键词 细粒度面部表情识别 注意力机制 关系感知 特征优化 标签分布学习
在线阅读 下载PDF
视觉提示学习综述 被引量:4
8
作者 廖宁 曹敏 严骏驰 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期790-820,共31页
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的... 近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向特定下游任务进行设计.为此,我们将从方法设计上进行简单分类,然后从应用任务角度详细介绍视觉单模态提示学习和视觉语言多模态提示学习方法.最后,我们对比分析了自然语言处理领域和视觉相关领域提示学习研究的进展,并对未来研究路线给出了展望。 展开更多
关键词 大规模预训练模型 自然语言处理 视觉单模态提示学习 视觉语言多模态提示学习
在线阅读 下载PDF
基于时空多图融合的交通流量预测 被引量:1
9
作者 顾焰杰 张英俊 +2 位作者 刘晓倩 周围 孙威 《计算机应用》 CSCD 北大核心 2024年第8期2618-2625,共8页
交通预测是智能交通系统(ITS)的核心任务,准确的交通流量预测(TFF)可以大幅提高公共资源的利用效率。针对现有多图神经网络模型对上下文信息使用不足、图融合方法不平衡和只考虑静态空间关系等问题,提出基于时空多图融合(STMGF)的TFF模... 交通预测是智能交通系统(ITS)的核心任务,准确的交通流量预测(TFF)可以大幅提高公共资源的利用效率。针对现有多图神经网络模型对上下文信息使用不足、图融合方法不平衡和只考虑静态空间关系等问题,提出基于时空多图融合(STMGF)的TFF模型。首先,通过融合空间图、语义图和空间语义图提取不同区域的不同空间相关性,并利用空间注意力机制和图注意力机制融合不同的图结构以动态学习不同邻居的重要性;然后,使用多核时间注意力机制同时捕获局部时间依赖性和全局时间依赖性;最后,使用多层感知机预测交通流量,得到最终预测值。在NYCTaxi和NYCBike数据集验证模型的有效性。实验结果表明,在NYCBike数据集的36步预测任务中,与时空图卷积神经网络(STGCN)、基于时空注意力的图神经网络(ASTGNN)、元图卷积递归网络(MegaCRN)相比,所提模型的均方根误差(RMSE)分别降低了8.46%、2.70%和2.20%。 展开更多
关键词 多图融合 多核注意力 空间注意力 图注意力 深度学习
在线阅读 下载PDF
基于Conformer的端到端语音识别方法 被引量:3
10
作者 胡从刚 申艺翔 +1 位作者 孙永奇 赵思聪 《计算机应用研究》 CSCD 北大核心 2024年第7期2018-2024,共7页
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将... 针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。 展开更多
关键词 语音识别 CONFORMER RepVGG 压缩和激励网络
在线阅读 下载PDF
高速铁路钢轨廓形动态测量方法研究 被引量:2
11
作者 赵鑫欣 李海浪 +3 位作者 王胜春 王昊 王宁 李清勇 《中国铁道科学》 EI CAS CSCD 北大核心 2024年第6期91-100,共10页
对钢轨廓形的快速准确测量是实现高速铁路线路自动化分析的首要前提。在实际应用中,环境异物飞溅和强反射光等噪声会严重污染钢轨图像,导致钢轨追踪失败和测量精度下降。为此,提出一种钢轨图像激光条纹分割与廓形提取相结合的方法。首先... 对钢轨廓形的快速准确测量是实现高速铁路线路自动化分析的首要前提。在实际应用中,环境异物飞溅和强反射光等噪声会严重污染钢轨图像,导致钢轨追踪失败和测量精度下降。为此,提出一种钢轨图像激光条纹分割与廓形提取相结合的方法。首先,基于连续采集图像的时空上下文信息,定位钢轨感兴趣区域;然后,利用数据密度比缩放的聚类方法,过滤钢轨感兴趣区域中图像噪声并分割钢轨光带;最后,沿光带截面的法线方向实现钢轨廓形提取及测量。选取典型高铁线路试验数据,将该方法与基于密度聚类和共享近邻密度聚类方法的聚类评价指标F1进行对比,并将它连同灰度重心法和Steger方法的钢轨廓形提取结果与MiniProf钢轨廓形测量仪的实际测量结果进行精度对比分析。结果表明:相比传统聚类和廓形提取方法,该方法平均F_(1)值为0.98,廓形测量误差均值为0.08 mm,可使不同形状和大小的钢轨数据聚为同一类,且钢轨廓形动态测量精度满足《高速铁路钢轨打磨管理办法》中0.15 mm的要求,有效克服复杂高铁环境噪声,单幅图像处理时间仅为2.2 ms,适用于最高检测速度350 km·h^(-1)下线路自动化分析的时效性和准确性。 展开更多
关键词 高速铁路 钢轨廓形 动态测量 密度比缩放 激光条纹中心
在线阅读 下载PDF
基于非定长编码和滑动窗口的隐私保护记录链接方法
12
作者 叶晓东 赵迎迎 +2 位作者 孙永奇 赵思聪 刘真 《计算机工程》 CAS CSCD 北大核心 2024年第2期154-164,共11页
隐私保护记录链接(PPRL)是一种跨不同数据库高效识别同一实体对象对应的记录而不泄露记录所代表实体对象的敏感或机密信息的方法。布隆过滤器(BF)广泛应用于PPRL,其将记录中的敏感信息进行编码并使用字符q-gram实现近似匹配。但是,BF编... 隐私保护记录链接(PPRL)是一种跨不同数据库高效识别同一实体对象对应的记录而不泄露记录所代表实体对象的敏感或机密信息的方法。布隆过滤器(BF)广泛应用于PPRL,其将记录中的敏感信息进行编码并使用字符q-gram实现近似匹配。但是,BF编码容易遭受密码分析攻击,且由于对q-gram位置不敏感,会导致记录匹配的精确率较低。提出一种基于非定长编码和滑动窗口的PPRL方法,其采用的非定长编码记录生成方式不仅使记录具有位置敏感性,而且通过对有效位前后添加随机位数组隐藏了实体的位数组频率信息,从而能够有效防御频率攻击。此外,设计一种基于滑动窗口的记录链接方式,先通过快速过滤筛除大量不匹配的记录,再使用双向滑动窗口的精确匹配策略对剩余记录进行匹配,提高隐私保护记录的匹配效率。在公开数据集上的实验结果表明,相比BF方法,该方法在编码速度上快100倍左右,其同时具有更高的匹配精度,在跨数据库PPRL方面的安全性也更强。 展开更多
关键词 布隆过滤器 字符串比较 隐私保护 记录链接 安全实体对齐
在线阅读 下载PDF
非致冷红外探测器用氧化钒多晶薄膜的制备 被引量:8
13
作者 王宏臣 易新建 +2 位作者 陈四海 黄光 李雄伟 《红外与毫米波学报》 SCIE EI CAS CSCD 北大核心 2004年第1期64-66,共3页
采用离子束溅射镀膜和氧化工艺在Si(110 )和石英衬底上制备了用于非致冷红外探测器阵列热敏材料的混合相氧化钒多晶薄膜 .扫描电子显微镜 (SEM)照片显示 :薄膜表面呈针状晶粒状 ,而且薄膜表面光滑、致密 ,均匀性好 .测试结果表明 :氧化... 采用离子束溅射镀膜和氧化工艺在Si(110 )和石英衬底上制备了用于非致冷红外探测器阵列热敏材料的混合相氧化钒多晶薄膜 .扫描电子显微镜 (SEM)照片显示 :薄膜表面呈针状晶粒状 ,而且薄膜表面光滑、致密 ,均匀性好 .测试结果表明 :氧化钒薄膜的方块电阻和电阻温度系数 (TCR)在 2 0℃分别为 5 0KΩ和 - 0 .0 2 1K-1. 展开更多
关键词 非致冷红外探测器 氧化钒多晶薄膜 离子束溅射镀膜 电阻温度系数 半导体材料 薄膜结构
在线阅读 下载PDF
三维海浪场的数值模拟及其动态仿真 被引量:13
14
作者 马杰 田金文 +2 位作者 柳健 王长青 沈秩厥 《系统仿真学报》 CAS CSCD 2001年第S2期39-41,44,共4页
根据研究线性海浪理论、海浪谱反演海浪数据的线性叠加法,反演出三维海浪场数据并进行多角度分析。结合飞行器掠海飞行仿真的实际需要,深入研究了PC机平台上大量三维海浪场数据的产生方法和显示方法。大量的仿真实验结果表明,本文所提... 根据研究线性海浪理论、海浪谱反演海浪数据的线性叠加法,反演出三维海浪场数据并进行多角度分析。结合飞行器掠海飞行仿真的实际需要,深入研究了PC机平台上大量三维海浪场数据的产生方法和显示方法。大量的仿真实验结果表明,本文所提方法是可行且有效的,对实际海浪场具有良好的模拟,可广泛应用于动态仿真、虚拟现实及相关领域。 展开更多
关键词 海浪 反演 海浪谱 仿真 三维
在线阅读 下载PDF
基于高光谱的枣树叶片氮素表征方法 被引量:2
15
作者 李旭 石子琰 +4 位作者 刘伟 白铁成 吴翠云 张宇阳 邬竞明 《华中农业大学学报》 CAS CSCD 北大核心 2023年第3期203-210,共8页
为提高枣树种植过程中施用氮肥的精准性,本研究以南疆重要经济作物骏枣(Ziziphus jujuba Mill.)为研究对象,通过对枣树叶片原始光谱和一阶微分光谱与全氮含量的相关性进行分析,利用光谱敏感变量构建植被指数作为衍生变量,再以衍生变量... 为提高枣树种植过程中施用氮肥的精准性,本研究以南疆重要经济作物骏枣(Ziziphus jujuba Mill.)为研究对象,通过对枣树叶片原始光谱和一阶微分光谱与全氮含量的相关性进行分析,利用光谱敏感变量构建植被指数作为衍生变量,再以衍生变量作为变量建立多种线性和非线性的氮素含量预测模型,并对氮素含量预测模型进行精度检验。结果显示:基于枣树原始光谱和一阶微分光谱的模型拟合决定系数均大于0.75,原始光谱变量的预测效果整体好于一阶微分光谱;预测效果最好的是基于原始光谱变量4的幂函数模型:Nit=1.097x^(0.735),R^(2)为0.821,RMSE为0.024 5。研究表明,建立的氮素含量预测模型能够实现基于高光谱反射率特征对枣树氮素的较好监测效果,能够作为枣树营养素诊断的重要理论依据。 展开更多
关键词 高光谱 枣树叶片 全氮含量 预测建模 线性模型
在线阅读 下载PDF
马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用 被引量:3
16
作者 刘奇 马娆 俞凯 《计算机学报》 EI CAS CSCD 北大核心 2022年第2期289-301,共13页
自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自... 自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的抽象,通过在自然语言生成中引入先验控制向量,我们可以更好的约束自然语言生成的空间.再通过马尔可夫决策过程的定义,我们可以使用策略梯度算法来直接使用测试使用的BLEU分数来代替交叉熵训练LSTM网络.在多个数据集上的实验显示本文提出的方法相比于普通使用LSTM语言模型的基线系统在BLEU分数上有大约绝对2%~3%的提升. 展开更多
关键词 自然语言生成 马尔可夫决策过程 先验控制向量 策略梯度算法 深度强化学习
在线阅读 下载PDF
一种基于结构张量的运动物体分割方法
17
作者 翟素兰 汤进 罗斌 《计算机工程与应用》 CSCD 北大核心 2008年第7期54-56,88,共4页
视频中运动物体的分割是众多视频应用的前提。视频可以看作是三维时空中的对象,通过邻域的灰度值的结构方向来分析视频的运动。提出了时空结构张量进行运动物体分割的方法。首先分析了视频中物体的运动与灰度的变化的关系,然后删除了三... 视频中运动物体的分割是众多视频应用的前提。视频可以看作是三维时空中的对象,通过邻域的灰度值的结构方向来分析视频的运动。提出了时空结构张量进行运动物体分割的方法。首先分析了视频中物体的运动与灰度的变化的关系,然后删除了三维结构张量中与时间无关的信息,并将此时空结构张量用于视频中运动物体的分割。实验表明时空结构张量运动物体分割方法相对于传统的结构张量,分割准确,计算简单。 展开更多
关键词 结构张量 运动物体分割 视频分析
在线阅读 下载PDF
基于颜色校正和去模糊的水下图像增强方法 被引量:11
18
作者 魏冬 刘浩 +1 位作者 陈根龙 宫晓蕙 《计算机科学》 CSCD 北大核心 2021年第4期144-150,共7页
由于光在水下传播时会出现吸收和散射的情况,水下图像往往存在色偏、对比度低、模糊、光照不均匀等问题。根据水下图像成像模型,人们在海底拍摄所获得的图像往往是退化的图像,而退化的图像不能完整地表达海洋场景信息,难以满足实际的应... 由于光在水下传播时会出现吸收和散射的情况,水下图像往往存在色偏、对比度低、模糊、光照不均匀等问题。根据水下图像成像模型,人们在海底拍摄所获得的图像往往是退化的图像,而退化的图像不能完整地表达海洋场景信息,难以满足实际的应用需要。为此,文中提出了一种基于颜色校正和去模糊的水下图像增强方法。该方法有效融合了颜色校正和去模糊两个阶段,取得了递增的增强效果。在颜色校正阶段,首先对原始图像进行对比度拉伸,在对比度拉伸完成之后,图像可能存在拉伸过度或拉伸不足的现象。因此,所提方法根据灰度世界先验,在对比度拉伸后进一步使用伽马校正来优化和调整图像的对比度和色彩,使图像的R,G,B三通道的灰度值之和趋于相等。接着,在去模糊阶段,通过融合暗通道先验对颜色校正后的图像进行去模糊,得到最终的增强图像。实验结果表明,所提方法具有良好的整体恢复效果,能有效地恢复图像信息,在主观评价和客观评价上均展现出较好的效果。另外,所提方法可以作为水下图像分类等计算机视觉任务的预处理步骤,在实验中能够将水下图像集的分类精度提升16%左右。 展开更多
关键词 水下图像 对比度拉伸 颜色校正 去模糊 灰度世界 图像分类
在线阅读 下载PDF
小数据下的音素级别说话人嵌入的语音合成自适应方法 被引量:13
19
作者 徐志航 陈博 +1 位作者 张辉 俞凯 《计算机学报》 EI CAS CSCD 北大核心 2022年第5期1003-1017,共15页
在语音合成中,使用少量的用户录制数据进行说话人自适应一直面临着一个问题:如何在不过分降低合成声音的自然度的情况下,提高合成声音的相似度.现有的句子级别、帧级别说话人嵌入等自适应方法在合成训练集外说话人声音时会出现低相似度... 在语音合成中,使用少量的用户录制数据进行说话人自适应一直面临着一个问题:如何在不过分降低合成声音的自然度的情况下,提高合成声音的相似度.现有的句子级别、帧级别说话人嵌入等自适应方法在合成训练集外说话人声音时会出现低相似度的问题.使用少量的用户录制数据微调预训练的语音合成模型的自适应方法尽管能提升合成音频的相似度,但是也常伴随着自然度的下降.为了解决这个问题,本文提出了一种基于音素级别的说话人嵌入的语音合成自适应方法.在训练阶段,从真实的特征片段中提取音素级别的说话人嵌入,控制语音合成模型的训练.在自适应阶段,通过对说话人嵌入预测网络进行快速自适应,在推理阶段代替真实音频得到音素级别说话人嵌入帮助模型合成音频.实验使用了少量真实的用户录制数据,对现在主流的不同粒度的说话人嵌入方法进行了性能比较.实验表明,相比较各种不同的说话人嵌入方法,本文提出的方法在不更新语音合成模型的情况下保持自然度不明显下降,并取得了最好相似度;在更新语音合成模型的情况下,该方法同时达到了最好的自然度和相似度.分析发现音素级别的说话人嵌入方法在几乎不增加自适应训练时间的情况下,提供了更好的模型自适应初始点,有效地提高了自适应模型合成声音的质量. 展开更多
关键词 语音合成 说话人嵌入 时长模型 小数据 说话人自适应
在线阅读 下载PDF
基于分形超表面的小型化宽带高透射率平面透镜天线 被引量:4
20
作者 马丽娜 顾昌展 +1 位作者 周凌云 毛军发 《电子学报》 EI CAS CSCD 北大核心 2022年第12期3003-3013,共11页
本文提出了一种基于分形透射超表面的X波段小型化宽带高透射率平面透镜天线.单元设计依照天线-滤波-天线的设计思想,满足巴特沃斯响应,实现单元宽带和高透射率特性.利用分形和堆栈结构,进一步扩大天线带宽,同时实现单元小型化.基于上述... 本文提出了一种基于分形透射超表面的X波段小型化宽带高透射率平面透镜天线.单元设计依照天线-滤波-天线的设计思想,满足巴特沃斯响应,实现单元宽带和高透射率特性.利用分形和堆栈结构,进一步扩大天线带宽,同时实现单元小型化.基于上述设计思想,设计了两种同时具有小型化、宽带、高透射率特性的三层透射超表面单元,单元周期仅为4.5 mm(0.15λ_(0)).为验证单元特性,设计、仿真、加工、测试了基于两种设计单元的频率选择表面.仿真和测试结果表明,提出的两种频率选择表面带宽分别为40%和64%,与入射角在60°以内条件下的反射系数(S_(11))和透射系数(S21)的3 dB带宽对应.此外,为了实现透射相位在满足要求特性的尺寸可变范围内的相位360°覆盖,并进一步提高平面透镜天线效率,本文对第二种超表面结构进行改进,提出了一种基于七层透射超表面单元的平面透镜天线,并给出等效电路模型辅助验证.仿真结果表明,本文提出的平面透镜天线的法向最大增益为12.5 dBi,相比馈源高5.25 dB,且具有20%的相对带宽,口径效率高达78%,证明了该天线具有良好的辐射特性. 展开更多
关键词 宽带 小型化 高透射率 平面透镜天线 分形 超表面
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部