期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
自然场景文本检测与端到端识别:深度学习方法 被引量:9
1
作者 周燕 韦勤彬 +4 位作者 廖俊玮 曾凡智 冯文婕 刘翔宇 周月霞 《计算机科学与探索》 CSCD 北大核心 2023年第3期577-594,共18页
自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点。随着深... 自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点。随着深度学习技术在图像领域的迅速发展,自然场景文本检测与端到端识别方法取得了突破性的进展,其性能和效率得到了显著提高。针对自然场景文本检测与端到端识别方法,梳理了近年来相关的研究工作。首先,根据文本框生成方式的不同,主要从回归候选框和像素分割两个角度来划分自然场景文本检测方法的基本思想,并对各类代表性的方法进行了详细叙述;其次,从端到端识别速度与解耦检测和识别任务的角度对端到端识别方法的技术发展路线进行了归纳总结;然后,介绍了常用的公开文本数据集,并在公开的文本数据集上对各类方法进行了性能对比;最后,对自然场景文本检测与端到端识别的主流研究方向进行了讨论,并阐述了其面临的挑战和未来的发展趋势。 展开更多
关键词 深度学习 自然场景 文本检测 端到端识别
在线阅读 下载PDF
双域感知下多方显式信息协同的场景端到端文本识别
2
作者 陈平平 林虎 +1 位作者 陈宏辉 谢肇鹏 《电子学报》 北大核心 2025年第3期974-985,共12页
在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party... 在复杂自然场景的端到端文本识别中,由于文本和背景难以区分,文本检测的位置信息和识别的语义信息不匹配,无法有效利用检测和识别之间的相关性.针对该问题,本文提出双域感知下多方显式信息协同的自然场景端到端文本识别方法(Multi-party Synergetic explicit Information with Dual-domain Awareness text spotting,MSIDA),通过强化文本区域特征和边缘纹理,利用文本检测和识别特征之间的协同作用提高端到端文本识别性能.首先,设计融合文本空间和方向信息的双域感知模块(Dual-Domain Awareness,DDA),增强文本实例的视觉特征信息;其次,提出多方显式信息协同模块(Multi-party Explicit Information Synergy,MEIS)提取编码特征中的显式信息,通过匹配对齐用于检测和识别的位置、分类和字符多方信息生成候选文本实例;最后,协同特征通过解码器引导可学习的查询序列获得文本检测和识别的结果 .相比最新的DeepSolo(Decoder with explicit points Solo)方法,在Total-Text、ICDAR 2015和CTW1500数据集上,MSIDA模型的准确率分别提升0.8%、0.8%和0.4%.代码和数据集在https://github.com/msida2024/MSIDA.git可以获取. 展开更多
关键词 计算机视觉 场景文本图像 文本检测 端到文本识别 特征信息关联
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
3
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到语音识别 CONFORMER 句子层级一致性
在线阅读 下载PDF
加密MANET端到端流的推断与识别研究
4
作者 常慧君 单洪 黄郡 《计算机应用研究》 CSCD 北大核心 2013年第10期3079-3083,共5页
根据数据流的帧发送时序特性,提出一种基于时序匹配和关联分析的端到端流推断算法。采用时序匹配、关联分析、流追踪与回溯等机制,分析与追踪探测区域内的所有端到端流。该算法能够在无须解密报文的前提下进行流量分析,推断出端到端流... 根据数据流的帧发送时序特性,提出一种基于时序匹配和关联分析的端到端流推断算法。采用时序匹配、关联分析、流追踪与回溯等机制,分析与追踪探测区域内的所有端到端流。该算法能够在无须解密报文的前提下进行流量分析,推断出端到端流的源、目的节点、流路径、流开始时间和流持续时长等信息。仿真实验表明,算法可以有效识别网络中的端到端流。 展开更多
关键词 端到识别 时序匹配 关联分析 流追踪
在线阅读 下载PDF
基于Conformer的端到端语音识别模型的压缩优化策略 被引量:2
5
作者 桑江坤 努尔麦麦提·尤鲁瓦斯 《信号处理》 CSCD 北大核心 2022年第12期2639-2649,共11页
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以... 随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。 展开更多
关键词 深度学习 端到语音识别 CONFORMER 量化 剪枝 分解
在线阅读 下载PDF
基于量化神经网络的端到端车牌检测与识别系统 被引量:3
6
作者 张旭欣 金婕 《传感器与微系统》 CSCD 2020年第12期103-105,共3页
提出一种基于量化神经网络的端到端车牌检测与识别系统,实现了车牌快速端到端的检测与识别。实验结果表明:所提出的网络可以有效地应用于车牌检测与识别,实现了最高99.2%的识别准确率与76 FPS的识别速度。相比浮点卷积神经网络参数量降... 提出一种基于量化神经网络的端到端车牌检测与识别系统,实现了车牌快速端到端的检测与识别。实验结果表明:所提出的网络可以有效地应用于车牌检测与识别,实现了最高99.2%的识别准确率与76 FPS的识别速度。相比浮点卷积神经网络参数量降低约32倍。 展开更多
关键词 端到车牌检测与识别 卷积神经网络 量化神经网络
在线阅读 下载PDF
TCN-Transformer-CTC的端到端语音识别 被引量:19
7
作者 谢旭康 陈戈 +1 位作者 孙俊 陈祺东 《计算机应用研究》 CSCD 北大核心 2022年第3期699-703,共5页
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经... 基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。 展开更多
关键词 端到语音识别 TRANSFORMER 时序卷积神经网络 连接时序分类
在线阅读 下载PDF
基于TensorFlow平台的喷码字符日期码识别研究 被引量:2
8
作者 阎晨阳 罗晓曙 +1 位作者 何富运 马玲 《现代电子技术》 北大核心 2019年第24期84-87,共4页
针对传统的图像识别方法在喷码字符日期码识别中速度较慢的问题,文中使用TensorFlow平台,搭建一个卷积神经网络模型,实现端到端的喷码字符日期码识别。首先,对采集到的图像进行预处理,然后通过检测轮廓的方法提取图像中的喷码字符日期... 针对传统的图像识别方法在喷码字符日期码识别中速度较慢的问题,文中使用TensorFlow平台,搭建一个卷积神经网络模型,实现端到端的喷码字符日期码识别。首先,对采集到的图像进行预处理,然后通过检测轮廓的方法提取图像中的喷码字符日期区域并进行尺寸归一化处理,再用训练好的卷积神经网络模型对图像进行端到端的识别。实验结果表明,此模型识别一张图像的平均时间为25 ms,对测试集的365张图像进行识别的准确率在99%以上。 展开更多
关键词 日期码识别 喷码字符 TensorFlow平台 端到端识别 图像处理 仿真实验
在线阅读 下载PDF
场景文字识别技术研究综述 被引量:20
9
作者 王德青 吾守尔·斯拉木 许苗苗 《计算机工程与应用》 CSCD 北大核心 2020年第18期1-15,共15页
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网... 对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。 展开更多
关键词 场景文字检测 文本识别 深度学习 端到检测识别
在线阅读 下载PDF
基于分解门控注意力单元的高效Conformer模型
10
作者 李宜亭 屈丹 +2 位作者 杨绪魁 张昊 沈小龙 《计算机工程》 CAS CSCD 北大核心 2023年第5期73-80,共8页
为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高... 为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高Conformer模型的泛化能力。在自注意力模块中,使用分解门控注意力单元降低注意力计算复杂度,同时引入余弦加权机制对门控注意力进行加权保证其向邻近位置集中,提高模型识别精度。在AISHELL-1数据集上的实验结果表明,在引入分解门控注意力单元和余弦编码后,该模型的参数量和语音识别字符错误率(CER)明显降低,尤其当参数量被压缩为Conformer端到端语音识别模型的50%后语音识别CER仅增加了0.34个百分点,并且具有较低的计算复杂度和较高的语音识别精度。 展开更多
关键词 端到语音识别 Conformer模型 分解门控注意力单元 模型压缩 低秩分解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部