R-YOLOv5:自动切割的旋转的文本检测模型被引量：1

R-YOLOv5:Auto-cutting,Rotated Text Detection Model

在线阅读下载PDF

导出

摘要 YOLOv5模型是目前文本检测较好的模型之一,针对文本目标长度不一,文本轮廓难以精准检测以及受自然场景中文字倾斜、光影的影响文本较难检测的问题,提出了R-YOLOv5(Rotated-YOLOv5)文本检测模型。首先融入基于仿射算法的文本分割模型,将图片的文本区域等比例切割为多个单字符块,解决文本没有闭合轮廓导致的YOLOv5模型锚定框拟合效果不佳的问题;然后使用旋转卷积层、旋转池化层、改进锚定框,提出了加强角度学习的RIoU(Rotated Intersection over Union)损失函数,实现了文本旋转倾斜特征的提取。在ICDAR2019-LSVT上对原模型与改进后的模型进行实验,实验结果显示,RYOLOv5检测效果有较明显的提升,但由于模型层数加深,训练速率与检测速率相比原模型有小幅降低。相比其他模型,由于YOLOv5自身的优点,R-YOLOv5的检测效果与检测速度均远好于其他模型。 YOLOv5 model is currently one of the best models for object detection.To solve the problem of different lengths of text lines,the inclination of text,light and shadow in natural scenes,etc.the R-YOLOv5(Rotated-YOLOv5)text detection model is proposed,which improves the YOLOv5 model to deal with the weakness in text detection.Firstly,the text segmentation model based on affine algorithm is incorporated.According to the length of the string and the shape of the text area,the text area of the picture is cut into multiple single-character blocks in equal proportions to solve the problem of poor effect of YOLOv5 model caused by the text objects without closed contour lines.Then,using the rotated convolutional neural network layer,rotated maxpooling layer and improved anchor box,we propose a rotated intersection over union(RIoU)loss function that strengthens angle learning to achieve the extraction of rotation and tilt features.The original model and the improved model are tested on ICDAR2019-LSVT.Experimental results show that the detection effect of R-YOLOv5 are significantly improved.However,due to the deepening of model layers,the training efficiency and detection efficiency are slightly reduced compared with the original model.Compared with other models,due to the advantages of YOLOv5,the detection effect and efficiency of R-YOLOv5are much better than that of other models.

作者冉煜张莉 RAN Yu;ZHANG Li(School of Information Technology and Management,University of International Business and Economics,Beijing 100029,China)

机构地区对外经济贸易大学信息学院

出处《计算机科学》 CSCD 北大核心 2022年第S02期637-642,共6页 Computer Science

关键词计算机视觉目标检测文本检测卷积神经网络旋转倾斜损失函数 YOLO Computer vision Object detection Text detection Convolutional neural network Rotation tilt Loss function YOLO

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—控制理论与控制工程]

作者简介冉煜,2920763948@qq.com,born in 1999,postgraduate.His main research interests include deep learning and object detection;通信作者:张莉,zhangli_amy@uibe.edu.cn,born in 1972,Ph.D,professor.Her main research interests include machine learning,deep learning,business intelligence and etc.

引文网络
相关文献

参考文献13

1Wen-Jun Yang,Bei-Ji Zou,Kai-Wen Li,Shu Liu.A Character Flow Framework for Multi-Oriented Scene Text Detection[J].Journal of Computer Science & Technology,2021,36(3):465-477. 被引量：1
2刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良.自然场景文本检测与识别的深度学习方法[J].中国图象图形学报,2021,26(6):1330-1367. 被引量：37
3李煌,王晓莉,项欣光.基于文本三区域分割的场景文本检测方法[J].计算机科学,2020,47(11):142-147. 被引量：9
4袁星星,吴秦.基于显著性特征和角度信息的遥感图像目标检测[J].计算机科学,2021,48(4):174-179. 被引量：8
5宫法明,刘芳华,李厥瑾,宫文娟.基于深度学习的场景文本检测与识别[J].计算机系统应用,2021,30(8):179-185. 被引量：6
6刘艳菊,伊鑫海,李炎阁,张惠玉,刘彦忠.深度学习在场景文字识别技术中的应用综述[J].计算机工程与应用,2022,58(4):52-63. 被引量：20
7邵海琳,季怡,刘纯平,徐云龙.基于增强特征金字塔网络的场景文本检测算法[J].计算机科学,2022,49(2):248-255. 被引量：12
8王霏,黄俊,文洪伟.基于改进YOLOv3的快速文本检测[J].电讯技术,2022,62(1):130-137. 被引量：4
9陈鹏,李鸣,张宇,王志鹏.一种端到端的自然场景文本检测与识别模型[J].测控技术,2022,41(7):17-22. 被引量：5
10孙光民,关世奎,李煜,郑鲲,刘军华.基于改进CTPN算法的试卷手写文本检测[J].信息技术,2020,44(9):94-98. 被引量：6

二级参考文献22

1宋丽丽,吴亚东,孙波.改进的文档图像扭曲校正方法[J].计算机工程,2011,37(1):204-206. 被引量：10
2丁红,张晓峰.非均匀光照图像中粘连手写体和印刷体的辨别[J].计算机工程与设计,2012,33(12):4634-4638. 被引量：7
3曾凡锋,王晓,吴飞飞.基于文本行重构的扭曲文档快速校正方法[J].计算机工程与设计,2014,35(2):573-577. 被引量：4
4王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：55
5曾凡锋,郭正东,王战东.基于连通域的扭曲中文文本图像快速校正方法[J].计算机工程与设计,2015,36(5):1251-1255. 被引量：3
6金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊.深度学习在手写汉字识别中的应用综述[J].自动化学报,2016,42(8):1125-1141. 被引量：112
7罗建豪,吴建鑫.基于深度卷积特征的细粒度图像分类研究综述[J].自动化学报,2017,43(8):1306-1318. 被引量：152
8缪裕青,刘水清,张万桢,欧威健,蔡国永.自然场景图像中的中文文本检测算法[J].计算机工程与设计,2018,39(3):804-807. 被引量：3
9朱利娟,云中华,边巴旺堆.基于极坐标变换的脱机手写藏文字符特征提取方法[J].计算机应用与软件,2018,35(3):162-166. 被引量：7
10李阳,李绍彬,解云超,冯爽.基于卷积神经网络的文本检测算法研究[J].中国传媒大学学报（自然科学版）,2019,26(1):70-76. 被引量：2

共引文献97

1宋璐辉,崔岩.基于物联网的停车监控技术研究[J].信息与电脑,2021,33(1):11-13.
2程博,张开洋,唐波,付震坤,胡义勇.基于深度学习的供应商资质证书智能识别技术研究[J].数字通信世界,2021(4):79-82. 被引量：2
3刘祥.基于卷积神经网络的遥感图像目标检测[J].微型电脑应用,2021,37(7):127-130. 被引量：5
4孟月波,金丹,刘光辉,徐胜军,韩九强,石德旺.共享核空洞卷积与注意力引导FPN文本检测[J].光学精密工程,2021,29(8):1955-1967. 被引量：4
5陈红,管维亚,秦加林,陈建飞.基于深度学习的电网三维设计智能辅助评审研究[J].现代信息科技,2021,5(15):105-108. 被引量：1
6曾劲松.人工智能在文本情感分析中的应用探究[J].计算机与数字工程,2021,49(12):2606-2610.
7冷莉,邹威.面向自然场景的多语言文本特征自动检测研究[J].自动化与仪器仪表,2021(12):24-27. 被引量：2
8苏丽,孙雨鑫,苑守正.基于深度学习的实例分割研究综述[J].智能系统学报,2022,17(1):16-31. 被引量：39
9邵海琳,季怡,刘纯平,徐云龙.基于增强特征金字塔网络的场景文本检测算法[J].计算机科学,2022,49(2):248-255. 被引量：12
10邢宝峻,彭晓明,王卫星.基于CTPN与Tesseract的机载雷达视频字符识别[J].舰船电子对抗,2022,45(1):81-84. 被引量：1

同被引文献4

1李祥,王建国.彩色图像中纯脸检测与定位的优化算法研究[J].计算机科学,2009,36(7):284-287. 被引量：1
2王威,陈俊伍,王新.自适应加权特征字典与联合稀疏相结合的遥感目标检测[J].计算机科学,2018,45(10):276-280. 被引量：2
3朱煜,方观寿,郑兵兵,韩飞.基于旋转框精细定位的遥感目标检测方法研究[J].自动化学报,2023,49(2):415-424. 被引量：19
4路琪,于元强,许道明,张琦.改进YOLOv5的小型旋翼无人机目标检测算法[J].计算机科学,2023,50(S02):200-207. 被引量：8

引证文献1

1董燕,魏铭宏,高广帅,刘洲峰,李春雷.基于双重标签分配的遥感有向目标检测方法[J].计算机科学,2024,51(S02):486-494.

1王祖伟,刘雅明,王子璐,苗钰婷.中国北方典型设施菜地土壤稀土元素分布特征及环境意义[J].环境科学,2022,43(4):2071-2080. 被引量：6
2高建勇,朱云龙.水力压裂基本顶沿空留巷顶板变形特征研究[J].中国矿业,2022,31(6):124-131. 被引量：5
3蔡炎森.教学做合一:谈小学语文写作教学优化研究[J].课堂内外（小学教研）,2022(10):65-67.
4王艳阳,童华敏,刘子旻,李黄强,韩露,朱江.基于仿射区间潮流算法的电网消纳指标研究[J].湖北工业大学学报,2022,37(2):37-43. 被引量：1
5叶宇剑,袁泉,刘文雯,汤奕,Goran Strbac.基于参数共享机制多智能体深度强化学习的社区能量管理协同优化[J].中国电机工程学报,2022,42(21):7682-7694. 被引量：9
6唐杰,朱茂桃.采用锯齿结构的车辆冷却风扇降噪研究[J].重庆理工大学学报（自然科学）,2022,36(10):100-110. 被引量：1
7宋佳,张运吉,郑亦成,杨艺.艰难的进阶者:大学博士后工作时间分配与角色身份认知[J].中国人民大学教育学刊,2022(4):51-68. 被引量：5
8薛粒.轻松玩转微课,优化初中英语教学[J].教育艺术,2022(11):59-59. 被引量：1
9陈钧吾,余华山.面向无尺度图的Δ-stepping算法改进策略[J].计算机科学,2022,49(S01):594-600.

计算机科学

2022年第S02期

浏览历史

内容加载中请稍等...

R-YOLOv5:自动切割的旋转的文本检测模型被引量：1

参考文献13

二级参考文献22

共引文献97

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

R-YOLOv5:自动切割的旋转的文本检测模型 被引量：1

参考文献13

二级参考文献22

共引文献97

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

R-YOLOv5:自动切割的旋转的文本检测模型被引量：1