超越YOLO! RT-DETR 实时目标检测技术介绍

《博主简介》

小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。
更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~
👍感谢小伙伴们点赞、关注!

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称项目名称
1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】8.【基于YOLOv8深度学习的行人跌倒检测系统】
9.【基于YOLOv8深度学习的PCB板缺陷检测系统】10.【基于YOLOv8深度学习的生活垃圾分类目标检测系统】
11.【基于YOLOv8深度学习的安全帽目标检测系统】12.【基于YOLOv8深度学习的120种犬类检测与识别系统】
13.【基于YOLOv8深度学习的路面坑洞检测系统】14.【基于YOLOv8深度学习的火焰烟雾检测系统】
15.【基于YOLOv8深度学习的钢材表面缺陷检测系统】16.【基于YOLOv8深度学习的舰船目标分类检测系统】
17.【基于YOLOv8深度学习的西红柿成熟度检测系统】18.【基于YOLOv8深度学习的血细胞检测与计数系统】
19.【基于YOLOv8深度学习的吸烟/抽烟行为检测系统】20.【基于YOLOv8深度学习的水稻害虫检测与识别系统】
21.【基于YOLOv8深度学习的高精度车辆行人检测与计数系统】22.【基于YOLOv8深度学习的路面标志线检测与识别系统】
23.【基于YOLOv8深度学习的智能小麦害虫检测识别系统】24.【基于YOLOv8深度学习的智能玉米害虫检测识别系统】
25.【基于YOLOv8深度学习的200种鸟类智能检测与识别系统】26.【基于YOLOv8深度学习的45种交通标志智能检测与识别系统】
27.【基于YOLOv8深度学习的人脸面部表情识别系统】28.【基于YOLOv8深度学习的苹果叶片病害智能诊断系统】
29.【基于YOLOv8深度学习的智能肺炎诊断系统】30.【基于YOLOv8深度学习的葡萄簇目标检测系统】
31.【基于YOLOv8深度学习的100种中草药智能识别系统】32.【基于YOLOv8深度学习的102种花卉智能识别系统】
33.【基于YOLOv8深度学习的100种蝴蝶智能识别系统】34.【基于YOLOv8深度学习的水稻叶片病害智能诊断系统】
35.【基于YOLOv8与ByteTrack的车辆行人多目标检测与追踪系统】36.【基于YOLOv8深度学习的智能草莓病害检测与分割系统】
37.【基于YOLOv8深度学习的复杂场景下船舶目标检测系统】38.【基于YOLOv8深度学习的农作物幼苗与杂草检测系统】
39.【基于YOLOv8深度学习的智能道路裂缝检测与分析系统】40.【基于YOLOv8深度学习的葡萄病害智能诊断与防治系统】
41.【基于YOLOv8深度学习的遥感地理空间物体检测系统】42.【基于YOLOv8深度学习的无人机视角地面物体检测系统】
43.【基于YOLOv8深度学习的木薯病害智能诊断与防治系统】44.【基于YOLOv8深度学习的野外火焰烟雾检测系统】
45.【基于YOLOv8深度学习的脑肿瘤智能检测系统】46.【基于YOLOv8深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于YOLOv8深度学习的橙子病害智能诊断与防治系统】48.【车辆检测追踪与流量计数系统】
49.【行人检测追踪与双向流量计数系统】50.【基于YOLOv8深度学习的反光衣检测与预警系统】
51.【危险区域人员闯入检测与报警系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

引言

img

在实时目标检测上,RT-DETR击败了YOLO。其核心改进如下:

  • 实时设计模型(RT-DETR)基于两个步骤提出:专注于在提高速度的同时保持精度,然后在提高精度的同时保持速度。
  • 高效的混合编码器旨在通过解耦尺度内相互作用和跨尺度融合来快速处理多尺度特征,以提高速度。
  • 然后,提出不确定性最小查询选择,为解码器提供高质量的初始查询,从而提高精度;

1. YOLO存在的问题

img

  • 非极大值抑制NMS的执行时间主要取决于检测框数和两个阈值。
  • 随着置信度阈值的增加,更多的预测框被过滤掉,需要计算IoU的剩余框数减少,从而减少了NMS的执行时间。
  • 另一个观察结果是,无锚探测器的性能优于基于锚的探测器,其精度与YOLO探测器相当,因为前者比后者需要更少的NMS时间。

2. RT-DETR介绍

2.1. 概述

img

  • 主干 {S3,S4,S5} 最后三级的特征被输送到编码器中。
  • 高效的混合编码器通过尺度内特征交互AIFI跨尺度特征融合CCFF,将多尺度特征转化为一系列图像特征。
  • 随后,采用不确定性最小查询选择来选择固定数量的编码器特征作为解码器的初始对象查询。
  • 最后,带有辅助检测头的解码器迭代优化对象查询以生成类别和框。

2.2. 高效混合编码器

img

  • 编码器占 GFLOP 的 49%,但在可变形 DETR 中仅贡献 11% 的 AP。需要优化的编码器设计。
  • A:DINO-Deformable-R50具有更小尺寸的数据编码器和更轻的解码器。
  • A → B:变体 B 将单尺度 Transformer 编码器插入 A,该编码器使用一层 Transformer 模块。多尺度要素共享编码器以进行尺度内特征交互,然后连接作为输出。
  • B → C:变体 C 引入了基于 B 的跨尺度特征融合,并将串联的特征输送到多尺度 Transformer 编码器中,以同时执行尺度内和跨尺度特征交互。
  • C → D:变体 D 通过前者使用单尺度 Transformer 编码器和后者使用 PANet 式结构,将尺度内相互作用和跨尺度融合解耦。

D → E:变体 E 采用了作者设计的高效混合编码器,增强了基于 D 的尺度内交互和跨尺度融合。

  • 提出了基于注意力的尺度内特征交互(AIFI)和基于CNN的跨尺度特征融合(CCFF)2个组成部分

2.2.1. AIFI尺度内特征交互

具体而言,AIFI通过仅在S5上与单尺度Transformer编码器执行尺度内交互,进一步降低了基于变体D的计算成本。

  • 在 S5 上使用 D 不仅可以显著降低延迟(提高 35%),还可以提高准确性(AP 提高 0.4%)。

2.2.2. CCFF跨尺度特征融合

img

  • 融合块的作用是将两个相邻的尺度特征融合成一个新特征,如上所述。
  • 使用两个 1 × 1 卷积来调整通道数,使用 N 个由 RepConv (RepVGG) 组成的 RepBlock 进行特征融合,并通过逐元加法融合双路径输出。
  • 混合编码器的配方如下:

img

2.3. 不确定性最小查询选择

  • 基于DETR的先前工作使用置信度分数来选择查询的前K个特征,这导致所选特征具有相当大的不确定性,导致解码器的初始化次优。

特征不确定性 U 定义为定位 P 与分类 C 的预测分布之间的差异,并添加到损失函数中。

img

img

  • 紫色和绿色点分别表示使用不确定性最小查询选择和普通查询选择训练的模型中的选定特征。

紫色的点集中在图的右上角,而绿色的点集中在右下角。这表明不确定性最小查询选择会产生更高质量的编码器特征。

2.4. 缩放的RT-DETR

  • 具体来说,对于混合编码器,宽度通过调整嵌入尺寸和通道数来控制,深度通过调整 Transformer 层数和 RepBlock 来控制。
  • 解码器的宽度和深度可以通过操作对象查询和解码器层的数量来控制。
  • 此外,RT-DETR的速度支持通过调整解码器层数进行灵活调整。

3. 实验结果

3.1. SOTA比较

img

  • 与YOLOv5-L / PP-YOLOE-L / YOLOv6-L相比,RT-DETR-R50将精度提高了4.1%/1.7%/0.3% AP,FPS提高了100.0%/14.9%/9.1%,参数数量减少了8.7%/19.2%/28.8%。
  • 与YOLOv5-X / PP-YOLOE-X相比,RT-DETR-R101的准确率提高了3.6%/2.0%,FPS提高了72.1%/23.3%,参数数量减少了11.6%/22.4%。
  • 与YOLOv7-L / YOLOv8-L相比,RT-DETR-R50将准确度提高了1.9%/0.2% AP,并将FPS提高了96.4%/52.1%。
  • 与YOLOv7-X / YOLOv8-X相比,RT-DETR-R101将准确度提高了1.4%/0.4% AP,并将FPS提高了64.4%/48.0%。

这表明所提出的RT-DETR实现了最先进的实时检测性能。

  • 与 DINO-Deformable-DETR-R50 相比,RT-DETR-R50 将精度提高了 2.2% AP,将速度提高了 21 倍(108 FPS 对 5 FPS),两者都得到了显着提高。

RT-DETR 在速度和精度方面都优于所有具有相同主干的 DETRs。

3.2. 消融研究

编码器变体

img

所提出的混合编码器在速度和精度之间实现了更好的权衡。

img

  • 通过不确定性最小查询选择选择的编码器特征不仅增加了高分类分数的比例(0.82% vs 0.35%),而且提供了更高质量的特征(0.67% vs 0.30%)。

不确定性最小查询选择实现了 0.8% AP 的改进(48.7% AP vs 47.9% AP)。

img

RT-DETR支持灵活的速度微调,无需重新训练即可调整解码器层数,从而提高其实用性。


关注文末名片G-Z-H:【阿旭算法与机器学习】,发送【开源】可获取更多学习资源

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/777663.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构+算法-实现一个计算器

在学习栈的数据结构的时候讲到可以用栈来实现一个计算器的功能,那么这个功能是如何实现的呢? 采用栈模拟得方式来实现一个计算器 要实现如下的功能: 字符串如何转为整数 2.处理加减法 如何处理加减法呢? 5-128 给第一个数字前面放一个号…

第四届BPAA算法大赛成功举办!共研算法未来

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

django高校教务系统-计算机毕业设计源码81661

目 录 摘要 1 绪论 1.1 研究背景 1.2目的及意义 1.3论文结构与章节安排 2 高校教务系统设计分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 2.4…

待研究课题记录

最近了解到两个新的有趣的节点,但是对于实际效果不是很确定,所以这里记录下,后续慢慢研究: 扰动注意力引导 Perturbed Attention Guidance GitHub - KU-CVLAB/Perturbed-Attention-Guidance: Official implementation of "…

Arthas实战(5)- 项目性能调优

1、接口耗时查询:trace命令 trace 命令能主动搜索 class-pattern/method-pattern 对应的方法调用路径,渲染和统计整个调用链路上的所有性能开销和追踪调用链路。 1.1 准备测试应用 新建一个 SpringBoot 应用,写一耗时久的代码&…

C语言编程与进阶

1.0 C语言关键字 1-1C语言关键字-CSDN博客文章浏览阅读831次,点赞13次,收藏24次。define使用define定义常量return 0;使用define定义宏// define 定义宏,名字是ADD(x,y),x y 是宏的参数int a 10;int b 20;return 0;宏定义的本质是替换&am…

VitePress美化

参考资料: https://blog.csdn.net/weixin_44803753/article/details/130903396 https://blog.csdn.net/qq_30678861/category_12467776.html 站点信息修改 首页部分的修改基本都在.vitepress/config.mts,这个文件内修改。 title 站点名称 description 描述 top…

基于Java技术的篮球论坛系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言 Java 数据库 MySQL 技术 B/S模式、Java技术 工具 Visual Studio、MySQL数据库开发工具 系统展示 首页 用户注册界面 篮球论坛界面 个人中心界面 摘要 本…

LLM - 循环神经网络(RNN)

1. RNN的关键点:即在处理序列数据时会有顺序的记忆。比如,RNN在处理一个字符串时,在对字母表顺序有记忆的前提下,处理这个字符串会更容易。就像人一样,读取下面第一个字符串会更容易,因为人对字母出现的顺序…

麦蕊智数,,另外一个提供免费的股票数据API,可以通过其提供的接口获取实时和历史的股票数据。

麦蕊智数,,提供免费的股票数据API,可以通过其提供的接口获取实时和历史的股票数据。 API接口:http://api.mairui.club/hslt/new/您的licence 备用接口:http://api1.mairui.club/hslt/new/您的licence 请求频率&#x…

宝可梦 第一到第五时代 神兽 幻兽 准神宝可梦盘点

小时候特别喜欢看宝可梦 也玩过一些宝可梦类游戏 而宝可梦中 大家最喜欢的莫过于神兽 今天 我们来盘点一下 宝可梦各世代的神兽 以及准神宝可梦 第一世代 一级神 超梦 属性: 超能力 是火箭队根据梦幻基因制造的一只人造传说宝可梦。 一直是一只热度非常高的宝可梦&#xf…

无人机有哪些关键技术?

一、控制技术 无人机的核心还是在控制上,飞控系统的可靠性、稳定性及可扩展性是其中重要的指标。可靠性上,除了器件选型之外,目前主要靠多余度来增加;稳定性主要体现在多场景下仍能保持良好的工作状态,主要靠算法来进…

PyQt5中如何实现指示灯点亮和指示灯熄灭功能

一般上位机界面都会涉及指示灯点亮和指示灯熄灭功能,从网上下载该功能的上位机界面,学习如何使用PyQt5搭建具备指示灯点亮和指示灯熄灭效果的界面。 1. 上位机界面的效果展示 使用PyQt5实现以下界面,界面效果如下,界面图片是从网…

浅识Jmeter与浅谈互联网公司高并发业务压测流程痛点

浅谈Jmeter 什么是Jmeter JMeter 是 Apache 软件基金会开发的一个开源软件,用于负载测试和性能测试。它被设计用来模拟多种请求到服务器、网络或对象,以测试其性能。JMeter 可以用于测试静态和动态资源,并且可以模拟各种协议的请求&#xf…

【JVM基础篇】Java的四种垃圾回收算法介绍

文章目录 垃圾回收算法垃圾回收算法的历史和分类垃圾回收算法的评价标准标记清除算法优缺点 复制算法优缺点 标记整理算法(标记压缩算法)优缺点 分代垃圾回收算法(常用)JVM参数设置使用Arthas查看内存分区垃圾回收执行流程分代GC算…

上万组风电,光伏,用户负荷数据分享

上万组风电,光伏,用户负荷数据分享 可用于风光负荷预测等研究 获取链接🔗 https://pan.baidu.com/s/1izpymx6R3Y8JsFdx42rL0A 提取码:381i 获取链接🔗 https://pan.baidu.com/s/1izpymx6R3Y8JsFdx42rL0A 提取…

【算法笔记自学】第 5 章 入门篇(3)——数学问题

5.1简单数学 #include <cstdio> #include <algorithm> using namespace std; bool cmp(int a,int b){return a>b; } void to_array(int n,int num[]){for(int i0;i<4;i){num[i]n%10;n /10;} } int to_number(int num[]){int sum0;for(int i0;i<4;i){sumsu…

计算组的妙用!!页面权限控制

需求描述&#xff1a; 某些特殊的场景下&#xff0c;针对某页看板&#xff0c;需要进行数据权限卡控&#xff0c;但是又不能对全部的数据进行RLS处理&#xff0c;这种情况下可以利用计算组来解决这个需求。 实际场景 事实表包含产品维度和销售维度 两个维度属于同一公司下面的…

搭建互联网医院实战:从源码到在线问诊APP的全流程开发

今天&#xff0c;笔者将讲述在线问诊APP的全流程开发&#xff0c;帮助开发者理解和掌握搭建互联网医院的核心技术和步骤。 一、需求分析与设计 需求分析包括明确目标用户、功能需求、性能需求等。设计阶段则包括系统架构设计、数据库设计和前后端界面设计等。 1.目标用户&…

柯桥职场英语学习商务英语口语生活英语培训生活口语学习

辣妹用英语怎么说&#xff1f; 辣妹在英语中通常被翻译为“hot girl”或“spicy girl”&#xff0c;但更常见和直接的是“hot chick”或简单地使用“hot”来形容。 举个例子: Shes a real hot girl with her trendy outfit and confident attitude. 她真是个辣妹&#xff0…