尤物视频网站_国产精品成人在亚洲_国产成人亚洲综合无码不卡精品_丁香五月香婷婷五月_亚洲成AV人片高潮喷水

您的位置:首頁 >聚焦 >

DiffusionDet: Diffusion Model for Object Detection

2022-11-25 07:32:07    來源:程序員客棧
1. 論文信息

標(biāo)題:DiffusionDet: Diffusion Model for Object Detection


(資料圖片僅供參考)

作者:Shoufa Chen, Peize Sun, Yibing Song, Ping Luo

原文鏈接:https://arxiv.org/abs/2211.09788

代碼鏈接:https://github.com/ShoufaChen/DiffusionDet

2. 引言

擴(kuò)散模型(diffusion models)在利用深度網(wǎng)絡(luò)的生成模型中,取得了非常不錯的成績,達(dá)到了SOTA的水準(zhǔn)。而且擴(kuò)散模型在圖片生成任務(wù)中超越了原SOTA:GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn)。而擴(kuò)散模型在生成模型中的成功經(jīng)驗(yàn)不禁讓人好奇,其能否在計(jì)算機(jī)視覺的判別模型中,同樣發(fā)揮出較好的效果。最近來自騰訊和HKU的一份工作給出了肯定的答案。

首先簡單回顧下最近目標(biāo)檢測(object detection)的趨勢。目標(biāo)檢測的目的是在一個(gè)圖像中,預(yù)測一組bounding box和相關(guān)的class label。作為一項(xiàng)基本的視覺識別任務(wù),它已經(jīng)成為許多相關(guān)識別場景的基石?,F(xiàn)有的目標(biāo)檢測方法隨著候選的bounding box的選取方式的發(fā)展而不斷發(fā)展,即從經(jīng)驗(yàn)的先驗(yàn)知識到設(shè)立參數(shù)來進(jìn)行回歸目標(biāo)的學(xué)習(xí)。在CNN時(shí)代,大多數(shù)檢測器通過在經(jīng)驗(yàn)設(shè)計(jì)的候選對象上定義回歸和分類來解決檢測任務(wù)。最近,DETR提出了可學(xué)習(xí)對象query,消除手工設(shè)計(jì)的組件,在我的觀點(diǎn)里,這是第一次成功建立端到端目標(biāo)檢測的方法。

本文就提出了一個(gè)新的疑問:: is there a simpler approach that does not even need the surrogate of learnable queries? 就是能不能有一種簡單的方法來完成科學(xué)系的查詢,同時(shí)也不需要生成surrogate?;赿iffusion的相關(guān)知識,論文通過設(shè)計(jì)一個(gè)新穎的框架來回答這個(gè)問題,該框架可以直接從一組隨機(jī)框中檢測object。我們希望從純隨機(jī)的box中(如純粹的高斯噪聲)開始,逐步refine這些boxes的位置和大小,直到它們完美地覆蓋目標(biāo)對象。這種從噪聲到盒子的方法不需要啟發(fā)式的對象先驗(yàn),也不需要可學(xué)習(xí)的查詢,進(jìn)一步簡化了對象候選。從完全隨機(jī)的noise到盒范式的原理類似于去噪擴(kuò)散模型中的噪聲到圖像過程[15,35,79],這是一類基于似然的模型,通過學(xué)習(xí)到的去噪模型逐步去除圖像中的噪聲來生成圖像。

從下圖可以看出來,由于采用了diffusion的結(jié)構(gòu),這個(gè)模型沒有利用任何anchor選取上的先驗(yàn),也不是像完全的可學(xué)習(xí)參數(shù)一樣,需要進(jìn)行相應(yīng)的初始化,再消耗較長的時(shí)間來進(jìn)行調(diào)整。

其實(shí)論文提出的模型非常簡單但經(jīng)典,就是目標(biāo)檢測中常用的backbone+neck。論文主要聚焦于訓(xùn)練策略與推理策略上的調(diào)整和改進(jìn),其實(shí)可以視為在給定現(xiàn)有檢測網(wǎng)絡(luò)的前提下所探索的新的網(wǎng)絡(luò)優(yōu)化方式。

3. 方法

首先論文回顧了目標(biāo)檢測和diffusion model的基礎(chǔ)知識。目標(biāo)檢測的內(nèi)容應(yīng)該大家都比較熟悉,就不再回顧了。而diffusion model的形式如下:

擴(kuò)散模型是一類受非平衡熱力學(xué)啟發(fā)的基于likelihood的模型。這些模型通過逐漸向樣本數(shù)據(jù)添加噪聲,定義了馬爾可夫擴(kuò)散前向過程鏈。

如上圖,論文的結(jié)構(gòu)其實(shí)非常的簡單。首先利用image的encoder從輸入image中提取相應(yīng)的特征。檢測的decoder則是以noise的boxes為輸入,來預(yù)測類別的label和目標(biāo)檢測框的坐標(biāo)。在訓(xùn)練過程中,將高斯噪聲添加到ground-truth的noise box中,來構(gòu)造相應(yīng)的結(jié)構(gòu)。在inference中,噪聲的框則從高斯噪聲采樣中得到。

其實(shí)結(jié)構(gòu)很簡單,關(guān)鍵是訓(xùn)練和測試的算法步驟,這篇論文的寫作同樣值得學(xué)習(xí),組織的非常好,來看偽代碼:

在訓(xùn)練階段:

Ground truth boxes padding. ROI的數(shù)量在不同圖像中也不完全一致。因此,本文首先將一些額外的框填充到原始真值框中,使所有框相加為固定數(shù)量。

Box corruption. 我們將高斯噪聲添加到填充的真值框中。噪聲尺度由α控制,α在不同的時(shí)間步長t中采用單調(diào)遞減的cosine值。

Training losses. 目標(biāo)檢測器將N個(gè)框作為輸入,并預(yù)測類別分類和框坐標(biāo)。論文將set prediction loss應(yīng)用于預(yù)測集合。我們通過最優(yōu)運(yùn)輸分配方法選擇成本最小的前k個(gè)預(yù)測,為每個(gè)真值框分配多個(gè)預(yù)測。

在推理階段:

Sampling step. 在每個(gè)采樣步驟中,來自最后采樣步驟的隨機(jī)框或估計(jì)框被送到檢測解碼器,以預(yù)測類別和邊界框坐標(biāo)。

Box renewal. 在每個(gè)采樣步驟之后,可以將預(yù)測的框粗略地分類為兩種類型,期望的和不期望的預(yù)測。期望的預(yù)測包含正確定位在相應(yīng)對象上的框,而不期望的預(yù)測任意分布。

Once-for-all. 由于隨機(jī)框的設(shè)計(jì),方法可以使用任意數(shù)量的隨機(jī)框和采樣步驟來評估DiffusionDet。

4. Experiments

論文的結(jié)果似乎也很讓人滿意,成功地展示了diffusion model在感知任務(wù)上的優(yōu)化也是可行的。而ResNet-50的最好結(jié)果為46.2,似乎也說明了對于感知任務(wù),似乎特征才是最為最為關(guān)鍵的,優(yōu)化方式的改進(jìn)似乎沒有想象中的那么有效果。

消融實(shí)驗(yàn)中值得關(guān)注的是,不同于其他的目標(biāo)檢測方法,本文提出的方法如果增加step,速度顯著變慢的情況瞎,AP上漲的幅度也不大,所以這個(gè)trade-off做的可能不是特別到位。

5. Conclusion

在這項(xiàng)工作中,論文提出了一種新的檢測范式DiffusionDet,通過將目標(biāo)檢測視為從噪聲框到目標(biāo)框的去噪擴(kuò)散過程。我們的noise-to-box框架具有幾個(gè)吸引人的特性。在標(biāo)準(zhǔn)檢測baseline上進(jìn)行充足的實(shí)驗(yàn)后,可以發(fā)現(xiàn)DiffusionDet實(shí)現(xiàn)了良好的性能。為了進(jìn)一步探索擴(kuò)散模型解決對象級識別任務(wù)的潛力,未來的幾項(xiàng)工作是有益的。

關(guān)鍵詞: 目標(biāo)檢測 的前提下 擴(kuò)散過程

相關(guān)閱讀