您的位置：首頁 >聚焦 >

每日速訊：Efficient-HRNet | EfficientNet思想+HRNet技術(shù)會不會更強更快呢？

2022-12-04 13:44:27 來源：程序員客棧

許多新興智能物聯(lián)網(wǎng)應(yīng)用對輕量級多人姿勢估計的需求越來越大。然而，現(xiàn)有算法往往具有較大的模型尺寸和密集的計算需求，使得它們不適合實時應(yīng)用和在資源受限的硬件上部署。輕量級和實時的方法非常罕見，更多都是以低的精度為代價。

(相關(guān)資料圖)
在本文中提出了EfficientHRNet，這是一個輕量級多人人體姿勢估計器，能夠在資源受限的設(shè)備上實時執(zhí)行。通過將模型縮放的最新進展與高分辨率特征表示相結(jié)合，EfficientHRNet可以創(chuàng)建高精確的模型，同時減少計算量以實現(xiàn)實時性能。最大的模型能夠達到當(dāng)前最先進技術(shù)的4.4%的精度差距以內(nèi)，同時具有1/3的模型尺寸和1/6的計算，在Nvidia Jetson Xavier上達到23 FPS。與頂級實時方法相比，EfficientHRNet提高了22%的精度，同時以1/3的功率實現(xiàn)了類似的FPS。在每一個層面上，EfficientHRNet都被證明比其他自下而上的2D人體姿勢估計方法更具計算效率，同時達到了極具競爭力的精度。

1、簡介

2D人體姿態(tài)估計是許多流行的智能應(yīng)用程序中常用的任務(wù)，近年來取得了長足進展。2D人體姿態(tài)估計有兩種主要方法。第一種是自上而下的方法，其中提供了人類的裁剪圖像，網(wǎng)絡(luò)使用這些裁剪圖像生成人類關(guān)鍵點。自頂向下方法依賴于目標(biāo)檢測器來提供初始人類作物，因此它們通常具有相對較高的計算成本，并且不是真正的端到端方法。第二種是自下而上的方法，網(wǎng)絡(luò)從原始圖像開始工作，并為圖像中的所有人生成人類關(guān)鍵點。雖然這些方法往往達不到最先進的自頂向下方法所能達到的精度，但它們的模型大小和計算開銷相對較低。即使如此，最先進的自下而上方法仍然相當(dāng)大，計算成本也很高。目前的最先進技術(shù)有6380萬個參數(shù)，需要1543億浮點運算。

許多新興的物聯(lián)網(wǎng)（IoT）應(yīng)用程序需要在攝像機旁邊的邊緣進行輕量級實時多人姿勢估計。這在廣泛的智能互聯(lián)應(yīng)用程序中更為明顯，這些應(yīng)用程序需要持續(xù)的人類活動分析和行為監(jiān)控。視頻監(jiān)控、患者監(jiān)控和公共安全等例子很少。所有這些應(yīng)用程序都需要能夠在物聯(lián)網(wǎng)邊緣設(shè)備上靠近攝像頭運行的靈活但高度準(zhǔn)確的人體姿勢估計。盡管如此，對于開發(fā)能夠在有限的計算資源下實時執(zhí)行的輕量級自下而上方法，卻缺乏關(guān)注。為了解決這一差距，需要一系列輕量級實時人體姿勢估計模型，這些模型的精度與最先進的方法相當(dāng)。

在本文中提出了EfficientHRNet，這是一個輕量級可擴展網(wǎng)絡(luò)家族，用于高分辨率和高效的實時自下而上的多人姿勢估計。EfficientHRNet統(tǒng)一了最先進的EfficientNet和HRNet的原理，并提出了一種新的公式，可以實現(xiàn)接近最先進的人體姿勢估計，同時比所有其他自下而上的方法更具計算效率。

與HRNet類似，EfficientHRNet使用多種功能分辨率來生成關(guān)鍵點，但效率更高。同時，它使用EfficientNet作為主干，并調(diào)整其縮放方法，以更好地適合人類姿勢估計。為了實現(xiàn)輕量級實時執(zhí)行，EfficientHRNet進一步擴展了EfficientNet公式，不僅可以縮小基線，還可以聯(lián)合縮小輸入分辨率、高分辨率網(wǎng)絡(luò)和熱圖預(yù)測網(wǎng)絡(luò)。通過這一點能夠創(chuàng)建一系列網(wǎng)絡(luò)，這些網(wǎng)絡(luò)能夠解決實時2D人體姿勢估計的整個領(lǐng)域，同時能夠靈活滿足應(yīng)用程序的精度和計算要求。

作者評估了COCO數(shù)據(jù)集的準(zhǔn)確性和英偉達NX Xavier的實時性能。圖1展示了本文的模型如何在較低的計算成本下提供與直接模型相同或更高的精度。

與最先進的模型相比，基線EfficientNet在精度方面具有競爭力，但需要的計算量要少得多，因此推斷速度更快。與HRNet相比，EfficientHRNet的精度提高了0.4%，同時計算需求減少了34%。與HigherHRNet和PersonLab相比，EfficientHRNet的準(zhǔn)確度下降了1.7%至5.1%，計算需求下降了83%至93%，令人印象深刻。這導(dǎo)致FPS比HigherHRNet增加3.4倍。

即使與專門為輕量級執(zhí)行而設(shè)計的模型（如lightweight OpenPose）相比，縮小的EfficientHRNet也能夠?qū)崿F(xiàn)10.1%的精度超越，同時進一步減少15%的計算量，保持相似的FPS。

此外，已在ImageNet上對縮小的主干模型進行了單獨評估。結(jié)果表明，在取得比同行更高的效率的同時，具有競爭力的準(zhǔn)確性。

總之，本文有以下貢獻：

將EfficientHRNet作為第一種方法為自下而上的實時多人2D人體姿勢估計提供輕量級、可縮放的模型，從而達到與最先進技術(shù)相當(dāng)?shù)木?。提出了一種新的公式，將EfficientNet的可擴展性整合到整個高分辨率網(wǎng)絡(luò)中，以降低計算復(fù)雜性并允許實時執(zhí)行。是第一個提供向下縮放公式創(chuàng)建一系列緊湊的EfficientNet模型，這些模型可擴展到計算能力受限的嵌入式和邊緣物聯(lián)網(wǎng)設(shè)備的基線以下。對具有挑戰(zhàn)性的COCO數(shù)據(jù)集進行了全面分析，以顯示模型在準(zhǔn)確性、模型大小、計算復(fù)雜性、效率和實時執(zhí)行方面與最先進和實時方法的對比情況。對最先進的嵌入式物聯(lián)網(wǎng)GPU（Nvidia Jetson NX）進行了廣泛的性能分析，以證明EfficientHRNet相對于現(xiàn)有算法的執(zhí)行優(yōu)勢。2、相關(guān)工作2.1、Top-down Methods

自頂向下的方法依賴于首先使用對象檢測器識別圖像中的所有人，然后在定義的邊界框內(nèi)檢測單個人的關(guān)鍵點。這些單人和多人姿勢估計方法通常使用對象檢測器生成人物邊界框。例如，RMPE在單人姿勢估計器疊加沙漏網(wǎng)絡(luò)的基礎(chǔ)上添加對稱空間變換網(wǎng)絡(luò)，以從不精確的邊界框中獲得高質(zhì)量的區(qū)域，然后使用參數(shù)非最大值抑制檢測姿勢。

2.2、Bottom-up Methods

自底向上方法檢測圖像中的無身份關(guān)鍵點，并使用各種關(guān)鍵點分組技術(shù)將其分組為人。方法類似于并通過整數(shù)線性程序和非最大值抑制執(zhí)行分組。與具有幾乎相似精度的自頂向下方法相比，這允許更快的推理時間。其他方法通過使用貪婪分組技術(shù)以及其他優(yōu)化進一步改進預(yù)測時間。例如，OpenPose是一個多階段網(wǎng)絡(luò)，其中一個分支以熱圖的形式檢測關(guān)鍵點，而另一個分支生成用于將關(guān)鍵點彼此關(guān)聯(lián)的Part Affinity Fields。

分組是通過計算所有關(guān)鍵點之間的線積分并對積分最高的一對進行分組來完成的。輕量級OpenPose用MobileNet取代更大的主干網(wǎng)，以更少的參數(shù)和FLOP實現(xiàn)實時性能，同時降低準(zhǔn)確性。PifPaf使用“零件強度場”檢測身體部位，使用“零件關(guān)聯(lián)場”將零件相互關(guān)聯(lián)以形成人體姿勢。堆疊沙漏網(wǎng)絡(luò)用于預(yù)測熱圖和分組關(guān)鍵點。

分組是通過為每個關(guān)鍵點分配一個嵌入（稱為標(biāo)記），然后根據(jù)標(biāo)記向量之間的L2距離關(guān)聯(lián)這些關(guān)鍵點來完成的。

2.3、Multi-scale High-Resolution Networks

特征金字塔網(wǎng)絡(luò)增強了多尺度表示，廣泛應(yīng)用于復(fù)雜和必要的計算機視覺應(yīng)用，如分割和姿勢估計。使用上采樣、擴展卷積和反卷積等技術(shù)恢復(fù)高分辨率特征圖在目標(biāo)檢測、語義分割和姿勢估計方面也非常流行。此外，有幾項工作側(cè)重于直接生成高分辨率特征圖。

HRNet建議在整個網(wǎng)絡(luò)中維護高分辨率特征圖。HRNet由跨多個階段具有不同分辨率的多個分支組成。通過多尺度融合，HRNet能夠生成高分辨率的特征地圖，并將其應(yīng)用于目標(biāo)檢測、語義分割和姿勢估計，從而獲得顯著的精度。

最近，提出了用于多人姿勢估計的HigherHRNet，它使用HRNet作為基礎(chǔ)網(wǎng)絡(luò)來生成高分辨率特征圖，并進一步添加了反卷積模塊來預(yù)測準(zhǔn)確、高質(zhì)量的熱力圖。HigherHRNet在COCO數(shù)據(jù)集上實現(xiàn)了一流的精度，超過了所有現(xiàn)有的自底向上方法。本文采用HigherHRNet原理，通過多尺度融合生成高分辨率特征圖預(yù)測高質(zhì)量的熱力圖。

2.4、Model Scaling

以前關(guān)于自底向上姿勢估計的工作通常依賴于大型主干網(wǎng)絡(luò)，如ResNet或VGGNet，或大輸入分辨率和多尺度訓(xùn)練，以達到最先進的精度。最近的一些工作表明，增加其他相同模型的通道尺寸可以進一步提高精度。EfficientNet和RegNet表明，通過聯(lián)合縮放網(wǎng)絡(luò)寬度、深度和輸入分辨率，與以前使用更大模型的先進網(wǎng)絡(luò)相比，可以實現(xiàn)更好的圖像分類效率。最近，EfficientNet的精簡模型刪除了一些元素，例如squeeze and excite層和swish層，使網(wǎng)絡(luò)更加硬件友好。

受EfficientNet啟發(fā)，EfficientDet提出了一種用于目標(biāo)檢測的復(fù)合縮放方法以及高效的多尺度特征融合。對于多人姿勢估計，尤其是嵌入式設(shè)備，缺乏有效的縮放方法。對于注重實時性能的計算機視覺應(yīng)用，需要具有可擴展性和相對精確性的輕量級姿態(tài)估計模型。作者提出的復(fù)合縮放也受到了EfficientNet的啟發(fā)，是一種聯(lián)合縮放EfficientHRNet的寬度、深度和輸入分辨率以及高分辨率模塊內(nèi)的重復(fù)的方法。此外，這種復(fù)合縮放允許EfficinentNet主干擴展到B0以下，從而創(chuàng)建更輕的模型。

2.5、Real-Time Pose Estimation

雖然該領(lǐng)域的大多數(shù)工作都側(cè)重于孤立的準(zhǔn)確性，但最近的一些工作已經(jīng)發(fā)展起來，將重點更多地轉(zhuǎn)移到實時推斷上。專注于實時執(zhí)行，使用密集連接的殘差模塊和高分辨率特征圖，實現(xiàn)精確和輕量級的單人姿勢估計，能夠在Nvidia 1080TI上實現(xiàn)39 FPS。Lightweight OpenPose將OpenPose修改為使用MobileNet主干和更少的細化階段，并使用Intel OpenVINO Toolkit在Intel NUC 6i7KYB上獲得28 FPS。Nvidia還專注于實時推理，發(fā)布了trt位姿，這是一種使用TensorRT和DeepStream優(yōu)化的單人位姿估計模型，在英偉達Jetson Xavier上實現(xiàn)了高達251幀/秒的速度。

3、本文方法3.1、Network Architecture and Formulation1、Backbone Network

EfficientHRNet的第一個階段是主干，由修改后的EfficientNet組成，其比例低于基線。主干輸出四個不同分辨率的特征圖，分辨率為輸入圖像大小的1/4、1/8、1/16和1/32。這些特征圖被傳遞到網(wǎng)絡(luò)主體中，稱為高分辨率網(wǎng)絡(luò)。

2、High-Resolution Network

高分辨率網(wǎng)絡(luò)的靈感來自HRNet和HigherHRNet。借用這些高分辨率網(wǎng)絡(luò)的原理帶來了兩大優(yōu)勢：

通過在整個網(wǎng)絡(luò)中維護多個高分辨率特征表示，可以生成具有更高空間精度的熱力圖。重復(fù)的多尺度融合允許高分辨率特征表示通知低分辨率表示，反之亦然，從而產(chǎn)生理想的魯棒多分辨率特征表示用于多人姿勢估計。

圖2顯示了EfficientHRNet的詳細架構(gòu)圖。它顯示了3個子網(wǎng)絡(luò)：主干網(wǎng)絡(luò)、高分辨率網(wǎng)絡(luò)和熱圖預(yù)測網(wǎng)絡(luò)。它還提供了顯示網(wǎng)絡(luò)如何縮放輸入分辨率和特征圖寬度的方程。

高分辨率網(wǎng)絡(luò)有3個階段、和，包含4個不同分辨率的并行分支、、和。第一階段從兩個分支和開始，每個連續(xù)階段添加一個額外的分支，直到所有4個分支都出現(xiàn)在中。這4個分支分別由寬度為的高分辨率模塊組成。每個分支都包含反映主干網(wǎng)絡(luò)輸出分辨率的降低分辨率的特征表示，如圖2和以下等式所示：

例如，第2級（）有3個分支，分辨率為原始輸入圖像分辨率的1/4、1/8和1/16，寬度為。此外，每個高分辨率模塊由多個塊組成，每個塊包含2個殘差塊，每個殘差塊通過殘差連接執(zhí)行3次卷積操作。

3、Heatmap Prediction Network

熱力圖預(yù)測網(wǎng)絡(luò)用于生成人類關(guān)鍵點預(yù)測。為了預(yù)測更準(zhǔn)確的熱力圖，在高分辨率網(wǎng)絡(luò)的頂部添加了一個DeConv塊。轉(zhuǎn)置卷積用于生成高質(zhì)量的特征圖，其分辨率為原始輸入分辨率的1/2。DeConv塊的輸入是特征圖和來自高分辨率網(wǎng)絡(luò)的預(yù)測熱圖的串聯(lián)，如下式所示：

反卷積后添加兩個殘差塊，以細化上采樣特征圖。在DeConv塊之后，使用1×1卷積預(yù)測熱力圖和標(biāo)記圖，每個熱力圖的特征圖大小如下所示：

分組過程通過將標(biāo)簽具有最小L2距離的關(guān)鍵點分組，將關(guān)鍵點分組為多個人。高分辨率網(wǎng)絡(luò)具有尺度感知能力，在訓(xùn)練期間對熱圖使用多分辨率監(jiān)控，使網(wǎng)絡(luò)能夠更精確地學(xué)習(xí)，即使是對小尺度人也是如此。根據(jù)GT生成不同分辨率的熱力圖，以匹配不同尺度的預(yù)測關(guān)鍵點。

因此，最終熱力圖損失是所有分辨率的均方誤差之和。然而，由于高分辨率標(biāo)記映射不能很好地收斂，標(biāo)記映射的分辨率是原始輸入分辨率的1/4。

3.2、Compound Scaling Method

本節(jié)詳細介紹了復(fù)合縮放方法，該方法可聯(lián)合縮放EfficientHRNet的所有部分，如圖2和表1所示。EfficientHRNet的目標(biāo)是提供一系列針對精度和效率進行優(yōu)化的模型，這些模型可以縮放以滿足不同的內(nèi)存和計算約束集。

以前關(guān)于自下而上的人體姿勢估計和語義分割的工作主要通過使用更大的主干網(wǎng)絡(luò)（如ResNet和VGGNet）、使用較大的輸入圖像大小或使用多尺度訓(xùn)練來實現(xiàn)高精度來縮放基礎(chǔ)網(wǎng)絡(luò)。然而，這些方法僅依賴于單個維度的縮放，其效果有限。

最近的研究表明，通過聯(lián)合縮放寬度、深度和輸入圖像分辨率，圖像分類具有顯著的性能。受EfficientNet啟發(fā)，EfficientDet提出了一種類似的目標(biāo)檢測復(fù)合縮放方法，它聯(lián)合縮放主干網(wǎng)絡(luò)、多尺度特征網(wǎng)絡(luò)和目標(biāo)檢測器網(wǎng)絡(luò)。

本文使用EfficientHRNet為計算機視覺應(yīng)用提出了一種基于啟發(fā)式的復(fù)合縮放方法，特別是自底向上的人體姿勢估計和語義分割。EfficientHRNet的方法使用縮放系數(shù)來聯(lián)合縮放主干網(wǎng)絡(luò)、高分辨率網(wǎng)絡(luò)和任務(wù)頭。更準(zhǔn)確地說，EfficientNet主干網(wǎng)的規(guī)?？s小到基線以下，而EfficicentHRNet的其余部分則縮小到基線之下，以便在創(chuàng)建輕量級靈活網(wǎng)絡(luò)的同時保持接近最先進的準(zhǔn)確性。

1、Backbone Network

寬度和深度縮放系數(shù)與EfficientNet保持相同。為了滿足在受限設(shè)備上運行模型的需求，提供了一種新的公式，用于將EfficientNet擴展到基線以下，并使其成為更緊湊的模型。

從基線EfficientNet-B0縮放系數(shù)開始：

（=-1，-2，-3，-4）被倒置，以計算緊湊型EfficientNet模型的縮放倍數(shù)，其符號為，，和。例如，為了獲得基線分辨率224，并針對，從（4）中取r，=?1可以得到分辨率縮放系數(shù)為，即0.87，那么縮放分辨率大小ceil（224?0.87）=195。此模式對到重復(fù)，可以在表2中看到訓(xùn)練這些緊湊的EfficientNet模型（到）并使用EfficientHRNet中主干網(wǎng)絡(luò)的結(jié)果模型。

2、High-Resolution Network

高分辨率網(wǎng)絡(luò)有3個階段和4個分支，具有4種不同的特征圖尺寸。每個分支n也有不同的寬度，基線模型每個分支的寬度分別為32、64、128和256。有選擇地選取1.25的寬度比例因子，并使用以下公式縮小寬度：

其中n是一個特定的分支數(shù)，是復(fù)合標(biāo)度系數(shù)。

此外，在每個階段內(nèi)，每個高分辨率模塊都有多個重復(fù)多次的塊Msn，如表1所示。在基線EfficientHRNet模型中，每個階段內(nèi)的塊分別重復(fù)1、4和3次。作者發(fā)現(xiàn)第三階段的重復(fù)次數(shù)對準(zhǔn)確度的影響最大。因此，隨著模型的縮小，高分辨率模塊內(nèi)的重復(fù)次數(shù)呈線性減少，從第2階段開始，直到達到單個重復(fù)，然后再轉(zhuǎn)到第3階段，如表1所示。

3、Heatmap Prediction Network

DeConv塊的縮放方式與高分辨率網(wǎng)絡(luò)的寬度相同（5）。熱圖預(yù)測網(wǎng)絡(luò)輸出標(biāo)簽和熱圖，其寬度在所有模型中保持不變。

4、Input Image Resolution

EfficientNet將原始輸入圖像分辨率分層采樣降低32倍。因此，EfficientHRNet的輸入分辨率必須可除以32，并按線性比例縮小，如下式所示：

4、實驗4.1、ImageNet4.2、COCO-Pose4.3、可視化結(jié)果5、參考

[1].EfficientHRNet:Efficient and Scalable High-Resolution Networks for Real-Time Multi-Person 2D Human Pose Estimation.

6、推薦閱讀

輕量級網(wǎng)絡(luò)論文-VoVNet詳解

DETR也需要學(xué)習(xí) | DETR-Distill模型蒸餾讓DETR系類模型持續(xù)發(fā)光發(fā)熱?。?！

目標(biāo)檢測落地技能 | 擁擠目標(biāo)檢測你是如何解決的呢？改進Copy-Paste解決擁擠問題！

掃描上方二維碼可聯(lián)系小書童加入交流群~

想要了解更多前沿AI視覺感知全棧知識【分類、檢測、分割、關(guān)鍵點、車道線檢測、3D視覺（分割、檢測）、多模態(tài)、目標(biāo)跟蹤、NerF】、行業(yè)技術(shù)方案【AI安防、AI醫(yī)療、AI自動駕駛以及AI元宇宙】、AI模型部署落地實戰(zhàn)【CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平線框架等】，歡迎掃描下方二維碼，加入集智書童知識星球，日常分享論文、學(xué)習(xí)筆記、問題解決方案、部署方案以及全棧式答疑，期待交流！

關(guān)鍵詞：高分辨率最先進的自下而上