尤物视频网站_国产精品成人在亚洲_国产成人亚洲综合无码不卡精品_丁香五月香婷婷五月_亚洲成AV人片高潮喷水

您的位置:首頁(yè) >聚焦 >

今日熱文:60項(xiàng)基于深度學(xué)習(xí)的SLAM頂會(huì)開源方案匯總(下篇)

2022-12-30 18:50:19    來(lái)源:程序員客棧
點(diǎn)擊進(jìn)入—>3D視覺(jué)工坊學(xué)習(xí)交流群60項(xiàng)基于深度學(xué)習(xí)的SLAM頂會(huì)開源方案匯總(上篇)0. 筆者個(gè)人體會(huì)深度學(xué)習(xí)結(jié)合SLAM是近年來(lái)很熱門的研究方向,也因此誕生了很多開源方案。筆者最近在閱讀SLAM綜述論文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”,該綜述參考了255篇SLAM領(lǐng)域的頂會(huì)頂刊論文,并且涵蓋了VO、建圖、特征提取、定位、描述子提取、BA優(yōu)化、回環(huán)、數(shù)據(jù)集等多個(gè)方向,非常全面。本文將對(duì)該綜述中出現(xiàn)的開源方案進(jìn)行整理(2018年以后),并附上摘要和論文信息。雖然可能文章并不是最新的,但每項(xiàng)開源工作都是頂會(huì)頂刊,參考價(jià)值很高。由于方案較多,因此將分上下兩篇文章進(jìn)行介紹。上一節(jié)我們介紹了里程計(jì)、建圖、特征提取、SLAM、閉環(huán)檢測(cè)、數(shù)據(jù)集相關(guān)的開源項(xiàng)目,本節(jié)我們將繼續(xù)介紹定位、描述子提取、BA優(yōu)化相關(guān)的開源項(xiàng)目。一、定位全局定位在具有先驗(yàn)知識(shí)的已知場(chǎng)景中檢索移動(dòng)代理的全局位姿。這是通過(guò)將查詢輸入數(shù)據(jù)與預(yù)先構(gòu)建的2D或3D地圖、其他空間參考或之前訪問(wèn)過(guò)的場(chǎng)景進(jìn)行匹配來(lái)實(shí)現(xiàn)的。它可以用來(lái)減少航位推算系統(tǒng)的位姿漂移或解決“被綁架機(jī)器人”問(wèn)題。深度學(xué)習(xí)用于解決因視圖、光照、天氣和場(chǎng)景動(dòng)態(tài)、查詢數(shù)據(jù)和地圖之間的變化而變得復(fù)雜的棘手?jǐn)?shù)據(jù)關(guān)聯(lián)問(wèn)題。31、DeLS-3D標(biāo)題:DeLS-3D: Deep Localization and Segmentation with a 3D Semantic Map作者:Peng Wang, Ruigang Yang, Binbin Cao, Wei Xu, Yuanqing Lin單位:百度來(lái)源:2018 CVPR原文鏈接:https://arxiv.org/abs/1805.04949代碼鏈接:https://github.com/pengwangucla/DeLS-3D摘要:對(duì)于自動(dòng)駕駛等應(yīng)用,自定位/相機(jī)姿態(tài)估計(jì)和場(chǎng)景解析是至關(guān)重要的技術(shù)。在本文中,我們提出了一個(gè)統(tǒng)一的框架來(lái)同時(shí)解決這兩個(gè)問(wèn)題。我們?cè)O(shè)計(jì)的獨(dú)特之處在于傳感器融合方案,該方案集成了攝像機(jī)視頻、運(yùn)動(dòng)傳感器(GPS/IMU)和3D語(yǔ)義地圖,以實(shí)現(xiàn)系統(tǒng)的魯棒性和效率。具體來(lái)說(shuō),我們首先從消費(fèi)級(jí)GPS/IMU獲得初始粗略相機(jī)姿態(tài),基于此,可以從3D語(yǔ)義地圖渲染標(biāo)簽地圖。然后,渲染的標(biāo)簽圖和RGB圖像被共同饋送到姿態(tài)CNN,產(chǎn)生校正的相機(jī)姿態(tài)。此外,結(jié)合時(shí)間信息,多層遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)一步部署,以提高姿態(tài)精度。最后,基于來(lái)自RNN的姿態(tài),我們繪制了一個(gè)新的標(biāo)簽圖,它與RGB圖像一起被饋送到一個(gè)產(chǎn)生每個(gè)像素語(yǔ)義標(biāo)簽的分段CNN中。為了驗(yàn)證我們的方法,我們建立了一個(gè)配準(zhǔn)的三維點(diǎn)云和攝像機(jī)圖像數(shù)據(jù)集。點(diǎn)云和圖像都被語(yǔ)義標(biāo)注。每個(gè)視頻幀都有來(lái)自高精度運(yùn)動(dòng)傳感器的地面真實(shí)姿態(tài)。我們表明,實(shí)際上,僅依靠像PoseNet這樣的圖像進(jìn)行姿態(tài)估計(jì)可能會(huì)由于街景混亂而失敗,因此融合多個(gè)傳感器是重要的。最后,進(jìn)行了各種消融研究,證明了所提出系統(tǒng)的有效性。特別地,我們表明場(chǎng)景解析和姿態(tài)估計(jì)對(duì)于實(shí)現(xiàn)更健壯和更精確的系統(tǒng)是相互有益的。32、VLocNet標(biāo)題:Deep Auxiliary Learning for Visual Localization and Odometry作者:Abhinav Valada, Noha Radwan, Wolfram Burgard單位:弗賴堡大學(xué)來(lái)源:2018 ICRA原文鏈接:https://arxiv.org/abs/1803.03642代碼鏈接:https://github.com/decayale/vlocnet摘要:定位是機(jī)器人自主堆棧中不可或缺的組成部分,使其能夠確定自己在環(huán)境中的位置,本質(zhì)上使其成為任何動(dòng)作執(zhí)行或規(guī)劃的先驅(qū)。盡管卷積神經(jīng)網(wǎng)絡(luò)在視覺(jué)定位方面已經(jīng)顯示出有希望的結(jié)果,但是它們?nèi)匀贿h(yuǎn)遠(yuǎn)優(yōu)于最新的基于局部特征的技術(shù)。在這項(xiàng)工作中,我們提出了VLocNet,一種新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于從連續(xù)的單目圖像進(jìn)行6自由度全局姿態(tài)回歸和里程計(jì)估計(jì)。我們的多任務(wù)模型結(jié)合了硬參數(shù)共享,因此除了端到端可訓(xùn)練性之外,還很緊湊并支持實(shí)時(shí)推理。我們提出了一種新的損失函數(shù),它利用輔助學(xué)習(xí)在訓(xùn)練過(guò)程中利用相對(duì)姿態(tài)信息,從而限制搜索空間以獲得一致的姿態(tài)估計(jì)。我們?cè)谑覂?nèi)和室外數(shù)據(jù)集上評(píng)估了我們提出的VLocNet,并表明即使我們的單任務(wù)模型也超過(guò)了用于全球定位的最新深度架構(gòu)的性能,同時(shí)實(shí)現(xiàn)了視覺(jué)里程計(jì)估計(jì)的競(jìng)爭(zhēng)性能。此外,我們利用我們提出的幾何一致性損失進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估,這些評(píng)估顯示了多任務(wù)學(xué)習(xí)的有效性,并證明了我們的模型是第一個(gè)與基于SIFT的方法不相上下的深度學(xué)習(xí)技術(shù),在某些情況下甚至優(yōu)于基于SIFT的方法。33、AtLoc標(biāo)題:AtLoc: Attention Guided Camera Localization作者:Bing Wang, Changhao Chen, Chris Xiaoxuan Lu, Peijun Zhao, Niki Trigoni, Andrew Markham單位:牛津大學(xué)來(lái)源:2019 AAAI原文鏈接:https://arxiv.org/abs/1909.03557代碼鏈接:https://github.com/BingCS/AtLoc摘要:深度學(xué)習(xí)在相機(jī)定位方面取得了令人印象深刻的成果,但目前的單幅圖像技術(shù)通常缺乏魯棒性,導(dǎo)致較大的異常值。在某種程度上,這已經(jīng)通過(guò)序列(多圖像)或幾何約束方法來(lái)解決,這些方法可以學(xué)習(xí)拒絕動(dòng)態(tài)對(duì)象和光照條件,以獲得更好的性能。在這項(xiàng)工作中,我們表明注意力可以用來(lái)迫使網(wǎng)絡(luò)專注于更具幾何魯棒性的對(duì)象和特征,即使只使用單張圖像作為輸入,也能在通用基準(zhǔn)測(cè)試中達(dá)到最先進(jìn)的性能。通過(guò)公開的室內(nèi)和室外數(shù)據(jù)集提供了廣泛的實(shí)驗(yàn)證據(jù)。通過(guò)對(duì)顯著圖的可視化,我們展示了網(wǎng)絡(luò)如何學(xué)習(xí)拒絕動(dòng)態(tài)對(duì)象,從而產(chǎn)生優(yōu)越的全局相機(jī)位姿回歸性能。34、Pyslam標(biāo)題:To Learn or Not to Learn: Visual Localization from Essential Matrices作者:Qunjie Zhou, Torsten Sattler, Marc Pollefeys, Laura Leal-Taixe單位:慕尼黑工業(yè)大學(xué)、查爾姆斯理工大學(xué)、蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系、微軟蘇黎世來(lái)源:2020 ICRA原文鏈接:https://arxiv.org/abs/1908.01293代碼鏈接:https://github.com/luigifreda/pyslam摘要:視覺(jué)定位是對(duì)場(chǎng)景中的攝像機(jī)進(jìn)行估計(jì)的問(wèn)題,是自動(dòng)駕駛汽車和混合現(xiàn)實(shí)等計(jì)算機(jī)視覺(jué)應(yīng)用的關(guān)鍵組成部分。用于精確視覺(jué)定位的最新方法使用特定于場(chǎng)景的表示,導(dǎo)致在將該技術(shù)應(yīng)用于新場(chǎng)景時(shí)構(gòu)建這些模型的開銷。最近,已經(jīng)提出了基于相對(duì)姿態(tài)估計(jì)的基于深度學(xué)習(xí)的方法,具有容易適應(yīng)新場(chǎng)景的承諾。然而,已經(jīng)表明這種方法目前遠(yuǎn)不如現(xiàn)有技術(shù)的方法準(zhǔn)確。在本文中,我們有興趣分析這種行為。為此,我們提出了一個(gè)新的框架,視覺(jué)定位從相對(duì)姿態(tài)。在這個(gè)框架內(nèi)使用一個(gè)經(jīng)典的基于特征的方法,我們展示了最先進(jìn)的性能。用不同層次的學(xué)習(xí)方法代替經(jīng)典方法,我們?nèi)缓笳页錾疃葘W(xué)習(xí)方法表現(xiàn)不佳的原因。基于我們的分析,我們對(duì)未來(lái)的工作提出了建議。35、DFNet標(biāo)題:DFNet: Enhance Absolute Pose Regression with Direct Feature Matching作者:Shuai Chen, Xinghui Li, Zirui Wang, Victor Adrian Prisacariu單位:牛津大學(xué)來(lái)源:2022 ECCV原文鏈接:https://arxiv.org/abs/2204.00559代碼鏈接:https://github.com/activevisionlab/dfnet摘要:我們介紹了一個(gè)結(jié)合絕對(duì)姿態(tài)回歸(APR)和直接特征匹配的攝像機(jī)重定位流水線。通過(guò)結(jié)合曝光自適應(yīng)的新視圖合成,我們的方法成功地解決了現(xiàn)有的基于光度的方法無(wú)法處理的室外環(huán)境中的光度失真。通過(guò)域不變特征匹配,我們的解決方案使用無(wú)標(biāo)簽數(shù)據(jù)上的半監(jiān)督學(xué)習(xí)來(lái)提高姿態(tài)回歸精度。特別地,流水線由兩個(gè)組件組成:新穎的視圖合成器和DFNet。前者合成補(bǔ)償曝光變化的新視圖,后者回歸相機(jī)姿態(tài)并提取魯棒特征,以縮小真實(shí)圖像和合成圖像之間的域差距。此外,我們介紹了一個(gè)在線合成數(shù)據(jù)生成方案。我們表明,這些方法有效地提高了室內(nèi)和室外場(chǎng)景中的相機(jī)姿態(tài)估計(jì)。因此,與基于3D結(jié)構(gòu)的方法相比,我們的方法通過(guò)超過(guò)現(xiàn)有的單圖像APR方法多達(dá)56%而實(shí)現(xiàn)了最先進(jìn)的精度。36、DGCNet標(biāo)題:DGC-Net: Dense Geometric Correspondence Network作者:Iaroslav Melekhov, Aleksei Tiulpin, Torsten Sattler, Marc Pollefeys, Esa Rahtu, Juho Kannala單位:阿爾托大學(xué)、奧盧大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、坦桑尼亞科技大學(xué)、微軟來(lái)源:2019 WACV原文鏈接:https://arxiv.org/abs/1810.08393代碼鏈接:https://github.com/AaltoVision/DGC-Net摘要:本文提出了兩個(gè)圖像之間的密集像素對(duì)應(yīng)估計(jì)的挑戰(zhàn)。這個(gè)問(wèn)題與光流估計(jì)任務(wù)密切相關(guān),在光流估計(jì)任務(wù)中,CNN最近取得了重大進(jìn)展。雖然光流方法對(duì)于小像素平移和有限的外觀變化場(chǎng)景產(chǎn)生非常精確的結(jié)果,但是它們很難處理我們?cè)谶@項(xiàng)工作中考慮的強(qiáng)幾何變換。在本文中,我們提出了一個(gè)由粗到細(xì)的基于CNN的框架,該框架可以利用光流方法的優(yōu)勢(shì),并將其擴(kuò)展到大型變換的情況,提供密集和亞像素精度的估計(jì)。它經(jīng)過(guò)合成變換訓(xùn)練,對(duì)看不見的真實(shí)數(shù)據(jù)表現(xiàn)出非常好的性能。此外,我們將我們的方法應(yīng)用于相對(duì)相機(jī)姿態(tài)估計(jì)問(wèn)題,并證明該模型優(yōu)于現(xiàn)有的密集方法。37、Long-Term Visual Localization標(biāo)題:Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved Long-Term Visual Localization作者:M?ns Larsson, Erik Stenborg, Carl Toft, Lars Hammarstrand, Torsten Sattler, Fredrik Kahl單位:查爾姆斯理工大學(xué)來(lái)源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.06387代碼鏈接:https://github.com/maunzzz/fine-grained-segmentation-networks摘要:長(zhǎng)期視覺(jué)定位是估計(jì)給定查詢圖像在外觀隨時(shí)間變化的場(chǎng)景中的相機(jī)姿態(tài)的問(wèn)題。它是實(shí)踐中的一個(gè)重要問(wèn)題,例如,在自動(dòng)駕駛中遇到的問(wèn)題。為了獲得對(duì)這種變化的魯棒性,長(zhǎng)期定位方法經(jīng)常使用分段的分割作為不變的場(chǎng)景表示,因?yàn)槊總€(gè)場(chǎng)景部分的語(yǔ)義不應(yīng)受季節(jié)和其他變化的影響。然而,由于可用類別的數(shù)量有限,這些表示通常不太容易區(qū)分。在本文中,我們提出了一種新的神經(jīng)網(wǎng)絡(luò),細(xì)粒度分割網(wǎng)絡(luò)(FGSN),它可以用于提供具有大量標(biāo)簽的圖像分割,并可以以自我監(jiān)督的方式進(jìn)行訓(xùn)練。此外,我們還展示了如何訓(xùn)練FGSNs在季節(jié)變化時(shí)輸出一致的標(biāo)簽。我們通過(guò)大量的實(shí)驗(yàn)證明,將我們的FGSNs產(chǎn)生的細(xì)粒度分割集成到現(xiàn)有的定位算法中會(huì)導(dǎo)致定位性能的實(shí)質(zhì)性改善。38、Understanding_apr標(biāo)題:Understanding the Limitations of CNN-based Absolute Camera Pose Regression作者:Torsten Sattler, Qunjie Zhou, Marc Pollefeys, Laura Leal-Taixe單位:查爾姆斯理工大學(xué)、慕尼黑大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、微軟來(lái)源:2019 CVPR原文鏈接:https://arxiv.org/abs/1903.07504代碼鏈接:https://github.com/tsattler/understanding_apr摘要:視覺(jué)定位是在已知場(chǎng)景中精確估計(jì)攝像機(jī)姿態(tài)的任務(wù)。這是計(jì)算機(jī)視覺(jué)和機(jī)器人技術(shù)中的一個(gè)關(guān)鍵問(wèn)題,應(yīng)用包括自動(dòng)駕駛汽車、運(yùn)動(dòng)結(jié)構(gòu)、SLAM和混合現(xiàn)實(shí)。傳統(tǒng)上,定位問(wèn)題是使用3D幾何來(lái)解決的。最近,基于卷積神經(jīng)網(wǎng)絡(luò)的端到端方法變得流行起來(lái)。這些方法學(xué)習(xí)從輸入圖像直接回歸相機(jī)姿態(tài)。然而,它們不能達(dá)到與基于3D結(jié)構(gòu)的方法相同水平的姿態(tài)精度。為了理解這種行為,我們開發(fā)了一個(gè)相機(jī)姿態(tài)回歸的理論模型。我們使用我們的模型來(lái)預(yù)測(cè)姿態(tài)回歸技術(shù)的失敗案例,并通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證我們的預(yù)測(cè)。此外,我們使用我們的模型來(lái)表明姿態(tài)回歸與通過(guò)圖像檢索的姿態(tài)近似更密切相關(guān),而不是與通過(guò)3D結(jié)構(gòu)的精確姿態(tài)估計(jì)更密切相關(guān)。一個(gè)關(guān)鍵的結(jié)果是,目前的方法并不總是優(yōu)于手工制作的圖像檢索基線。這清楚地表明,在姿勢(shì)回歸算法準(zhǔn)備好與基于結(jié)構(gòu)的方法競(jìng)爭(zhēng)之前,需要額外的研究。39、HFNet標(biāo)題:From Coarse to Fine: Robust Hierarchical Localization at Large Scale作者:Paul-Edouard Sarlin, Cesar Cadena, Roland Siegwart, Marcin Dymczyk單位:蘇黎世聯(lián)邦理工學(xué)院自主系統(tǒng)實(shí)驗(yàn)室、Sevensense機(jī)器人股份公司來(lái)源:2019 CVPR原文鏈接:https://arxiv.org/abs/1812.03506代碼鏈接:https://github.com/ethz-asl/hfnet摘要:魯棒且準(zhǔn)確的視覺(jué)定位是許多應(yīng)用的基本能力,例如自動(dòng)駕駛、移動(dòng)機(jī)器人或增強(qiáng)現(xiàn)實(shí)。然而,這仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),特別是對(duì)于大規(guī)模的環(huán)境和存在顯著外觀變化的情況。最先進(jìn)的方法不僅難以應(yīng)對(duì)這種情況,而且對(duì)于某些實(shí)時(shí)應(yīng)用程序來(lái)說(shuō),通常過(guò)于耗費(fèi)資源。在本文中,我們提出了HF-Net,一種基于單片CNN的分層定位方法,它同時(shí)預(yù)測(cè)局部特征和全局描述符,用于精確的6自由度定位。我們利用由粗到精的定位范例:我們首先執(zhí)行全局檢索以獲得位置假設(shè),然后才在這些候選地點(diǎn)內(nèi)匹配局部特征。這種分層方法節(jié)省了大量的運(yùn)行時(shí)間,并使我們的系統(tǒng)適合實(shí)時(shí)操作。通過(guò)利用學(xué)習(xí)的描述符,我們的方法在外觀的大變化上實(shí)現(xiàn)了顯著的定位魯棒性,并在兩個(gè)具有挑戰(zhàn)性的大規(guī)模定位基準(zhǔn)上建立了新的藝術(shù)狀態(tài)。40、InLoc標(biāo)題:InLoc: Indoor Visual Localization with Dense Matching and View Synthesis作者:Hajime Taira, Masatoshi Okutomi, Torsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, Akihiko Torii單位:東京工業(yè)大學(xué)、蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系來(lái)源:2018 CVPR原文鏈接:https://arxiv.org/abs/1803.10368代碼鏈接:https://github.com/HajimeTaira/InLoc_demo摘要:我們?cè)噲D預(yù)測(cè)查詢照片相對(duì)于大型室內(nèi)3D地圖的6自由度(6DoF)姿態(tài)。這項(xiàng)工作的貢獻(xiàn)有三個(gè)方面。首先,我們發(fā)展了一種新的針對(duì)室內(nèi)環(huán)境的大規(guī)模視覺(jué)定位方法。該方法沿著三個(gè)步驟進(jìn)行:(I)候選姿態(tài)的有效檢索,其確保大規(guī)模環(huán)境的可伸縮性,(ii)使用密集匹配而不是局部特征來(lái)處理無(wú)紋理室內(nèi)場(chǎng)景的姿態(tài)估計(jì),以及(iii)通過(guò)虛擬視圖合成來(lái)處理視點(diǎn)、場(chǎng)景布局和遮擋器的顯著變化的姿態(tài)驗(yàn)證。第二,我們收集一個(gè)新的數(shù)據(jù)集,該數(shù)據(jù)集具有用于大規(guī)模室內(nèi)定位的參考6自由度姿態(tài)。查詢照片由移動(dòng)電話在不同于參考3D地圖的時(shí)間捕獲,從而呈現(xiàn)真實(shí)的室內(nèi)定位場(chǎng)景。第三,在這個(gè)新的挑戰(zhàn)性數(shù)據(jù)上,我們證明了我們的方法明顯優(yōu)于當(dāng)前最先進(jìn)的室內(nèi)定位方法。41、CPF_Localization標(biāo)題:Cascaded Parallel Filtering for Memory-Efficient Image-Based Localization作者:Wentao Cheng, Weisi Lin, Kan Chen, Xinfeng Zhang單位:南洋理工大學(xué)、中國(guó)科學(xué)院大學(xué)來(lái)源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.06141代碼鏈接:https://github.com/wentaocheng-cv/cpf_localization摘要:基于圖像的定位(IBL)旨在估計(jì)給定查詢圖像的6自由度相機(jī)姿態(tài)。可以從查詢圖像和運(yùn)動(dòng)結(jié)構(gòu)(SfM)模型之間的2D-3D匹配來(lái)計(jì)算相機(jī)姿態(tài)。盡管最近在IBL方面取得了進(jìn)展,但仍然很難同時(shí)解決大型SfM模型的內(nèi)存消耗和匹配模糊性問(wèn)題。在本文中,我們提出了一種級(jí)聯(lián)并行過(guò)濾方法,該方法利用特征、可見性和幾何信息來(lái)過(guò)濾二值特征表示下的錯(cuò)誤匹配。核心思想是,我們將具有挑戰(zhàn)性的過(guò)濾任務(wù)分成兩個(gè)并行任務(wù),然后為最終過(guò)濾導(dǎo)出輔助相機(jī)姿態(tài)。一個(gè)任務(wù)集中于保留潛在的正確匹配,而另一個(gè)任務(wù)集中于獲得高質(zhì)量的匹配,以便于隨后更強(qiáng)大的過(guò)濾。此外,我們提出的方法通過(guò)引入質(zhì)量感知的空間重構(gòu)方法和主焦距增強(qiáng)的姿態(tài)估計(jì)方法來(lái)提高定位精度。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法在節(jié)省內(nèi)存的情況下獲得了極具競(jìng)爭(zhēng)力的定位性能。42、LessMore標(biāo)題:Learning Less is More - 6D Camera Localization via 3D Surface Regression作者:Eric Brachmann, Carsten Rother單位:海德堡大學(xué)來(lái)源:2018 CVPR原文鏈接:https://arxiv.org/abs/1711.10228代碼鏈接:https://github.com/vislearn/LessMore摘要:自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等熱門研究領(lǐng)域重新引起了人們對(duì)基于圖像的攝像機(jī)定位的興趣。在這項(xiàng)工作中,我們解決的任務(wù)是在一個(gè)給定的三維環(huán)境中從一個(gè)單一的RGB圖像預(yù)測(cè)6D相機(jī)的姿態(tài)。隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),以前的工作要么學(xué)習(xí)了整個(gè)相機(jī)定位過(guò)程,要么學(xué)習(xí)了相機(jī)定位流水線的多個(gè)組件。我們的主要貢獻(xiàn)是證明和解釋學(xué)習(xí)這個(gè)管道的單個(gè)組件就足夠了。該組件是用于密集回歸所謂場(chǎng)景坐標(biāo)的全卷積神經(jīng)網(wǎng)絡(luò),定義了輸入圖像和3D場(chǎng)景空間之間的對(duì)應(yīng)關(guān)系。神經(jīng)網(wǎng)絡(luò)被預(yù)加到新的端到端可訓(xùn)練流水線上。我們的系統(tǒng)是高效的、高度準(zhǔn)確的、訓(xùn)練健壯的,并且展示出杰出的泛化能力。在室內(nèi)和室外數(shù)據(jù)集上,它始終超越了最先進(jìn)的水平。有趣的是,我們的方法甚至在訓(xùn)練期間不利用場(chǎng)景的3D模型也超過(guò)了現(xiàn)有技術(shù),因?yàn)榫W(wǎng)絡(luò)能夠僅從單視圖約束中自動(dòng)發(fā)現(xiàn)3D場(chǎng)景幾何形狀。43、ESAC標(biāo)題:Expert Sample Consensus Applied to Camera Re-Localization作者:Eric Brachmann, Carsten Rother單位:海德堡大學(xué)來(lái)源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.02484代碼鏈接:https://github.com/vislearn/esac摘要:將模型參數(shù)擬合到一組噪聲數(shù)據(jù)點(diǎn)是計(jì)算機(jī)視覺(jué)中的常見問(wèn)題。在這項(xiàng)工作中,我們將6D相機(jī)姿態(tài)擬合到2D輸入圖像和已知3D環(huán)境之間的一組噪聲對(duì)應(yīng)關(guān)系。我們使用神經(jīng)網(wǎng)絡(luò)從圖像中估計(jì)這些對(duì)應(yīng)關(guān)系。由于對(duì)應(yīng)關(guān)系通常包含異常值,我們利用穩(wěn)健的估計(jì)器,如隨機(jī)樣本一致性(RANSAC)或可微分RANSAC (DSAC)來(lái)擬合姿態(tài)參數(shù)。當(dāng)問(wèn)題域,例如所有2D-3D對(duì)應(yīng)的空間很大或不明確時(shí),單個(gè)網(wǎng)絡(luò)不能很好地覆蓋該域。專家混合(MoE)是一種流行的策略,用于在一組專門的網(wǎng)絡(luò)(即所謂的專家)之間劃分問(wèn)題域,其中門控網(wǎng)絡(luò)決定哪個(gè)專家負(fù)責(zé)給定的輸入。在這項(xiàng)工作中,我們介紹了專家樣本共識(shí)(ESAC),整合了DSAC在一個(gè)MoE。我們的主要技術(shù)貢獻(xiàn)是一個(gè)有效的方法來(lái)訓(xùn)練ESAC聯(lián)合和端到端。我們通過(guò)實(shí)驗(yàn)證明,ESAC比競(jìng)爭(zhēng)方法更好地處理了兩個(gè)現(xiàn)實(shí)世界的問(wèn)題,即可伸縮性和模糊性。我們將ESAC應(yīng)用于將簡(jiǎn)單的幾何模型擬合到合成圖像中,以及用于困難的真實(shí)數(shù)據(jù)集的攝像機(jī)重新定位。44、KFNet標(biāo)題:KFNet: Learning Temporal Camera Relocalization using Kalman Filtering作者:Lei Zhou, Zixin Luo, Tianwei Shen, Jiahui Zhang, Mingmin Zhen, Yao Yao, Tian Fang, Long Quan單位:香港科技大學(xué)、清華大學(xué)、珠峰創(chuàng)新科技來(lái)源:2020 CVPR oral原文鏈接:https://arxiv.org/abs/2003.10629代碼鏈接:https://github.com/zlthinker/KFNet摘要:與聚焦于靜止圖像的一次性重新定位相反,時(shí)間相機(jī)重新定位估計(jì)相對(duì)于序列中每個(gè)視頻幀的姿態(tài)。即使已經(jīng)考慮了時(shí)間依賴性,當(dāng)前的時(shí)間重定位方法在準(zhǔn)確性方面仍然普遍不如最先進(jìn)的一次性方法。在這項(xiàng)工作中,我們改進(jìn)了時(shí)間重定位方法,使用一種網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合卡爾曼濾波(KFNet)進(jìn)行在線攝像機(jī)重定位。特別地,KFNet將場(chǎng)景坐標(biāo)回歸問(wèn)題擴(kuò)展到時(shí)域,以便遞歸地建立用于姿態(tài)確定的2D和3D對(duì)應(yīng)。網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和損耗公式是基于貝葉斯學(xué)習(xí)環(huán)境中的卡爾曼濾波。在多個(gè)重定位基準(zhǔn)上的大量實(shí)驗(yàn)表明,KFNet的高精度在一次性重定位和時(shí)態(tài)重定位方法中均處于領(lǐng)先地位。45、Dense-Scene-Matching標(biāo)題:Learning Camera Localization via Dense Scene Matching作者:Shitao Tang, Chengzhou Tang, Rui Huang, Siyu Zhu, Ping Tan單位:西蒙·弗雷澤大學(xué)、阿里巴巴人工智能實(shí)驗(yàn)室來(lái)源:2021 CVPR原文鏈接:https://arxiv.org/abs/2103.16792代碼鏈接:https://github.com/Tangshitao/Dense-Scene-Matching摘要:攝像機(jī)定位旨在從RGB圖像中估計(jì)6自由度攝像機(jī)姿態(tài)。傳統(tǒng)方法檢測(cè)和匹配查詢圖像和預(yù)先構(gòu)建的3D模型之間的興趣點(diǎn)。最近基于學(xué)習(xí)的方法將場(chǎng)景結(jié)構(gòu)編碼到特定的卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,因此能夠從RGB圖像中預(yù)測(cè)密集坐標(biāo)。然而,由于網(wǎng)絡(luò)容量有限,它們中的大多數(shù)需要重新訓(xùn)練或重新適應(yīng)新的場(chǎng)景,并且難以處理大規(guī)模場(chǎng)景。我們提出了一種使用密集場(chǎng)景匹配(DSM)的場(chǎng)景不可知攝像機(jī)定位的新方法,其中在查詢圖像和場(chǎng)景之間構(gòu)建了代價(jià)體積。成本體積和相應(yīng)的坐標(biāo)由CNN處理以預(yù)測(cè)密集坐標(biāo)。相機(jī)姿態(tài)可以通過(guò)PnP算法求解。此外,我們的方法可以擴(kuò)展到時(shí)間域,這導(dǎo)致在測(cè)試期間額外的性能提升。在7scenes和Cambridge benchmark上,我們的場(chǎng)景無(wú)關(guān)方法獲得了與現(xiàn)有場(chǎng)景相關(guān)方法(如KFNet)相當(dāng)?shù)臏?zhǔn)確性。這種方法也明顯優(yōu)于最先進(jìn)的場(chǎng)景不可知的密集坐標(biāo)回歸網(wǎng)絡(luò)SANet。二、描述子提取描述子提取其實(shí)也是定位問(wèn)題,主要是用于在圖像中進(jìn)行信息檢索和匹配。傳統(tǒng)手工描述子的問(wèn)題同樣在于對(duì)光照和視角變化不魯棒,集中于學(xué)習(xí)用于關(guān)鍵點(diǎn)檢測(cè)的可重復(fù)顯著圖和在檢測(cè)到的關(guān)鍵點(diǎn)位置學(xué)習(xí)描述子,可以在很大程度上提高魯棒性。46、Hierarchical_Loc標(biāo)題:Leveraging Deep Visual Descriptors for Hierarchical Efficient Localization作者:Paul-Edouard Sarlin, Frédéric Debraine, Marcin Dymczyk, Roland Siegwart, Cesar Cadena單位:蘇黎世聯(lián)邦理工學(xué)院自主系統(tǒng)實(shí)驗(yàn)室來(lái)源:2018 CoRL原文鏈接:https://arxiv.org/abs/1809.01019代碼鏈接:https://github.com/ethz-asl/hierarchical_loc摘要:許多機(jī)器人應(yīng)用需要精確的姿態(tài)估計(jì),盡管在大的和變化的環(huán)境中操作。這可以通過(guò)視覺(jué)定位來(lái)解決,使用預(yù)先計(jì)算的周圍環(huán)境的3D模型。然后,姿態(tài)估計(jì)相當(dāng)于使用局部描述符來(lái)尋找查詢圖像中的2D關(guān)鍵點(diǎn)和模型中的3D點(diǎn)之間的對(duì)應(yīng)關(guān)系。然而,機(jī)器人平臺(tái)的計(jì)算能力通常有限,這使得這項(xiàng)任務(wù)在大規(guī)模環(huán)境中具有挑戰(zhàn)性。二進(jìn)制特征描述符顯著加速了這種2D-3D匹配,并且已經(jīng)在機(jī)器人社區(qū)中變得流行,但是也嚴(yán)重削弱了對(duì)感知混疊以及視點(diǎn)、照明和場(chǎng)景結(jié)構(gòu)的變化的魯棒性。在這項(xiàng)工作中,我們建議利用深度學(xué)習(xí)的最新進(jìn)展來(lái)執(zhí)行有效的分層定位。我們首先使用學(xué)習(xí)到的圖像范圍的全局描述符在地圖級(jí)別進(jìn)行定位,然后根據(jù)僅在候選位置計(jì)算的2D-3D匹配來(lái)估計(jì)精確的姿態(tài)。這限制了定位搜索,從而允許有效地利用通常在資源受限的設(shè)備上被忽略的強(qiáng)大的非二進(jìn)制描述符。我們的方法在流行的移動(dòng)平臺(tái)上實(shí)時(shí)運(yùn)行的同時(shí),帶來(lái)了最先進(jìn)的定位性能,為機(jī)器人研究開辟了新的前景。47、Neighbourhood Consensus Networks標(biāo)題:Neighbourhood Consensus Networks作者:Ignacio Rocco, Mircea Cimpoi, Relja Arandjelovi?, Akihiko Torii, Tomas Pajdla, Josef Sivic單位:東京工業(yè)大學(xué)來(lái)源:2018 NeurIPS原文鏈接:https://arxiv.org/abs/1810.10510代碼鏈接:https://github.com/ignacio-rocco/ncnet摘要:我們解決了在一對(duì)圖像之間尋找可靠的密集對(duì)應(yīng)的問(wèn)題。這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)橄鄳?yīng)的場(chǎng)景元素之間存在明顯的外觀差異,并且重復(fù)模式會(huì)產(chǎn)生歧義。這項(xiàng)工作的貢獻(xiàn)有三個(gè)方面。首先,受使用半局部約束消除特征匹配歧義的經(jīng)典思想的啟發(fā),我們開發(fā)了端到端可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)通過(guò)分析一對(duì)圖像之間所有可能對(duì)應(yīng)的4D空間中的鄰域一致性模式來(lái)識(shí)別空間一致匹配的集合,而不需要全局幾何模型。其次,我們證明了該模型可以在弱監(jiān)督下以匹配和非匹配圖像對(duì)的形式被有效地訓(xùn)練,而不需要昂貴的點(diǎn)對(duì)點(diǎn)對(duì)應(yīng)的手動(dòng)注釋。第三,我們展示了所提出的鄰域一致性網(wǎng)絡(luò)可以應(yīng)用于一系列匹配任務(wù),包括類別級(jí)和實(shí)例級(jí)匹配,在PF Pascal數(shù)據(jù)集和InLoc室內(nèi)視覺(jué)定位基準(zhǔn)上獲得了最先進(jìn)的結(jié)果。48、R2D2標(biāo)題:R2D2: Repeatable and Reliable Detector and Descriptor作者:Jerome Revaud, Philippe Weinzaepfel, César De Souza, Noe Pion, Gabriela Csurka, Yohann Cabon, Martin Humenberger單位:NAVER LABS Europe來(lái)源:2019 arXiv原文鏈接:https://arxiv.org/abs/1906.06195代碼鏈接:https://github.com/naver/kapture摘要:興趣點(diǎn)檢測(cè)和局部特征描述是許多計(jì)算機(jī)視覺(jué)應(yīng)用中的基本步驟。這些任務(wù)的經(jīng)典方法是基于檢測(cè)然后描述的范例,其中使用單獨(dú)的手工方法首先識(shí)別可重復(fù)的關(guān)鍵點(diǎn),然后用局部描述符來(lái)表示它們。用度量學(xué)習(xí)損失訓(xùn)練的神經(jīng)網(wǎng)絡(luò)最近趕上了這些技術(shù),集中于學(xué)習(xí)用于關(guān)鍵點(diǎn)檢測(cè)的可重復(fù)顯著圖和在檢測(cè)到的關(guān)鍵點(diǎn)位置學(xué)習(xí)描述符。在這項(xiàng)工作中,我們認(rèn)為顯著區(qū)域不一定是有區(qū)別的,因此會(huì)損害描述的性能。此外,我們認(rèn)為,描述符應(yīng)該只在能夠以高置信度執(zhí)行匹配的區(qū)域中學(xué)習(xí)。因此,我們建議聯(lián)合學(xué)習(xí)關(guān)鍵點(diǎn)檢測(cè)和描述以及局部描述符區(qū)分度的預(yù)測(cè)器。這使我們能夠避免模糊的區(qū)域,并導(dǎo)致可靠的關(guān)鍵點(diǎn)檢測(cè)和描述。我們的檢測(cè)和描述方法經(jīng)過(guò)自我監(jiān)督訓(xùn)練,可以同時(shí)輸出稀疏、可重復(fù)和可靠的關(guān)鍵點(diǎn),在HPatches數(shù)據(jù)集上優(yōu)于最先進(jìn)的檢測(cè)器和描述符。它還在最近發(fā)布的亞琛日夜定位數(shù)據(jù)集上創(chuàng)造了一項(xiàng)記錄。49、ASLFeat標(biāo)題:ASLFeat: Learning Local Features of Accurate Shape and Localization作者:Zixin Luo, Lei Zhou, Xuyang Bai, Hongkai Chen, Jiahui Zhang, Yao Yao, Shiwei Li, Tian Fang, Long Quan單位:香港科技大學(xué)、清華大學(xué)、珠峰創(chuàng)新科技來(lái)源:2020 CVPR原文鏈接:https://arxiv.org/abs/2003.10071代碼鏈接:https://github.com/lzx551402/ASLFeat摘要:這項(xiàng)工作的重點(diǎn)是減輕局部特征檢測(cè)器和描述符的聯(lián)合學(xué)習(xí)的兩個(gè)限制。第一,估計(jì)局部形狀(比例、方向等)的能力在密集特征提取過(guò)程中經(jīng)常被忽略,而形狀感知對(duì)于獲得更強(qiáng)的幾何不變性至關(guān)重要。第二,檢測(cè)到的關(guān)鍵點(diǎn)的定位精度不足以可靠地恢復(fù)相機(jī)幾何形狀,這已經(jīng)成為諸如3D重建等任務(wù)中的瓶頸。在本文中,我們提出了一個(gè)難題,通過(guò)三個(gè)輕量級(jí)但有效的修改來(lái)緩解上述問(wèn)題。首先,我們求助于可變形卷積網(wǎng)絡(luò)來(lái)密集地估計(jì)和應(yīng)用局部變換。其次,我們利用固有的特征層次來(lái)恢復(fù)空間分辨率和低層細(xì)節(jié),以實(shí)現(xiàn)精確的關(guān)鍵點(diǎn)定位。最后,我們使用峰值測(cè)量來(lái)關(guān)聯(lián)特征響應(yīng),并得出更具指示性的檢測(cè)分?jǐn)?shù)。每項(xiàng)修改的效果都經(jīng)過(guò)了徹底的研究,并且在各種實(shí)際場(chǎng)景中進(jìn)行了廣泛的評(píng)估。最新的結(jié)果表明了我們方法的優(yōu)越性。50、NGRANSAC標(biāo)題:Neural-Guided RANSAC: Learning Where to Sample Model Hypotheses作者:Eric Brachmann, Carsten Rother單位:海德堡大學(xué)來(lái)源:2019 ICCV原文鏈接:https://arxiv.org/abs/1905.04132代碼鏈接:https://github.com/vislearn/ngransac摘要:我們提出了神經(jīng)引導(dǎo)的RANSAC (NG-RANSAC ),它是經(jīng)典RANSAC算法的一個(gè)擴(kuò)展。NG-RANSAC使用先驗(yàn)信息來(lái)改進(jìn)模型假設(shè)搜索,增加找到無(wú)離群點(diǎn)最小集的機(jī)會(huì)。以前的工作使用啟發(fā)式邊信息,如手工制作的描述符距離來(lái)指導(dǎo)假設(shè)搜索。相比之下,我們以有原則的方式學(xué)習(xí)假設(shè)搜索,這讓我們?cè)谟?xùn)練期間優(yōu)化任意的任務(wù)損失,導(dǎo)致經(jīng)典計(jì)算機(jī)視覺(jué)任務(wù)的巨大改進(jìn)。我們提出了NG-RANSAC的兩個(gè)進(jìn)一步的擴(kuò)展。首先,使用內(nèi)部計(jì)數(shù)本身作為訓(xùn)練信號(hào)允許我們以自我監(jiān)督的方式訓(xùn)練神經(jīng)引導(dǎo)。其次,我們將神經(jīng)引導(dǎo)與可微RANSAC相結(jié)合來(lái)構(gòu)建神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)集中于輸入數(shù)據(jù)的某些部分,并使輸出預(yù)測(cè)盡可能好。我們?cè)谝幌盗杏?jì)算機(jī)視覺(jué)任務(wù)上評(píng)估了NG-RANSAC,即極線幾何估計(jì)、水平線估計(jì)和相機(jī)重新定位。與最先進(jìn)的穩(wěn)健估計(jì)器(包括最近學(xué)習(xí)的估計(jì)器)相比,我們獲得了更好或更具競(jìng)爭(zhēng)力的結(jié)果。51、Image-Matching-Benchmark標(biāo)題:Learning to Find Good Correspondences作者:Kwang Moo Yi, Eduard Trulls, Yuki Ono, Vincent Lepetit, Mathieu Salzmann, Pascal Fua單位:維多利亞大學(xué)視覺(jué)計(jì)算組、洛桑聯(lián)邦理工學(xué)院計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室來(lái)源:2018 CVPR oral原文鏈接:https://arxiv.org/abs/1711.05971代碼鏈接:https://github.com/ubc-vision/image-matching-benchmark摘要:我們開發(fā)了一個(gè)深度架構(gòu)來(lái)學(xué)習(xí)尋找寬基線雙目的良好對(duì)應(yīng)。給定一組假定的稀疏匹配和相機(jī)固有特性,我們以端到端的方式訓(xùn)練我們的網(wǎng)絡(luò),以將對(duì)應(yīng)標(biāo)記為內(nèi)點(diǎn)或外點(diǎn),同時(shí)使用它們來(lái)恢復(fù)由本質(zhì)矩陣編碼的相對(duì)姿態(tài)。我們的架構(gòu)是基于一個(gè)多層感知器在像素坐標(biāo)上操作,而不是直接在圖像上操作,因此簡(jiǎn)單而小巧。我們引入了一種新的歸一化技術(shù),稱為上下文歸一化,它允許我們?cè)谙蛎總€(gè)數(shù)據(jù)點(diǎn)注入全局信息的同時(shí)單獨(dú)處理每個(gè)數(shù)據(jù)點(diǎn),并且還使網(wǎng)絡(luò)對(duì)于對(duì)應(yīng)關(guān)系的順序不變。我們?cè)诙鄠€(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法能夠在很少的訓(xùn)練數(shù)據(jù)的情況下大幅提高技術(shù)水平。52、Log-Polar-Descriptors標(biāo)題:Beyond Cartesian Representations for Local Descriptors作者:Patrick Ebel, Anastasiia Mishchuk, Kwang Moo Yi, Pascal Fua, Eduard Trulls單位:洛桑聯(lián)邦理工學(xué)院計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室、維多利亞大學(xué)視覺(jué)計(jì)算小組、谷歌瑞士來(lái)源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.05547代碼鏈接:https://github.com/cvlab-epfl/log-polar-descriptors摘要:用于學(xué)習(xí)局部面片描述符的主要方法依賴于小圖像區(qū)域,其尺度必須由關(guān)鍵點(diǎn)檢測(cè)器先驗(yàn)地正確估計(jì)。換句話說(shuō),如果兩個(gè)補(bǔ)片不一致,它們的描述符就不匹配。經(jīng)常用來(lái)緩解這個(gè)問(wèn)題的策略是在對(duì)數(shù)極坐標(biāo)區(qū)域上“匯集”像素特征,而不是規(guī)則間隔的區(qū)域。相比之下,我們建議用對(duì)數(shù)極坐標(biāo)采樣方案直接提取“支持區(qū)域”。我們表明,通過(guò)同時(shí)對(duì)該點(diǎn)的鄰近區(qū)域進(jìn)行過(guò)采樣和對(duì)遠(yuǎn)離該點(diǎn)的區(qū)域進(jìn)行欠采樣,這為我們提供了更好的表示。我們證明了這種表示特別適合于學(xué)習(xí)具有深度網(wǎng)絡(luò)的描述符。與以前相比,我們的模型可以在更廣的范圍內(nèi)匹配描述符,還可以利用更大的支持區(qū)域,而不會(huì)受到遮擋的影響。我們?cè)谌齻€(gè)不同的數(shù)據(jù)集上報(bào)告了最新的結(jié)果。53、LF-Net標(biāo)題:LF-Net: Learning Local Features from Images作者:Yuki Ono, Eduard Trulls, Pascal Fua, Kwang Moo Yi單位:索尼來(lái)源:2018 NIPS原文鏈接:https://arxiv.org/abs/1805.09662代碼鏈接:https://github.com/vcg-uvic/lf-net-release摘要:我們提出了一種新穎的深度架構(gòu)和訓(xùn)練策略,使用圖像集合從零開始學(xué)習(xí)局部特征管道,而不需要人工監(jiān)督。為此,我們利用深度和相對(duì)相機(jī)姿態(tài)線索來(lái)創(chuàng)建網(wǎng)絡(luò)應(yīng)該在一幅圖像上實(shí)現(xiàn)的虛擬目標(biāo),為另一幅圖像提供網(wǎng)絡(luò)的輸出。雖然這個(gè)過(guò)程本質(zhì)上是不可微的,但我們證明了我們可以通過(guò)將網(wǎng)絡(luò)限制在一個(gè)分支來(lái)優(yōu)化兩個(gè)分支的設(shè)置,同時(shí)保持另一個(gè)分支的可微性。我們?cè)谑覂?nèi)和室外數(shù)據(jù)集上訓(xùn)練我們的方法,前者使用來(lái)自3D傳感器的深度數(shù)據(jù),后者使用來(lái)自現(xiàn)成的運(yùn)動(dòng)結(jié)構(gòu)解決方案的深度估計(jì)。我們的模型在兩個(gè)數(shù)據(jù)集上的稀疏特征匹配方面都優(yōu)于最先進(jìn)的技術(shù),同時(shí)對(duì)于QVGA圖像以60+ fps運(yùn)行。54、LCD標(biāo)題:LCD: Learned Cross-Domain Descriptors for 2D-3D Matching作者:Quang-Hieu Pham, Mikaela Angelina Uy, Binh-Son Hua, Duc Thanh Nguyen, Gemma Roig, Sai-Kit Yeung單位:新加坡技術(shù)與設(shè)計(jì)大學(xué)、斯坦福大學(xué)、東京大學(xué)來(lái)源:2020 AAAI Oral原文鏈接:https://arxiv.org/abs/1911.09326代碼鏈接:https://github.com/hkust-vgd/lcd摘要:在這項(xiàng)工作中,我們提出了一種新的方法來(lái)學(xué)習(xí)局部跨領(lǐng)域的2D圖像和三維點(diǎn)云匹配描述符。我們提出的方法是一種雙自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò),它將2D和3D輸入映射到一個(gè)共享的潛在空間表示中。我們表明,共享嵌入中的這種局部跨域描述符比那些從2D和3D域中的單獨(dú)訓(xùn)練中獲得的描述符更具區(qū)分性。為了促進(jìn)訓(xùn)練過(guò)程,我們通過(guò)從公開可用的RGB-D場(chǎng)景中收集大約140萬(wàn)個(gè)具有各種照明條件和設(shè)置的2D-3D對(duì)應(yīng)來(lái)建立新的數(shù)據(jù)集。我們的描述符在三個(gè)主要實(shí)驗(yàn)中進(jìn)行評(píng)估:2D-3D匹配、跨域檢索和稀疏到密集深度估計(jì)。實(shí)驗(yàn)結(jié)果證實(shí)了我們的方法的魯棒性以及它的競(jìng)爭(zhēng)性能,不僅在解決跨領(lǐng)域的任務(wù),而且能夠推廣到解決單獨(dú)的2D和3D任務(wù)。55、PointNetVLAD標(biāo)題:PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition作者:Mikaela Angelina Uy, Gim Hee Lee單位:新加坡國(guó)立大學(xué)來(lái)源:2018 CVPR原文鏈接:https://arxiv.org/abs/1804.03492代碼鏈接:https://github.com/mikacuy/pointnetvlad摘要:與基于圖像的檢索不同,基于點(diǎn)云的檢索仍然是一個(gè)未被探索和解決的問(wèn)題。這很大程度上是由于從點(diǎn)云中提取局部特征描述符的困難,這些局部特征描述符隨后可以被編碼成用于檢索任務(wù)的全局描述符。在本文中,我們提出了PointNetVLAD,其中我們利用深度網(wǎng)絡(luò)最近的成功來(lái)解決用于地點(diǎn)識(shí)別的基于點(diǎn)云的檢索。具體來(lái)說(shuō),我們的PointNetVLAD是現(xiàn)有PointNet和NetVLAD的組合/修改,它允許端到端的訓(xùn)練和推理,以從給定的3D點(diǎn)云中提取全局描述符。此外,我們提出了“惰性三元組和四元組”損失函數(shù),可以實(shí)現(xiàn)更具區(qū)分性和可推廣性的全局描述符來(lái)處理檢索任務(wù)。我們?yōu)榛邳c(diǎn)云檢索的地點(diǎn)識(shí)別創(chuàng)建了基準(zhǔn)數(shù)據(jù)集,在這些數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了我們的PointNetVLAD的可行性。56、PCAN標(biāo)題:PCAN: 3D Attention Map Learning Using Contextual Information for Point Cloud Based Retrieval作者:Wenxiao Zhang, Chunxia Xiao單位:武漢大學(xué)來(lái)源:2019 CVPR原文鏈接:https://arxiv.org/abs/1904.09793代碼鏈接:https://github.com/XLechter/PCAN摘要:基于點(diǎn)云檢索的地點(diǎn)識(shí)別是視覺(jué)領(lǐng)域的一個(gè)新興問(wèn)題。主要的挑戰(zhàn)是如何找到一種有效的方法將局部特征編碼成一個(gè)有區(qū)別的全局描述符。本文提出了一種點(diǎn)上下文注意網(wǎng)絡(luò)(PCN ),它可以基于點(diǎn)上下文預(yù)測(cè)每個(gè)局部點(diǎn)特征的重要性。我們的網(wǎng)絡(luò)使得在聚集本地特征時(shí)能夠更加關(guān)注與任務(wù)相關(guān)的特征。在各種基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提出的網(wǎng)絡(luò)可以提供比當(dāng)前最先進(jìn)的方法更好的性能。57、D3Feat標(biāo)題:D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features作者:Xuyang Bai, Zixin Luo, Lei Zhou, Hongbo Fu, Long Quan, Chiew-Lan Tai單位:香港科技大學(xué)、香港城市大學(xué)來(lái)源:2020 CVPR原文鏈接:https://arxiv.org/abs/2003.03164代碼鏈接:https://github.com/XuyangBai/D3Feat摘要:成功的點(diǎn)云配準(zhǔn)通常依賴于通過(guò)區(qū)別性3D局部特征穩(wěn)健地建立稀疏匹配。盡管基于學(xué)習(xí)的3D特征描述符發(fā)展很快,但是很少關(guān)注3D特征檢測(cè)器的學(xué)習(xí),更少關(guān)注兩個(gè)任務(wù)的聯(lián)合學(xué)習(xí)。在本文中,我們利用3D點(diǎn)云的3D完全卷積網(wǎng)絡(luò),并提出了一種新穎實(shí)用的學(xué)習(xí)機(jī)制,該機(jī)制密集地預(yù)測(cè)每個(gè)3D點(diǎn)的檢測(cè)分?jǐn)?shù)和描述特征。特別地,我們提出了一種關(guān)鍵點(diǎn)選擇策略,該策略克服了三維點(diǎn)云的固有密度變化,并進(jìn)一步提出了一種在訓(xùn)練期間由動(dòng)態(tài)特征匹配結(jié)果指導(dǎo)的自監(jiān)督檢測(cè)器損失。最后,通過(guò)在3DMatch和KITTI數(shù)據(jù)集上的測(cè)試,我們的方法在室內(nèi)和室外場(chǎng)景上都取得了很好的效果,并且在ETH數(shù)據(jù)集上表現(xiàn)出了很強(qiáng)的泛化能力。對(duì)于實(shí)際應(yīng)用,我們表明,通過(guò)采用可靠的特征檢測(cè)器,采樣較少數(shù)量的特征就足以實(shí)現(xiàn)精確和快速的點(diǎn)云對(duì)齊。三、 優(yōu)化SLAM估計(jì)在長(zhǎng)期運(yùn)行過(guò)程中會(huì)受到累積誤差漂移的影響。為了解決這個(gè)問(wèn)題,傳統(tǒng)SLAM算法構(gòu)建位姿圖,將相機(jī)姿勢(shì)或場(chǎng)景特征表示為圖節(jié)點(diǎn),這些節(jié)點(diǎn)通過(guò)邊(由傳感器測(cè)量)連接以約束姿勢(shì)。這種基于圖的公式可以進(jìn)行優(yōu)化,以確保圖節(jié)點(diǎn)和邊緣的全局一致性。在深度學(xué)習(xí)時(shí)代,深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)提取特征,構(gòu)建從觀察到姿勢(shì)和場(chǎng)景表示的函數(shù)。但與經(jīng)典SLAM中各種經(jīng)過(guò)充分研究的解決方案相比,全局優(yōu)化深度預(yù)測(cè)的探索不足。58、BA-Net標(biāo)題:BA-Net: Dense Bundle Adjustment Network作者:Chengzhou Tang, Ping Tan單位:西蒙·弗雷澤大學(xué)來(lái)源:2019 ICLR原文鏈接:https://arxiv.org/abs/1806.04807代碼鏈接:https://github.com/frobelbest/BANet摘要:介紹了一種通過(guò)特征度量束平差(BA)解決運(yùn)動(dòng)結(jié)構(gòu)(SfM)問(wèn)題的網(wǎng)絡(luò)體系結(jié)構(gòu),該網(wǎng)絡(luò)體系結(jié)構(gòu)以特征度量誤差的形式明確地實(shí)施多視圖幾何約束。整個(gè)流水線是可微分的,因此網(wǎng)絡(luò)可以學(xué)習(xí)使BA問(wèn)題更易處理的適當(dāng)特征。此外,這項(xiàng)工作介紹了一種新的深度參數(shù)化恢復(fù)密集的每像素深度。該網(wǎng)絡(luò)首先根據(jù)輸入圖像生成幾個(gè)基本深度圖,并通過(guò)特征度量BA將最終深度優(yōu)化為這些基本深度圖的線性組合?;A(chǔ)深度圖生成器也是通過(guò)端到端訓(xùn)練來(lái)學(xué)習(xí)的。整個(gè)系統(tǒng)很好地結(jié)合了領(lǐng)域知識(shí)(即硬編碼的多視圖幾何約束)和深度學(xué)習(xí)(即特征學(xué)習(xí)和基礎(chǔ)深度圖學(xué)習(xí)),以解決具有挑戰(zhàn)性的密集SfM問(wèn)題。大規(guī)模真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)證明了該方法的有效性。59、DCP標(biāo)題:Deep Closest Point: Learning Representations for Point Cloud Registration作者:Yue Wang, Justin M. Solomon單位:麻省理工學(xué)院來(lái)源:2019 ICCV原文鏈接:https://arxiv.org/abs/1905.03304代碼鏈接:https://github.com/WangYueFt/dcp摘要:點(diǎn)云配準(zhǔn)是計(jì)算機(jī)視覺(jué)應(yīng)用于機(jī)器人、醫(yī)學(xué)成像等領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題。這個(gè)問(wèn)題涉及到從一個(gè)點(diǎn)云到另一個(gè)點(diǎn)云的剛性轉(zhuǎn)換,以便它們對(duì)齊。迭代最近點(diǎn)(ICP)及其變體為此任務(wù)提供了簡(jiǎn)單且易于實(shí)現(xiàn)的迭代方法,但是這些算法可能收斂到虛假的局部最優(yōu)。為了解決ICP流水線中的局部最優(yōu)和其他困難,我們受計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中的最新技術(shù)的啟發(fā),提出了一種基于學(xué)習(xí)的方法,名為深度最近點(diǎn)(DCP)。我們的模型由三部分組成:一個(gè)點(diǎn)云嵌入網(wǎng)絡(luò),一個(gè)與指針生成層相結(jié)合的基于注意力的模塊,用于近似組合匹配,以及一個(gè)可微奇異值分解(SVD)層,用于提取最終的剛性變換。我們?cè)贛odelNet40數(shù)據(jù)集上端到端地訓(xùn)練我們的模型,并在幾個(gè)設(shè)置中顯示它比ICP、其變體(例如,Go-ICP、FGR)和最近提出的基于學(xué)習(xí)的方法PointNetLK執(zhí)行得更好。除了提供最先進(jìn)的注冊(cè)技術(shù),我們還評(píng)估了我們學(xué)習(xí)的特征轉(zhuǎn)移到看不見的物體的適用性。我們還提供了我們的學(xué)習(xí)模型的初步分析,以幫助理解特定領(lǐng)域和/或全局特征是否有助于剛性注冊(cè)。60、DeepTAM標(biāo)題:DeepTAM: Deep Tracking and Mapping with Convolutional Neural Networks作者:Huizhong Zhou; Benjamin Ummenhofer; Thomas Brox單位:弗賴堡大學(xué)來(lái)源:2020 IJCV原文鏈接:https://lmb.informatik.uni-freiburg.de/Publications/2019/ZUB19a/代碼鏈接:https://github.com/lmb-freiburg/deeptam摘要:我們提出了一個(gè)基于密集關(guān)鍵幀的攝像機(jī)跟蹤和深度圖估計(jì)的系統(tǒng),它是完全學(xué)習(xí)的。對(duì)于跟蹤,我們估計(jì)當(dāng)前相機(jī)圖像和合成視點(diǎn)之間的小姿態(tài)增量。這個(gè)公式大大簡(jiǎn)化了學(xué)習(xí)問(wèn)題,并減輕了相機(jī)運(yùn)動(dòng)的數(shù)據(jù)集偏差。此外,我們表明,產(chǎn)生大量的姿態(tài)假設(shè)導(dǎo)致更準(zhǔn)確的預(yù)測(cè)。對(duì)于制圖,我們?cè)谝援?dāng)前深度估計(jì)為中心的成本體積中積累信息。然后,映射網(wǎng)絡(luò)結(jié)合成本體和關(guān)鍵幀圖像來(lái)更新深度預(yù)測(cè),從而有效地利用深度測(cè)量和基于圖像的先驗(yàn)。我們的方法用很少的圖像產(chǎn)生最先進(jìn)的結(jié)果,并且對(duì)于有噪聲的相機(jī)姿態(tài)是魯棒的。我們證明了我們的6自由度跟蹤的性能與RGB-D跟蹤算法相競(jìng)爭(zhēng)。我們優(yōu)于強(qiáng)經(jīng)典和深度學(xué)習(xí)驅(qū)動(dòng)的密集深度算法。四、 總結(jié)到這里,SLAM綜述論文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”中的開源方案就整理結(jié)束了,60項(xiàng)開源項(xiàng)目基本都是頂會(huì)頂刊。由于SLAM領(lǐng)域下沉速度非??欤虼斯P者并沒(méi)有總結(jié)2017年以前的方案。同時(shí),也沒(méi)有整理單目深度估計(jì)方向的方案(SC-Depth是因?yàn)樗O(shè)計(jì)了偽RGBD),原因主要是單目深度估計(jì)本身就是一個(gè)非常龐大的課題,與SLAM的關(guān)系又是那么的若即若離。其實(shí)看完這些開源方案,感覺(jué)深度學(xué)習(xí)在SLAM的各個(gè)領(lǐng)域都已經(jīng)有很大進(jìn)展了。但每種方案又有其各自的應(yīng)用場(chǎng)景和限制,因此讀者需要根據(jù)自己的實(shí)際應(yīng)用場(chǎng)景,有針對(duì)的選擇、復(fù)現(xiàn)、優(yōu)化開源方案。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

點(diǎn)擊進(jìn)入—>3D視覺(jué)工坊學(xué)習(xí)交流群


(資料圖片)

干貨下載與學(xué)習(xí)

后臺(tái)回復(fù):巴塞羅那自治大學(xué)課件,即可下載國(guó)外大學(xué)沉淀數(shù)年3D Vison精品課件

后臺(tái)回復(fù):計(jì)算機(jī)視覺(jué)書籍,即可下載3D視覺(jué)領(lǐng)域經(jīng)典書籍pdf

后臺(tái)回復(fù):3D視覺(jué)課程,即可學(xué)習(xí)3D視覺(jué)領(lǐng)域精品課程

3D視覺(jué)工坊精品課程官網(wǎng):3dcver.com

1.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)2.徹底搞透視覺(jué)三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)3.國(guó)內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程4.激光-視覺(jué)-IMU-GPS融合SLAM算法梳理和代碼講解5.徹底搞懂視覺(jué)-慣性SLAM:基于VINS-Fusion正式開課啦6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化7.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)

8.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]

9.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)10.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)11.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)12.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)13.ROS2從入門到精通:理論與實(shí)戰(zhàn)14.國(guó)內(nèi)首個(gè)3D缺陷檢測(cè)教程:理論、源碼與實(shí)戰(zhàn)15.基于Open3D的點(diǎn)云處理入門與實(shí)戰(zhàn)教程16.透徹理解視覺(jué)ORB-SLAM3:理論基礎(chǔ)+代碼解析+算法改進(jìn)

重磅!粉絲學(xué)習(xí)交流群已成立

交流群主要有3D視覺(jué)、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺(jué)產(chǎn)品落地、視覺(jué)競(jìng)賽、車牌識(shí)別、硬件選型、ORB-SLAM系列源碼交流、深度估計(jì)、TOF、求職交流等方向。掃描以下二維碼,添加小助理微信(dddvisiona),一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺(jué)+ 上海交大 + 靜靜“。請(qǐng)按照格式備注,可快速被通過(guò)且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。▲長(zhǎng)按加微信群或投稿,微信號(hào):dddvisiona

3D視覺(jué)從入門到精通知識(shí)星球:針對(duì)3D視覺(jué)領(lǐng)域的視頻課程(三維重建系列、三維點(diǎn)云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機(jī)標(biāo)定、激光/視覺(jué)SLAM、自動(dòng)駕駛等)、源碼分享、知識(shí)點(diǎn)匯總、入門進(jìn)階學(xué)習(xí)路線、最新paper分享、疑問(wèn)解答等進(jìn)行深耕,更有各類大廠的算法工程人員進(jìn)行技術(shù)指導(dǎo)。與此同時(shí),星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺(jué)相關(guān)算法開發(fā)崗位以及項(xiàng)目對(duì)接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),6000+星球成員為創(chuàng)造更好的AI世界共同進(jìn)步,知識(shí)星球入口:

學(xué)習(xí)3D視覺(jué)核心技術(shù),掃描查看,3天內(nèi)無(wú)條件退款高質(zhì)量教程資料、答疑解惑、助你高效解決問(wèn)題覺(jué)得有用,麻煩給個(gè)贊和在看~

關(guān)鍵詞: 最先進(jìn)的 神經(jīng)網(wǎng)絡(luò) 計(jì)算機(jī)視覺(jué)

相關(guān)閱讀