Abstract
我們提出了一種新穎的、概念上簡(jiǎn)單的通用框架,用于在3D點(diǎn)云上進(jìn)行實(shí)例分割。我們的方法稱為3D-BoNet,遵循每點(diǎn)多層感知器(MLP)的簡(jiǎn)單設(shè)計(jì)理念。該框架直接回歸點(diǎn)云中所有實(shí)例的3D邊界框,同時(shí)預(yù)測(cè)每個(gè)實(shí)例的點(diǎn)級(jí)(point-level)掩碼。它由一個(gè)主干網(wǎng)絡(luò)和兩個(gè)并行網(wǎng)絡(luò)分支組成,用于1)邊界框回歸和2)點(diǎn)掩碼預(yù)測(cè)。3D-BoNet是單階段、anchor-free和端到端可訓(xùn)練的。此外,它的計(jì)算效率非常高,因?yàn)榕c現(xiàn)有方法不同,它不需要任何后處理步驟,例如非極大值抑制、特征采樣、聚類或投票。大量實(shí)驗(yàn)表明,我們的方法超越了ScanNet和S3DIS數(shù)據(jù)集上的現(xiàn)有工作,同時(shí)計(jì)算效率提高了大約10倍。綜合消融研究證明了我們?cè)O(shè)計(jì)的有效性。
1 Introduction
使機(jī)器能夠理解3D場(chǎng)景是自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)的基本必要條件。點(diǎn)云等3D幾何數(shù)據(jù)的核心問(wèn)題包括語(yǔ)義分割、目標(biāo)檢測(cè)和實(shí)例分割。在這些問(wèn)題中,實(shí)例分割在文獻(xiàn)中才開(kāi)始得到解決。主要障礙是點(diǎn)云本質(zhì)上是無(wú)序的、非結(jié)構(gòu)化的和不均勻的。廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)需要對(duì)3D點(diǎn)云進(jìn)行體素化,從而產(chǎn)生高計(jì)算和內(nèi)存成本。
第一個(gè)直接處理3D實(shí)例分割的神經(jīng)算法是SGPN [50],它通過(guò)相似度矩陣學(xué)習(xí)對(duì)每個(gè)點(diǎn)的特征進(jìn)行分組。類似地,ASIS [51]、JSIS3D[34]、MASC[30]、3D-BEVIS[8]和[28]將相同的每點(diǎn)特征分組pipeline應(yīng)用于分割3D實(shí)例。 Mo等人將實(shí)例分割表述為PartNet[32]中的逐點(diǎn)特征分類問(wèn)題。然而,這些proposal-free方法的學(xué)習(xí)片段不具有很高的對(duì)象性,因?yàn)樗鼈儧](méi)有明確地檢測(cè)目標(biāo)邊界。此外,它們不可避免地需要后處理步驟,例如均值偏移聚類[6]來(lái)獲得最終的實(shí)例標(biāo)簽,這在計(jì)算上是繁重的。另一個(gè)pipeline是基于proposal的3D-SIS[15]和GSPN[58],它們通常依靠?jī)呻A段訓(xùn)練和昂貴的非最大抑制來(lái)修剪密集目標(biāo)proposal。
在本文中,我們提出了一個(gè)優(yōu)雅、高效和新穎的3D實(shí)例分割框架,通過(guò)使用高效的MLPs的單前向階段,對(duì)物體進(jìn)行松散但唯一的檢測(cè),然后通過(guò)一個(gè)簡(jiǎn)單的點(diǎn)級(jí)二進(jìn)制分類器對(duì)每個(gè)實(shí)例進(jìn)行精確分割。為此,我們引入了一個(gè)新的邊界框預(yù)測(cè)模塊以及一系列精心設(shè)計(jì)的損失函數(shù)來(lái)直接學(xué)習(xí)目標(biāo)邊界。我們的框架與現(xiàn)有的基于proposal和proposal-free的方法有很大不同,因?yàn)槲覀兡軌蛴行У胤指钏芯哂懈吣繕?biāo)性的實(shí)例,但不依賴于昂貴且密集的目標(biāo)proposal。我們的代碼和數(shù)據(jù)可在https://github.com/Yang7879/3D-BoNet獲得。
圖 1:在3D點(diǎn)云上進(jìn)行實(shí)例分割的3D-BoNet框架。
邊界框預(yù)測(cè)分支是我們框架的核心。該分支旨在為single forward階段中的每個(gè)實(shí)例預(yù)測(cè)一個(gè)唯一的、無(wú)方向的矩形邊界框,而不依賴于預(yù)定義的空間anchors或區(qū)域proposal網(wǎng)絡(luò)[39]。如圖2所示,我們認(rèn)為為實(shí)例粗略繪制3D邊界框是相對(duì)可以實(shí)現(xiàn)的,因?yàn)檩斎朦c(diǎn)云明確包含3D幾何信息,而在處理點(diǎn)級(jí)實(shí)例分割之前非常有益,因?yàn)楹侠淼倪吔缈蚩梢员WC學(xué)習(xí)片段的高度目標(biāo)性。然而,學(xué)習(xí)實(shí)例框涉及到關(guān)鍵問(wèn)題:1)總實(shí)例的數(shù)量是可變的,即從1到許多,2)所有實(shí)例沒(méi)有固定的順序。這些問(wèn)題對(duì)正確優(yōu)化網(wǎng)絡(luò)提出了巨大挑戰(zhàn),因?yàn)闆](méi)有信息可以直接將預(yù)測(cè)框與ground truth標(biāo)簽聯(lián)系起來(lái)以監(jiān)督網(wǎng)絡(luò)。但是,我們展示了如何優(yōu)雅地解決這些問(wèn)題。這個(gè)框預(yù)測(cè)分支簡(jiǎn)單地將全局特征向量作為輸入,并直接輸出大量固定數(shù)量的邊界框以及置信度分?jǐn)?shù)。這些分?jǐn)?shù)用于指示框是否包含有效實(shí)例。為了監(jiān)督網(wǎng)絡(luò),我們?cè)O(shè)計(jì)了一個(gè)新穎的邊界框關(guān)聯(lián)層,然后是一個(gè)多標(biāo)準(zhǔn)損失函數(shù)。給定一組ground-truth實(shí)例,我們需要確定哪個(gè)預(yù)測(cè)框最適合它們。我們將此關(guān)聯(lián)過(guò)程表述為具有現(xiàn)有求解器的最優(yōu)分配問(wèn)題。在框被最佳關(guān)聯(lián)之后,我們的多準(zhǔn)則損失函數(shù)不僅最小化了配對(duì)框的歐幾里德距離,而且最大化了預(yù)測(cè)框內(nèi)有效點(diǎn)的覆蓋率。
圖 2:粗略的實(shí)例框。
然后將預(yù)測(cè)的框與點(diǎn)和全局特征一起輸入到后續(xù)的點(diǎn)掩碼預(yù)測(cè)分支中,以便為每個(gè)實(shí)例預(yù)測(cè)一個(gè)點(diǎn)級(jí)二進(jìn)制掩碼。這個(gè)分支的目的是分類邊界框內(nèi)的每個(gè)點(diǎn)是屬于有效實(shí)例還是背景。假設(shè)估計(jì)的實(shí)例框相當(dāng)好,很可能獲得準(zhǔn)確的點(diǎn)掩碼,因?yàn)檫@個(gè)分支只是拒絕不屬于檢測(cè)到的實(shí)例的點(diǎn)。隨機(jī)猜測(cè)可能會(huì)帶來(lái)50%的修正。
總體而言,我們的框架在三個(gè)方面與所有現(xiàn)有的3D實(shí)例分割方法不同。1)與proposal-free pipeline相比,我們的方法通過(guò)顯式學(xué)習(xí)3D目標(biāo)邊界來(lái)分割具有高目標(biāo)性的實(shí)例。2)與廣泛使用的基于proposal的方法相比,我們的框架不需要昂貴且密集的proposal。3)我們的框架非常高效,因?yàn)閷?shí)例級(jí)(instance-level)掩碼是在單次前向(single-forward)傳遞中學(xué)習(xí)的,不需要任何后處理步驟。我們的主要貢獻(xiàn)是:
- 我們提出了一個(gè)在3D點(diǎn)云上進(jìn)行實(shí)例分割的新框架。該框架是單階段、anchor-free和端到端可訓(xùn)練的,不需要任何后處理步驟。
- 我們?cè)O(shè)計(jì)了一個(gè)新穎的邊界框關(guān)聯(lián)層,然后是一個(gè)多標(biāo)準(zhǔn)損失函數(shù)來(lái)監(jiān)督框預(yù)測(cè)分支。
- 我們展示了對(duì)baselines的顯著改進(jìn),并通過(guò)廣泛的消融研究為我們的設(shè)計(jì)選擇提供了直覺(jué)依據(jù)。
圖 3:3D-BoNet框架的一般工作流程。
2 3D-BoNet
2.1 Overview
2.2 Bounding Box Prediction
「邊界框編碼:」 在現(xiàn)有的目標(biāo)檢測(cè)網(wǎng)絡(luò)中,邊界框通常由中心位置和三個(gè)維度的長(zhǎng)度[3]或?qū)?yīng)的殘差[60]以及方向來(lái)表示。相反,為簡(jiǎn)單起見(jiàn),我們僅通過(guò)兩個(gè)min-max頂點(diǎn)參數(shù)化矩形邊界框:
圖 4:邊界框回歸分支的架構(gòu)。在計(jì)算多標(biāo)準(zhǔn)損失之前,預(yù)測(cè)的個(gè)框與個(gè)ground truth框最佳關(guān)聯(lián)。
為了解決上述最優(yōu)關(guān)聯(lián)問(wèn)題,現(xiàn)有的Hungarian算法[20;21]應(yīng)用。關(guān)聯(lián)矩陣計(jì)算:為了評(píng)估第個(gè)預(yù)測(cè)框和第個(gè)ground truth之間的相似性,一個(gè)簡(jiǎn)單直觀的標(biāo)準(zhǔn)是兩對(duì)最小-最大頂點(diǎn)之間的歐幾里德距離。然而,它不是最優(yōu)的?;旧希覀兿MA(yù)測(cè)框包含盡可能多的有效點(diǎn)。如圖5所示,輸入點(diǎn)云通常是稀疏的,并且在3D空間中分布不均勻。對(duì)于相同的ground truth框#0(藍(lán)色),候選框#2(紅色)被認(rèn)為比候選框#1(黑色)要好得多,因?yàn)榭?2有更多的有效點(diǎn)與#0重疊。因此,在計(jì)算cost矩陣時(shí),應(yīng)包括有效點(diǎn)的覆蓋范圍。在本文中,我們考慮以下三個(gè)標(biāo)準(zhǔn):
圖 5:稀疏輸入點(diǎn)云。
2.3 Point Mask Prediction
表 1ScanNet(v2)基準(zhǔn)(隱藏測(cè)試集)上的實(shí)例分割結(jié)果。度量標(biāo)準(zhǔn)是IoU閾值為0.5的AP(%)。于2019年6月2日訪問(wèn)
圖 6:點(diǎn)掩碼預(yù)測(cè)分支的架構(gòu)。點(diǎn)特征與每個(gè)邊界框和分?jǐn)?shù)融合,然后為每個(gè)實(shí)例預(yù)測(cè)一個(gè)point-level二進(jìn)制掩碼
2.4 End-to-End Implementation
3 Experiments
3.1 Evaluation on ScanNet Benchmark
我們首先在ScanNet(v2) 3D語(yǔ)義實(shí)例分割基準(zhǔn)[7]上評(píng)估我們的方法。與SGPN[50]類似,我們將原始輸入點(diǎn)云分成1mx1m塊進(jìn)行訓(xùn)練,同時(shí)使用所有點(diǎn)進(jìn)行測(cè)試,然后使用BlockMerging算法[50]將塊組裝成完整的3D場(chǎng)景。在我們的實(shí)驗(yàn)中,我們觀察到基于vanilla PointNet++的語(yǔ)義預(yù)測(cè)子分支的性能有限,無(wú)法提供令人滿意的語(yǔ)義。由于我們框架的靈活性,我們因此可以輕松地訓(xùn)練一個(gè)并行SCN網(wǎng)絡(luò)[11]來(lái)為我們的3D-BoNet的預(yù)測(cè)實(shí)例估計(jì)更準(zhǔn)確的每點(diǎn)語(yǔ)義標(biāo)簽。IoU閾值為0.5的平均精度(AP)用作評(píng)估指標(biāo)。
我們與表1中18個(gè)目標(biāo)類別的領(lǐng)先方法進(jìn)行了比較。特別是,SGPN[50]、3D-BEVIS[8]、MASC[30]和[28]是基于點(diǎn)特征聚類的方法;RPointNet[58]學(xué)習(xí)生成密集目標(biāo)proposals,然后進(jìn)行點(diǎn)級(jí)分割;3D-SIS[15]是一種基于proposal的方法,使用點(diǎn)云和彩色圖像作為輸入。PanopticFusion[33]學(xué)習(xí)通過(guò)Mask-RCNN[13]在多個(gè)2D圖像上分割實(shí)例,然后使用SLAM系統(tǒng)重新投影回3D空間。我們的方法僅使用點(diǎn)云就超越了它們。值得注意的是,我們的框架在所有類別上的表現(xiàn)都相對(duì)令人滿意,而不偏愛(ài)特定的類,這證明了我們框架的優(yōu)越性。
圖7:這顯示了一個(gè)包含數(shù)百個(gè)目標(biāo)(例如椅子、桌子)的演講室,突出了實(shí)例分割的挑戰(zhàn)。不同的顏色表示不同的實(shí)例。同一個(gè)實(shí)例可能有不同的顏色。我們的框架比其他框架預(yù)測(cè)更精確的實(shí)例標(biāo)簽。
3.2 Evaluation on S3DIS Dataset
我們進(jìn)一步評(píng)估了我們框架在S3DIS[1]上的語(yǔ)義實(shí)例分割,其中包括來(lái)自6個(gè)大區(qū)域的271個(gè)房間的3D完整掃描。我們的數(shù)據(jù)預(yù)處理和實(shí)驗(yàn)設(shè)置嚴(yán)格遵循PointNet[37]、SGPN[50]、ASIS[51]和JSIS3D[34]。在我們的實(shí)驗(yàn)中,H設(shè)置為24,我們遵循6倍評(píng)估[1; 51]。
我們與ASIS[51]、S3DIS上的最新技術(shù)和PartNet baseline[32]進(jìn)行比較。為了公平比較,我們使用與我們框架中使用的相同PointNet++主干和其他設(shè)置仔細(xì)訓(xùn)練PartNet baseline。為了評(píng)估,報(bào)告了IoU閾值為0.5的經(jīng)典指標(biāo)平均精度(mPrec)和平均召回率(mRec)。請(qǐng)注意,對(duì)于我們的方法和PartNet基線,我們使用相同的BlockMerging算法[50]來(lái)合并來(lái)自不同塊的實(shí)例。最終分?jǐn)?shù)是總共13個(gè)類別的平均值。表2顯示了mPrec/mRec分?jǐn)?shù),圖7顯示了定性結(jié)果。我們的方法大大超過(guò)了PartNet baseline[32],并且也優(yōu)于ASIS[51],但并不顯著,主要是因?yàn)槲覀兊恼Z(yǔ)義預(yù)測(cè)分支(基于vanilla PointNet++)不如ASIS,后者緊密融合語(yǔ)義和實(shí)例特征以實(shí)現(xiàn)相互優(yōu)化。我們將特征融合作為我們未來(lái)的探索
表 2:S3DIS 數(shù)據(jù)集上的實(shí)例分割結(jié)果。
3.3 Ablation Study
為了評(píng)估我們框架每個(gè)組件的有效性,我們?cè)赟3DIS數(shù)據(jù)集的最大區(qū)域5上進(jìn)行了6組消融實(shí)驗(yàn)。
表3:S3DIS區(qū)域5上所有消融實(shí)驗(yàn)的實(shí)例分割結(jié)果。
「分析。」 表3顯示了消融實(shí)驗(yàn)的分?jǐn)?shù)。(1) box score子分支確實(shí)有利于整體實(shí)例分割性能,因?yàn)樗鼉A向于懲罰重復(fù)的box預(yù)測(cè)。(2)與歐幾里得距離和交叉熵得分相比,由于我們的可微算法1,框關(guān)聯(lián)和監(jiān)督的sIoU成本往往更好。由于三個(gè)單獨(dú)的標(biāo)準(zhǔn)更喜歡不同類型的點(diǎn)結(jié)構(gòu),因此三個(gè)簡(jiǎn)單的組合在特定數(shù)據(jù)集上,標(biāo)準(zhǔn)可能并不總是最優(yōu)的。(3)如果沒(méi)有對(duì)框預(yù)測(cè)的監(jiān)督,性能會(huì)顯著下降,主要是因?yàn)榫W(wǎng)絡(luò)無(wú)法推斷出令人滿意的實(shí)例3D邊界,并且預(yù)測(cè)點(diǎn)掩碼的質(zhì)量相應(yīng)下降。(4)與focal loss相比,由于實(shí)例和背景點(diǎn)數(shù)的不平衡,標(biāo)準(zhǔn)交叉熵?fù)p失對(duì)點(diǎn)掩碼預(yù)測(cè)的效果較差。
3.4 Computation Analysis
4 Related Work
為了從3D點(diǎn)云中提取特征,傳統(tǒng)方法通常手動(dòng)制作特征[5; 42]。最近基于學(xué)習(xí)的方法主要包括基于體素的[42;46; 41; 23; 40; 11; 4]和基于點(diǎn)的方案[37;19; 14; 16; 45]。
「Semantic Segmentation」 PointNet[37]顯示了分類和語(yǔ)義分割的領(lǐng)先結(jié)果,但它沒(méi)有捕獲上下文特征。為了解決這個(gè)問(wèn)題,許多方法[38; 57; 43; 31; 55; 49; 26; 17]最近被提出。另一個(gè)管道是基于卷積核的方法[55; 27; 47]?;旧?,這些方法中的大多數(shù)都可以用作我們的骨干網(wǎng)絡(luò),并與我們的3D-BoNet并行訓(xùn)練以學(xué)習(xí)每點(diǎn)語(yǔ)義。
「Object Detection」 在3D點(diǎn)云中檢測(cè)目標(biāo)的常用方法是將點(diǎn)投影到2D圖像上以回歸邊界框[25;48; 3;56; 59; 53]。通過(guò)融合[3]中的RGB圖像,檢測(cè)性能進(jìn)一步提高融合RGB圖像[3;54;36;52].。點(diǎn)云也可以分為體素用于目標(biāo)檢測(cè)[9;24; 60]。然而,這些方法中的大多數(shù)都依賴于預(yù)定義的錨點(diǎn)和兩階段區(qū)域proposal網(wǎng)絡(luò)[39]。在3D點(diǎn)云上擴(kuò)展它們是低效的。在不依賴anchors的情況下,最近的PointRCNN[44]學(xué)習(xí)通過(guò)前景點(diǎn)分割進(jìn)行檢測(cè),而VoteNet[35]通過(guò)點(diǎn)特征分組、采樣和投票來(lái)檢測(cè)目標(biāo)。相比之下,我們的框預(yù)測(cè)分支與它們完全不同。我們的框架通過(guò)單次前向傳遞直接從緊湊的全局特征中回歸3D目標(biāo)邊界框。
「Instance Segmentation」 SGPN[50]是第一個(gè)通過(guò)對(duì)point-level嵌入進(jìn)行分組來(lái)分割3D點(diǎn)云實(shí)例的神經(jīng)算法。ASIS[51]、JSIS3D[34]、MASC[30]、3D-BEVIS[8]和[28]使用相同的策略對(duì)點(diǎn)級(jí)特征進(jìn)行分組,例如實(shí)例分割。Mo等人通過(guò)對(duì)點(diǎn)特征進(jìn)行分類,在PartNet[32]中引入了一種分割算法。然而,這些proposal-free方法的學(xué)習(xí)片段不具有很高的目標(biāo)性,因?yàn)樗鼪](méi)有明確地檢測(cè)目標(biāo)邊界。通過(guò)借鑒成功的2D RPN[39]和RoI [13],GSPN[58]和3D-SIS[15]是基于proposal的3D實(shí)例分割方法。但是,它們通常依賴于兩階段訓(xùn)練和一個(gè)后處理步驟來(lái)進(jìn)行密集提議修剪。相比之下,我們的框架直接為明確檢測(cè)到的對(duì)象邊界內(nèi)的每個(gè)實(shí)例預(yù)測(cè)一個(gè)point-level掩碼,而不需要任何后處理步驟。
5 Conclusion
我們的框架簡(jiǎn)單、有效且高效,可用于3D點(diǎn)云上的實(shí)例分割。但是,它也有一些限制,導(dǎo)致未來(lái)的工作。(1)與其使用三個(gè)準(zhǔn)則的未加權(quán)組合,不如設(shè)計(jì)一個(gè)模塊來(lái)自動(dòng)學(xué)習(xí)權(quán)重,以適應(yīng)不同類型的輸入點(diǎn)云。(2)可以引入更高級(jí)的特征融合模塊來(lái)相互改進(jìn)語(yǔ)義和實(shí)例分割,而不是訓(xùn)練單獨(dú)的分支進(jìn)行語(yǔ)義預(yù)測(cè)。(3)我們的框架遵循MLP設(shè)計(jì),因此與輸入點(diǎn)的數(shù)量和順序無(wú)關(guān)。通過(guò)借鑒最近的工作[10][22],直接在大規(guī)模輸入點(diǎn)云上而不是分割的小塊上進(jìn)行訓(xùn)練和測(cè)試是可取的。
原文鏈接:https://arxiv.org/abs/1906.01140
References
[1] I. Armeni, O. Sener, A. Zamir, and H. Jiang. 3D Semantic Parsing of Large-Scale Indoor Spaces. CVPR, 2016.
[2] Y . Bengio, N. Léonard, and A. Courville. Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation. arXiv, 2013.
[3] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-View 3D Object Detection Network for Autonomous Driving. CVPR, 2017.
[4] C. Choy, J. Gwak, and S. Savarese. 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR, 2019.
[5] C. S. Chua and R. Jarvis. Point signatures: A new representation for 3d object recognition. IJCV, 25(1):63–85, 1997.
[6] D. Comaniciu and P . Meer. Mean Shift: A Robust Approach toward Feature Space Analysis. TPAMI, 24(5):603–619, 2002.
[7] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nie?ner. ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR, 2017.
[8] C. Elich, F. Engelmann, J. Schult, T. Kontogianni, and B. Leibe. 3D-BEVIS: Birds-Eye-View Instance Segmentation. GCPR, 2019.
[9] M. Engelcke, D. Rao, D. Z. Wang, C. H. Tong, and I. Posner. V ote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks. ICRA, 2017.
[10] F. Engelmann, T. Kontogianni, A. Hermans, and B. Leibe. Exploring Spatial Context for 3D Semantic Segmentation of Point Clouds. ICCV Workshops, 2017.
[11] B. Graham, M. Engelcke, and L. v. d. Maaten. 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks. CVPR, 2018.
[12] A. Grover, E. Wang, A. Zweig, and S. Ermon. Stochastic Optimization of Sorting Networks via Continuous Relaxations. ICLR, 2019.
[13] K. He, G. Gkioxari, P . Dollar, and R. Girshick. Mask R-CNN. ICCV, 2017.
[14] P . Hermosilla, T. Ritschel, P .-P . V azquez, A. Vinacua, and T. Ropinski. Monte Carlo Convolution for Learning on Non-Uniformly Sampled Point Clouds. ACM Transactions on Graphics, 2018.
[15] J. Hou, A. Dai, and M. Nie?ner. 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR, 2019.
[16] B.-S. Hua, M.-K. Tran, and S.-K. Yeung. Pointwise Convolutional Neural Networks. CVPR, 2018.
[17] Q. Huang, W. Wang, and U. Neumann. Recurrent Slice Networks for 3D Segmentation of Point Clouds. CVPR, 2018.
[18] D. P . Kingma and J. Ba. Adam: A method for stochastic optimization. ICLR, 2015.
[19] R. Klokov and V . Lempitsky. Escape from Cells: Deep Kd-Networks for The Recognition of 3D Point Cloud Models. ICCV, 2017.
[20] H. W. Kuhn. The Hungarian Method for the assignment problem. Naval Research Logistics Quarterly, 2(1-2):83–97, 1955.
[21] H. W. Kuhn. V ariants of the hungarian method for assignment problems. Naval Research Logistics Quarterly, 3(4):253–258, 1956.
[22] L. Landrieu and M. Simonovsky. Large-scale Point Cloud Semantic Segmentation with Superpoint Graphs. CVPR, 2018.
[23] T. Le and Y . Duan. PointGrid: A Deep Network for 3D Shape Understanding. CVPR, 2018.
[24] B. Li. 3D Fully Convolutional Network for V ehicle Detection in Point Cloud. IROS, 2017.
[25] B. Li, T. Zhang, and T. Xia. V ehicle Detection from 3D Lidar Using Fully Convolutional Network. RSS, 2016.
[26] J. Li, B. M. Chen, and G. H. Lee. SO-Net: Self-Organizing Network for Point Cloud Analysis. CVPR, 2018.
[27] Y . Li, R. Bu, M. Sun, W. Wu, X. Di, and B. Chen. PointCNN : Convolution On X -Transformed Points. NeurlPS, 2018.
[28] Z. Liang, M. Yang, and C. Wang. 3D Graph Embedding Learning with a Structure-aware Loss Function for Point Cloud Semantic Instance Segmentation. arXiv, 2019.
[29] T.-Y . Lin, P . Goyal, R. Girshick, K. He, and P . Dollar. Focal Loss for Dense Object Detection. ICCV, 2017.
[30] C. Liu and Y . Furukawa. MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation. arXiv, 2019.
[31] S. Liu, S. Xie, Z. Chen, and Z. Tu. Attentional ShapeContextNet for Point Cloud Recognition. CVPR, 2018.
[32] K. Mo, S. Zhu, A. X. Chang, L. Yi, S. Tripathi, L. J. Guibas, and H. Su. PartNet: A Large-scale Benchmark for Fine-grained and Hierarchical Part-level 3D Object Understanding. CVPR, 2019.
[33] G. Narita, T. Seno, T. Ishikawa, and Y . Kaji. PanopticFusion: Online V olumetric Semantic Mapping at the Level of Stuff and Things. IROS, 2019.
[34] Q.-H. Pham, D. T. Nguyen, B.-S. Hua, G. Roig, and S.-K. Yeung. JSIS3D: Joint Semantic-Instance Segmentation of 3D Point Clouds with Multi-Task Pointwise Networks and Multi-V alue Conditional Random Fields. CVPR, 2019.
[35] C. R. Qi, O. Litany, K. He, and L. J. Guibas. Deep Hough V oting for 3D Object Detection in Point Clouds. ICCV, 2019.
[36] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas. Frustum PointNets for 3D Object Detection from RGB-D Data. CVPR, 2018.
[37] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. CVPR, 2017.
[38] C. R. Qi, L. Yi, H. Su, and L. J. Guibas. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. NIPS, 2017.
[39] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks. NIPS, 2015.
[40] D. Rethage, J. Wald, J. Sturm, N. Navab, and F. Tombari. Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV, 2018.
[41] G. Riegler, A. O. Ulusoy, and A. Geiger. OctNet: Learning Deep 3D Representations at High Resolutions. CVPR, 2017.
[42] R. B. Rusu, N. Blodow, and M. Beetz. Fast point feature histograms (fpfh) for 3d registration. ICRA, 2009.
[43] Y . Shen, C. Feng, Y . Yang, and D. Tian. Mining Point Cloud Local Structures by Kernel Correlation and Graph Pooling. CVPR, 2018.
[44] S. Shi, X. Wang, and H. Li. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud. CVPR, 2019.
[45] H. Su, V . Jampani, D. Sun, S. Maji, E. Kalogerakis, M.-H. Y ang, and J. Kautz. SPLA TNet: Sparse Lattice Networks for Point Cloud Processing. CVPR, 2018.
[46] L. P . Tchapmi, C. B. Choy, I. Armeni, J. Gwak, and S. Savarese. SEGCloud: Semantic Segmentation of 3D Point Clouds. 3DV, 2017.
[47] H. Thomas, C. R. Qi, J.-E. Deschaud, B. Marcotegui, F. Goulette, and L. J. Guibas. KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV, 2019.
[48] V . V aquero, I. Del Pino, F. Moreno-Noguer, J. Soì, A. Sanfeliu, and J. Andrade-Cetto. Deconvolutional Networks for Point-Cloud V ehicle Detection and Tracking in Driving Scenarios. ECMR, 2017.
[49] C. Wang, B. Samari, and K. Siddiqi. Local Spectral Graph Convolution for Point Set Feature Learning. ECCV, 2018.
[50] W. Wang, R. Y u, Q. Huang, and U. Neumann. SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation. CVPR, 2018.
[51] X. Wang, S. Liu, X. Shen, C. Shen, and J. Jia. Associatively Segmenting Instances and Semantics in Point Clouds. CVPR, 2019.
[52] Z. Wang, W. Zhan, and M. Tomizuka. Fusing Bird View LIDAR Point Cloud and Front View Camera Image for Deep Object Detection. arXiv, 2018.
[53] B. Wu, A. Wan, X. Y ue, and K. Keutzer. SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud. arXiv, 2017.
[54] D. Xu, D. Anguelov, and A. Jain. PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation. CVPR, 2018.
[55] Y . Xu, T. Fan, M. Xu, L. Zeng, and Y . Qiao. SpiderCNN: Deep Learning on Point Sets with Parameterized Convolutional Filters. ECCV, 2018.
[56] G. Yang, Y . Cui, S. Belongie, and B. Hariharan. Learning Single-View 3D Reconstruction with Limited Pose Supervision. ECCV, 2018.
[57] X. Ye, J. Li, H. Huang, L. Du, and X. Zhang. 3D Recurrent Neural Networks with Context Fusion for Point Cloud Semantic Segmentation. ECCV, 2018.
[58] L. Yi, W. Zhao, H. Wang, M. Sung, and L. Guibas. GSPN: Generative Shape Proposal Network for 3D Instance Segmentation in Point Cloud. CVPR, 2019.
[59] Y . Zeng, Y . Hu, S. Liu, J. Y e, Y . Han, X. Li, and N. Sun. RT3D: Real-Time 3D V ehicle Detection in LiDAR Point Cloud for Autonomous Driving. IEEE Robotics and Automation Letters, 3(4):3434–3440, 2018.
[60] Y . Zhou and O. Tuzel. V oxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. CVPR, 2018.