深度學(xué)習(xí)基于圖像的三維重建研究
- 來源:學(xué)習(xí)導(dǎo)刊 smarty:if $article.tag?>
- 關(guān)鍵字:三維重建,深度學(xué)習(xí),圖像 smarty:/if?>
- 發(fā)布時間:2022-01-05 10:46
摘要:基于圖像三維重建是計算機視覺領(lǐng)域多年探索的重要研究問題,其在視覺感知、環(huán)境識別、三維建模等領(lǐng)域也有著十分重要的意義。本文將對深度學(xué)習(xí)在基于圖像的物體三維重建領(lǐng)域的研究進(jìn)行綜述。主要介紹了基于圖像的三維重建的研究背景,圖像重建的幾種傳統(tǒng)方法以及深度學(xué)習(xí)實現(xiàn)的有代表性的經(jīng)典框架、算法及網(wǎng)絡(luò)模型得出結(jié)論。
1.研究背景
三維重建指對圖像或者其深度信息進(jìn)行三維模型還原重建的過程。其中涉及了包括多視圖立體幾何、深度圖估計、網(wǎng)格重建、優(yōu)化等技術(shù),可應(yīng)用于虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)、自動駕駛等領(lǐng)域。三維重建方法有多種分類?;趩螆D重建是從給定的單幅圖像中提取目標(biāo)的二維幾何信息,利用先驗知識推測被遮擋部分,重構(gòu)出完整的三維結(jié)構(gòu)。而基于多圖像的重建要求輸入一系列圖像,運用相關(guān)原理還原深度信息重建三維模型,相較基于單圖重建,雖然克服了其因幾何信息不完整,造成圖像的屬性、重建不適應(yīng)等部分問題[1],但由于要從多方位測定重建對象更為耗費資源。
2.傳統(tǒng)三維重建方法
因為存在的諸多技術(shù)問題與難點,傳統(tǒng)的三維重建方法中大多以基于多目圖像實現(xiàn)為主。
2.1 基于RGB-D 的重建
消費級RGB-D 相機的出現(xiàn)推動了三維場景重建方法進(jìn)步,實現(xiàn)了用RGB-D 相機捕捉動、靜場景的綜合形狀模型,帶動了相關(guān)技術(shù)水平在多方面的飛躍 [2]。KinectFusion[3]出現(xiàn)于 2011 年,提出基于RGB-D 相機實時三維重建的概念。重建流程包含在預(yù)處理階段,輸入的深度圖通過雙邊濾波等相關(guān)處理,得到點云圖及法向量圖。在表面預(yù)測階段對TSDF(Truncated Signed Distance Function)模型進(jìn)行投影,估計出當(dāng)前模型的稠密表面。返回前一幀計算出的預(yù)測表面,通過ICP 算法結(jié)合當(dāng)前幀的測量表面得到對應(yīng)的相機位姿,將此信息整合融入到網(wǎng)格模型中并更新。最后,用TSDF 模型及位姿信息預(yù)測表面,當(dāng)前位姿作為下一幀信息材料的前一幀被讀入預(yù)測位姿,并形成閉環(huán)開始循環(huán)整個過程。
2.2 基于MVS 的三維重建
MVS 以一系列圖像實現(xiàn)重建,過程可以基本概括為圖像采集、位姿計算、模型重建、紋理貼圖4 個部分。視頻或同一物體的多張無規(guī)則圖片都可被采集輸入。利用計算的位姿信息結(jié)合RGB 圖像可重建出對象的網(wǎng)格模型,整個過程由稠密重建到融合深度圖為點云,重建曲面,最后優(yōu)化為精細(xì)度較高的網(wǎng)格模型。常見的MVS 有COLMAP,MVE,OpenMVS 等,一般采用SFM 或Slam 進(jìn)行位姿計算。綜合各項性能效果等結(jié)果, CPLMAP 結(jié)合OpenMVS 是目前基于MVS 重建中比較主流的方案。
3.基于深度學(xué)習(xí)的三維重建方法
近年來深度學(xué)習(xí)在三維重建上取得了很大的成功。卷積神經(jīng)網(wǎng)絡(luò)在特征匹配上的應(yīng)用使立體匹配的精度得到提升,基于學(xué)習(xí)的方法可以引入如鏡面先驗和反射先驗等全局語義信息,使匹配更加魯棒,從而解決傳統(tǒng)方法無法克服的難題。
MVSNet[4]是2018 年提出的一種基于深度學(xué)習(xí)的端到端的多視圖深度預(yù)測網(wǎng)絡(luò)。其模型結(jié)構(gòu)主要包含了特征提取、構(gòu)造代價體、代價正則化和深度估計與優(yōu)化幾個步驟,輸入一張參考圖像與多張源圖像,輸出預(yù)測的參考圖像深度圖。該方法首先用一個八層二維卷積神經(jīng)網(wǎng)絡(luò)提取圖像的深度特征,通過調(diào)整第三、六層步長劃分出三個尺度的輸出特征,輸出32 通道的特征圖用于后續(xù)的稠密匹配。MVSNet 的代價體構(gòu)建基于參考相機的視角平面進(jìn)行,將提取的圖像特征通過可微的單應(yīng)性變換使不同視角下的圖像特征變換到參考圖像的視角下,這個過程將會產(chǎn)生多個特征體,通過聚合這些特征體則構(gòu)建出一個統(tǒng)一的代價體。使用一個四級多尺度卷積優(yōu)化代價體生成概率空間,即每個像素在每個深度下的可能性大小,用于后續(xù)深度預(yù)測的同時也可用于測量估計的置信度。概率圖獲取深度估計,對深度圖進(jìn)行過濾,最后利用參考圖像的邊界信息優(yōu)化深度圖,提升邊緣部分的精度。
4.分析與總結(jié)
傳統(tǒng)方法通常直接輸入深度圖得到對應(yīng)點云或三維網(wǎng)格模型,而學(xué)習(xí)框架則一般先由匹配代價計算、代價聚合等過程得到深度圖或視差圖。
作為基于深度相機重建的先行者,KinectFusion 提出并使用 TSDF 模型實現(xiàn)實時重建,但由于需要大量內(nèi)存,模型精細(xì)度有所限制。同時因位姿計算僅在幀之間進(jìn)行,過程中有持續(xù)的誤差累積,模型對齊與拼接上可能產(chǎn)生偏移問題,后續(xù)皆在內(nèi)存與漂移上優(yōu)化改進(jìn)。傳統(tǒng)MVS 使用光度一致性等來計算稠密的三維信息,通過稠密匹配方式恢復(fù)物體、場景的三維結(jié)構(gòu)。雖然深度估計精度、重建準(zhǔn)確度較高,但在如弱紋理,高反光和重復(fù)紋理等場景中常出現(xiàn)錯誤匹配,使重建困難或不完整。 MVSNet 是第一個使用深度學(xué)習(xí)實現(xiàn)MVS 重建的框架,克服了傳統(tǒng)MVS 中可能存在的部分問題,但當(dāng)訓(xùn)練數(shù)據(jù)異常時,訓(xùn)練精度損失,將可能直接影響深度圖與后續(xù)點云、網(wǎng)格模型精度,在有遮擋的情況下,訓(xùn)練結(jié)果也不盡如人意,這些問題需要依靠數(shù)據(jù)集的更新而完善。
當(dāng)今大數(shù)據(jù)時代,傳統(tǒng)視覺算法似乎已經(jīng)遇到了瓶頸,縱觀各行業(yè)、領(lǐng)域都在深度學(xué)習(xí)的方向研究。近年來,計算機視覺發(fā)展迅猛,基于深度學(xué)習(xí)實現(xiàn)三維重建的新方法頻繁出現(xiàn)在各大視覺會議論文中,計算機視覺將迎來更好的發(fā)展時代。
參考文獻(xiàn):
[1]朱莉,陳輝.基于深度學(xué)習(xí)的單幅圖像三維重建算法[J], 吉林化工學(xué)院學(xué)報,2020,37(01):58-62.
[2]邁克爾-佐爾霍夫, 帕特里克-斯托特科, 安德烈亞斯- 格爾利茨等.基于RGB-D 相機進(jìn)行三維重建的技術(shù)現(xiàn)狀[J],計算機圖形學(xué)論壇, 2018,37:625-652.
[3]紐科姆等. KinectFusion:實時稠密表面測繪和跟蹤 [C],2011 年第十屆IEEE 混合和增強現(xiàn)實國際研討會, 2011:127-136.
[4]Yao Yao, Zixin Luo, Shiwei Li 等. MVSNet:非結(jié)構(gòu)化多視圖立體的深度推斷[J],歐洲計算機視覺會議論文集, 2018:767-783.
