2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

基于隱函數的三維紋理網格重建

來源:期刊VIP網所屬分類:計算機網絡時間:瀏覽:

  摘 要: 目前,面向實景圖像的單圖三維重建算法大多無法重建或者只能重建出已知拓撲結構類型的帶紋理三維網格。文章結合目標檢測網絡,構建了基于隱函數的紋理推斷網絡“ColorNet”,用于預測三維網格頂點的RGB值,并且為Pix3D數據集的三維模型添加UV紋理映射,并進行渲染、顏色采樣。網絡在經預處理后的數據集上訓練并測試。實驗表明,“ColorNet”可以預測出三維網格頂點的RGB值,并通過與三維重建網絡“IM-RCNN”相結合,實現從單張實景圖像中自動地重建接近真實紋理的三維模型。

  關鍵詞: 三維重建; 紋理推斷; UV紋理映射; 目標檢測

  引言

  近年來,隨著卷積神經網絡的普及應用和大規模三維模型數據集的出現,基于深度學習的單圖三維重建取得了較大的進展,通過這些單圖三維重建網絡,可以有效地從圖像中重建出物體的三維模型。然而,這些算法仍然存在一些不足。

  首先,目前的網絡大多將研究重心放在三維形狀重建上。然而,在現實世界中,物體不僅有三維形狀,而且有紋理,有色彩。他們互相關聯互相補充,使人們對三維物體的理解更為全面。因此,從圖像中重建帶有紋理的三維模型具有理論意義和實用價值,可以應用于虛擬現實、增強現實等諸多領域。

  其次,這些網絡大多從渲染圖像中重建三維形狀,所用圖像只有單一的物體處在圖像中心并且沒有背景。而面向實景圖像的單圖三維重建網絡所重建的三維形狀大多沒有紋理,或者只能重建出已知拓撲結構類型的三維網格。

  針對這些問題,本文提出了“ColorNet”,該網絡可以從實景圖像中預測出物體三維網格頂點的RGB值。本文的主要貢獻在于①結合目標檢測網絡,提出一種基于隱函數的紋理推斷網絡,并且通過與實景圖像三維重建網絡“IM-RCNN”[1]相結合,使得網絡能夠從單張實景圖像中重建出帶紋理的三維模型;②實景圖像三維模型數據集Pix3D[2]缺少UV紋理映射,使用三維建模軟件Blender為所有的三維模型添加UV映射并增加紋理,并篩選整理了每個三維模型所對應的實景圖像使得網絡更容易訓練,形成了可用于紋理推斷網絡的實景圖像三維模型數據集。

  1 相關工作

  1.1 基于深度學習的實景圖像三維重建

  針對實景圖像的三維重建,Yao S等人[3]首先利用目標檢測網絡預測得到物體的掩膜,將它和圖像疊加得到去除背景后的物體,再預測物體的三維屬性,對已有的三維網格模板形變,以此重建三維模型。WU J[4]等人使用經裁剪后物體處于中心位置的圖像,訓練了“3D-VAE-GAN”網絡來重建三維模型,該網絡只能生成低分辨率的三維模型。GKIOXARI G等人提出了“Mesh R-CNN”[5],該網絡結合目標檢測網絡,首先預測一個粗糙的體素模型,并將其轉化為初始網格模型,再使用圖卷積[6]網絡將其形變,獲得最終的三維網格。在我們之前的工作中[1],提出了基于隱函數表示法的單圖三維重建網絡“IM-RCNN”,該網絡結合Mask RCNN[7],能夠從實景圖像中重建出高分辨率的三維模型,并且具有更好的視覺效果,是目前較為有效的方法。然而,所重建的三維模型仍然不具有紋理。KANAZAWA A等人[8]對預定義的三維網格進行形變,實現了從實景圖像中重建鳥類的三維模型。

  1.2 基于深度學習的紋理推斷

  針對三維物體的紋理推斷,Tulsiani S等人[9]使用多個視圖和光線一致性作為監督,提出了一個基于體素的紋理表示法,重建出了帶有紋理的三維體素模型。SUN Y等人[10]將三維形狀估計和體素顏色回歸結合起來,從單張圖像中重建出帶有紋理的三維體素模型。然而,由于體素表示法不具備內存效率,他們只能重建出分辨率較低的三維紋理模型。NATSUME R等人[11]將視圖生成方法用于從圖像中重建出帶紋理的三維人體模型。他們提出的視圖生成方法,可以從前視圖中預測后視圖,再將前視圖和后視圖一起用于為三維人體模型添加紋理。KANAZAWA A等人[8]首先預測UV紋理映射圖的RGB值,再將該圖進行UV映射,為三維網格添加紋理。SAITO S等人[12]提出了像素對齊隱函數表示法用于三維人體重建,并對該表示法作了擴展,使用隱函數來回歸RGB值,從而能夠推斷出每個頂點的顏色,最終實現從圖像中重建帶紋理的三維人體模型。

  2 網絡設計

  目前,基于隱函數的三維形狀表示法受到越來越多研究者的關注[12-15],在隱函數表示法下,三維形狀可以由一個連續函數[f]的[k]等值面來表示,例如:

  SAITO S等人[12]將隱函數作了推廣,通過一個連續函數[f]將一個三維空間點[X]映射成一個RGB向量,即:

  他們的網絡從渲染圖像中重建出帶紋理的三維模型。相反,本文結合目標檢測網絡,構建了基于隱函數的紋理推斷網絡“ColorNet”,并與單圖三維重建網絡“IM-RCNN”相結合,從而實現從實景圖像中重建帶紋理三維家具模型的目標,如圖1所示。

  2.1 紋理推斷及損失函數

  圖1展示了“ColorNet”的架構。由于本文面對的是實景圖像,因此需要獲得物體在整幅圖像中所處位置的特征圖。在目標檢測網絡的相關工作中,REN S等人[16]提出了“ROI Pooling”,用于獲取與輸入圖像對齊的區域特征圖,之后He K等人[7]使用雙線性差值提升了對齊精度。因此,“ColorNet”使用RoiAlign[7]操作,從輸入的單張實景圖像中得到區域對齊特征圖[Featurereal∈RC×H×W]。同時,網絡隨機輸入一張該三維模型的渲染圖像[Irender],利用一個由殘差網絡組成的顏色編碼器[Ecolor]對它進行映射,即:

  經過映射,將[Featurecolor]和[Featurereal]在通道維度上相連接,得到[Featureconcate∈R2C×H×W]。

  另一邊,有[N]個用于訓練的三維采樣點集[P],以其中一個點[Pi]為例,使用正交投影矩陣[M]將它投影到圖像平面上得到像素點[pi=M(Pi)],并獲得在相機坐標系上的深度值[zi]。之后,使用雙線性采樣獲得與該像素點對齊的特征[Featurealign∈R2C×N],同時將深度值[zi]標準化作為深度特征[Featurezi∈R1×N],將兩者在維度上相連接,得到該采樣點最終的特征[Featurepoint]。最后,將該采樣點的特征送入顏色解碼器[Dcolor],得到預測的顏色向量[RGBpred∈R3×N],即:

  損失函數[LossRGB]是所有三維采樣點對應的預測RGB值和標注RGB值之間的均方誤差,即:

  2.2 顏色編碼器和顏色解碼器的結構

  目前,通過殘差網絡可以有效地提取圖像特征。本文對ResNet-18[17]網絡結構進行微調,移除原有的池化層,使用卷積核大小為9×9,步長為2的卷積層進行替代,并使用LeakyReLU作為激活函數,得到用于提取圖像顏色特征的編碼器。

  顏色解碼器用于學習一個連續的函數來預測出三維網格每個頂點對應的RGB值。由于多層的前向網絡可以在任何精確度上擬合出一個連續的形狀函數[18],本文采用八個全連接層搭建顏色解碼器,并且除第一個全連接層,其余各層均將上層的輸出特征與第一層的輸入特征在維度上相連接,作為本層的輸入特征。另外,除最后一層的激活函數為Tanh以外,其余各層均采用LeakyReLU激活函數。

  3 數據預處理

  實驗在Pix3D[2]數據集上進行,該數據集包含9個類別的物體,共有10069張實景圖像、395個三維家具模型。然而該數據集中,某個三維模型在不同的實景圖像中可能擁有不同的紋理,并且這些三維模型不具有UV紋理映射。因此,網絡訓練前,我們對三維模型進行預處理,并且篩選每個模型對應的實景圖像,使得每個三維模型在不同的實景圖像中都有相近的紋理,便于網絡進行收斂。

  3.1 添加UV紋理映射

  為了進行三維模型的渲染以及網格表面點的RGB值采樣,需要使用帶有UV紋理映射圖的三維模型。由于原始的Pix3D數據集中的三維模型不具備UV紋理映射圖,在實驗中需要為395個三維網格模型手工添加紋理。本文使用三維建模軟件Blender,依次為三維模型添加UV映射圖、繪制紋理以及著色,圖2為添加紋理映射后的模型效果。

  3.2 三維模型渲染

  在為三維模型添加紋理映射之后,對它們進行渲染。使用弱透視相機模型將三維模型與圖像中心對齊,并將每個三維家具模型圍繞偏航軸旋轉360度進行渲染,共生成142,200張512×512分辨率的渲染圖像。圖3展示了前10個旋轉角度的渲染圖像和掩膜,所生成的渲染圖像沒有背景。

  3.3 三維表面紋理采樣

  在對三維模型進行渲染后,也可得到UV紋理映射圖對應的法向量圖、掩膜和渲染圖像,如圖4所示。

  在對表面紋理進行采樣時,本文使用UV掩膜來索引UV渲染圖像、UV法向量圖中對應的紋理區域,再從這些區域中隨機采樣指定數量的點,獲得每個采樣點對應的顏色值,作為標注RGB值。

  4 實驗

  4.1 實驗環境及參數配置

  實驗在單張GeForce RTX 2080 Ti GPU上進行,由于目標是生成帶有紋理的三維形狀,本文使用“IM-RCNN”訓練后的模型作為紋理推斷網絡“ColorNet”的預訓練模型,網絡共迭代315000次。網絡訓練采用帶動量的隨機梯度下降算法,在前32000次迭代中,學習率從0.0025到0.02線性增加,之后在256000到315000次迭代中,以10倍數進行衰減。RGB值損失的權重是1,使用的權重衰減率是10?4。

  4.2 帶紋理的三維網格推斷

  為了從實景圖像中預測出帶有紋理的三維模型,本文將紋理推斷網絡“ColorNet”與單圖三維重建網絡“IM-RCNN”[1]相結合,如圖5所示。“IM-RCNN”的隱函數分支可以從單張圖像中預測出物體的三維形狀,它的掩膜分支和包圍框分支可以輸出物體的掩膜和包圍框。

  在推斷時,網絡結構與訓練階段略有不同。首先,網絡從一張實景圖像[Ireal]開始,通過RoiAlign操作獲得區域對齊特征[Featurereal],再通過“IM-RCNN”的隱函數分支以及等值面提取[19]操作得到預測的三維網格[mesh]([Vmesh=(3,N)])。之后,“ColorNet”對[mesh]的[N]個頂點計算預測的RGB值。另外,網絡通過“IM-RCNN”的掩膜分支得到物體的掩膜[maskpred],并與實景圖像[Ireal]相疊加,得到去除背景的圖像[Irender],并將其送入顏色編碼器計算圖像特征。

主站蜘蛛池模板: 祁东县| 中西区| 平陆县| 莱州市| 温宿县| 江口县| 玉龙| 嘉兴市| 玉林市| 嵊泗县| 铜川市| 新宁县| 卢氏县| 白水县| 盈江县| 会理县| 延寿县| 固阳县| 革吉县| 舞钢市| 章丘市| 离岛区| 虎林市| 铜梁县| 东安县| 砚山县| 灵丘县| 木里| 象山县| 临安市| 康乐县| 南华县| 黔江区| 杭锦后旗| 廊坊市| 读书| 彩票| 东兴市| 平湖市| 灌南县| 南华县|