2021-4-10 | 互聯網
真實場景建模是虛擬現實、計算機圖形學和計算機視覺研究的重要內容之一,特別是構造室外靜態場景三維模型,如故宮、巴黎圣母院、自由女神像等,它在文化遺產數字化保護、數字城市、數字影視與娛樂等方面有重要的應用價值.
傳統的三維場景建模方法往往需要使用專門設備對目標場景進行數據采集,如用三維激光掃描儀采集場景的幾何信息,用同一個已標定的相機采集場景的外觀,用可控的主動光源對場景進行照明等,因而受到場景規模、幾何結構、周邊環境與光照條件等的諸多限制,能適用的場景數量非常有限,而且這種數據采集過程的復雜性和高成本也決定了其伸縮性較差,難以用于街道乃至城市規模的室外場景建模.
近幾年,隨著數碼相機、照相手機與互聯網的普及,人們將拍攝的大量的室外場景照片上傳到互聯網進行分享.
截至2011年2月,著名的照片分享站點picasaweb的照片總數達到70億張,flickr.com達50億張,而社交網站Facebook的共享照片更高達600億張,再加上Google街景等照片,構成了海量的互聯網共享照片集.
這種照片集有3個特點:
1)覆蓋面廣.
幾乎涵蓋了世界的各個角落,特別是對于各地的名勝古跡,往往有大量從不同視點、在不同時間(一年四季,一天從早到晚)和不同天氣條件(晴天、多云等)下拍攝的照片;
2)獲取成本很低.
例如人們可以輕松地從Google上搜索、下載超過20萬張天安門的照片;
3)具有無結構性.
即拍攝的視點是無序分布的,并且拍攝時的光照條件未經過測量,拍攝者所使用的相機、鏡頭各不相同,響應曲線和色彩未經過標定,場景中還常存在雜亂的遮擋現象等.
這些特點決定如何挖掘和利用這類新數據集中豐富的信息,快速、方便地構造逼真的虛擬場景模型,這是近年來互聯網發展給虛擬現實、計算機圖形學和計算機視覺帶來的新的研究熱點.
本文先分析基于互聯網照片構造室外場景模型中存在的基本科學問題,然后分別從室外場景的幾何、光照和反射屬性建模技術3個方面,分析和總結該領域的國內外研究現狀,并給出對發展趨勢的思考.
1基于互聯網照片集的室外場景建模
互聯網照片記錄了室外場景的外觀,照片中各像素每個通道的值反映了由場景各點向觀察者視點方向出射的光照輻射度,這取決于光照條件、場景的幾何結構、其表面材質的光學屬性、相機的視點、投影變換參數、曝光參數和成像系統的響應曲線.
這些因素中,前三者與相機無關,它們之間的交互作用決定了場景在某一時刻形成的光場,若僅考慮由不透明材質構成的場景,則該交互過程可用繪制方程表示為L(x,ωo)=∫ΩLin(x,ωi)V(x,ωi)ρ(ωi,ωo)h(n,ωi)dωi(1)該方程是在場景中某一點x處單位正半球面Ω上的積分,其中ωi,ωo分別表示入射與出射光方向;n是表面法向量;Lin(x,ωi)表示入射輻照度;V(x,ωi)表達環境光源可見性,其值為0或1;ρ(ωi,ωo)表示材質反射屬性,常用雙向反射分布函數(bidirectionalreflectancedistributionfunction,BRDF)描述;投影因子h(n,ωi)=n•ωi,常包含在BRDF模型ρ中;L(x,ωo)則是出射輻射度.
與相機相關的參數中,投影與視點三維變換通常用相機內外參數矩陣P和M表示,如(u,v)T=P•M•(x,y,z)T=P•(R|t)•(x,y,z)T所示,其中R和t分別是視點的相對旋轉、平移參數.
曝光參數與響應曲線則分別用I(u,v)=f(k•L(u,v))中線性系數k與從輻射度L到像素值I的非線性映射f來表示.
因此,從照片構造場景模型可看作反射與成像的逆過程,根據式(1),由不同照片中的像素值,求出拍攝各照片的視點與投影參數、場景各點三維坐標與表面法向量,以及表面材質的BRDF反射屬性模型和環境光照信息.
研究者們對基于圖像建模研究已經取得豐碩的成果,但與這些傳統方法相比,通過互聯網共享照片集進行場景建模要解決的難點問題包括:
問題1.
傳統基于圖像的建模方法中拍照所用的相機往往曝光參數已知,響應曲線可用實驗測出,很容易將不同相片中的像素值投影到統一的線性輻照度空間.而拍攝每張互聯網照片所用的不同相機曝光參數和響應曲線無法事后通過實驗測量,因此需要發掘照片自身特征和場景中的不變特性,對各照片進行輻射度標定.
問題2.
傳統基于圖像的建模方法所用的場景照片往往是視點固定或已知的,其分布也滿足一定軌跡和順序.而互聯網照片的拍攝視點都是未知的,分布具有無序和不均勻性,因此需要發掘場景自身幾何結構的不變性對外觀的作用和約束、求出相機視點,并對視點進行篩選,按一定結構重新組織;然后將基于照片集的建模問題劃分為有序的子問題,設計出高效的幾何重構算法.
問題3.
室外場景的外觀是一個甚高維空間,變幻無窮的環境光照與陰影、變化的視點位置與鏡頭焦距、多種多樣材質的復雜反射屬性、復雜幾何結構帶來的自遮擋與隨機出現的前景遮擋等,各自都具有很高的維度.互聯網照片集雖然數量多,所采樣到的場景外觀仍只是一個相對很小的子空間,使得求解問題高度病態.