摘 要: 隨著社會信息化的高速發展,地理空間數據呈海量增長,給數據存儲和管理帶來了巨大的挑戰。本文在對河北省地理信息數據存儲現狀研究的基礎上,基于傳統的 SAN 存儲架構,制定了備份策略,開發了智能磁盤讀寫引擎,使用讀寫引擎整合數據,建立特征庫,對重復數據采用鏡像存儲,實現了快速高效的數據備份,為大容量數據備份提供了切實可行的技術手段。
本文源自科技風 發表時間:2021-02-19 《科技風》(半月刊)創刊于1988年,是經科技部和國家新聞出版總署批準的大型綜合類科技期刊。成立至今,經過幾十年發展,現設有北京、石家莊兩個運營中心,業務范圍涵蓋期刊出版、網絡傳播、公關咨詢、講座培訓、出版服務等多個領域,聚合了大批相關領域的專家學者及一線專業工作人員,特別是在教育科技、科學學科和汽車科技領域有著廣泛影響。
關鍵詞: 數據; 備份; 讀寫引擎; 研究
1 緒論
隨著社會信息化的高速發展,人們每時每刻都在產生不可估量的信息數據,隨著衛星導航技術和物聯網技術的廣泛應用,從空天地專業傳感器擴展到物聯網中無所不在的非專業傳感器,數據獲取傳感器網形成龐大的空天地傳感器資源,產生前所未有的時空大數據。特別是衛星遙感大數據、城市實景地圖、出行軌跡大數據等地理空間數據正呈海量增長,給數據存儲和管理帶來了巨大的挑戰。數以 TB 級的數據備份需要超長時間,數據備份成為一件費時費力的事情,同時,經統計,在備份的數據中,重復的地理信息數據占了較大的比重,存儲管理的成本也隨著數據的劇增急劇增加。
網絡備份系統的研究和開發,開始于 20 世紀 80 年代中期,目前國內被采用最多的備份策略主要有以下兩種:
( 1) 完全備份。即定期對全部數據進行完整備份。這種方法直觀簡單,缺點是所需時間長,所占磁盤存儲空間大; 優點是恢復時間短,操作簡便。
2) 增量備份。即只備份上一次備份后增加和修改過的數據。由于沒有重復的備份數據,節省了磁盤空間和縮短了備份時間,缺點是一旦發生災難,恢復數據比較困難。
目前河北省地理信息數據備份主要采用傳統數據管理方式,以完全備份為主增量備份為輔,在數據管理和更新的過程中缺乏有效的技術手段,隨著地理信息數據的不斷增加,文件數量多,數據量大,在對數據進行上傳、下載和查詢的過程中需要耗費大量的時間成本,嚴重影響了地理信息數據管理的工作效率。
大容量數據高速備份方法研究,通過對地理信息數據的管理及存儲現狀的研究,規范了現有數據的存儲模式,制定了數據存儲方案,研發了適用于目前系統平臺的文件智能存儲系統,通過智能磁盤讀寫引擎,對現有的各種數據進行整合,在備份數據時對數據文件的特征進行分析,根據備份數據的特征,自動采用不同的備份方案,應用重復數據檢索技術,通過智能計算,將重復的大體積的文件,進行鏡像存儲,在存儲系統中對重復的數據僅存儲一個數據副本,對于副本以外的重復數據采用指向副本指針的方法來有效消除其他副本,加快拷貝速度,減少數據上傳更新、下載和查詢中的時間成本,采用技術手段實現了對地理信息數據存儲的有效管理。
2 研究方法及內容
2.1 研究對象
省級地理信息數據主要包括衛星圖像、遙感數據、三維激光掃描數據、傾斜攝影測量數據、三維模型、4D 產品、瓦片數據等地理信息數據,目前采用 SAN 存儲架構( Storage Area Network 即“存儲區域網絡”) ,存儲于磁盤陣列和磁帶庫中,這種架構是當前最成熟的集中存儲系統,使用光纖存儲交換機將存儲設備和主機系統通過光纖連接起來,通過前端文件服務器對 SAN 存儲系統進行管理,存儲的衛星圖像、遙感數據等地理信息數據全部以 Windows 目錄及文件的形式進行管理,采用本地復制和遠程傳輸的手段對地理信息數據進行更新和管理。
2.2 架構設計
2.2.1 系統架構
鑒于系統的使用、維護、升級、數據傳輸等相關情況,在程序架構上,采用 C/S 模式的基于網絡的應用程序架構。服務器采用穩定、高效的 Microsoft Windows 2012 操作系統作為平臺,使用 DELPHI 語言描述系統業務邏輯。
2.2.2 智能存儲引擎設計
根據數據文件的特征,在文件拷貝的過程中,進行文件的特征分析,生成數據文件特征庫,通過智能計算,將重復的大體 積 的 文 件,進 行 鏡 像 存 儲,加 快 拷 貝 速 度,節 省 時 間成本。
系統部署前對原有數據進行統一更新,并生成數據信息及數據特征庫,初步生成系統信息庫。后期對新數據更新時,需要和數據內已有數據內容進行對比分析,如系統內不存在內容相同的數據,則對數據進行上傳和記錄更新操作。系統內存儲內容相同的數據,數據不再進行上傳操作,只生成相應的更新記錄。
2.3 軟件功能
智能存儲系統主要解決文件存儲過程中大文件重復存儲的問題,利用先進的文件檢測算法,快速識別重復文件,同時提高了文件的拷貝速度。具體功能如下:
存儲管理: 接管操作系統磁盤文件管理功能。對磁盤文件進行掃描,建立文件指紋庫。
文件輸入: 外部文件可通過拖拽或者復制粘帖方式拷貝進智能存儲系統,并存儲到磁盤。對于磁盤中存在的大文件,只建立鏈接,不重復存儲。
文件輸出: 通過智能存儲系統的導出功能將文件拷貝到其他存儲介質,還原被鏈接的文件。
用戶管理: 管理員用戶可以添加、修改、刪除用戶。
日志管理: 記錄用戶的操作日志
3 系統測試
3.1 測試方法
智能文件存儲系統具有嚴格、詳細的數據特征庫,對數據文件的內容進行詳細對比并生成特征庫,確保數據文件在系統中的唯一性。在數據上傳的過程中對數據進行對比分析,根據系統規則和分析結果對上傳數據采取不同的處理方式。根據測試內容的測試項,分別對測試文件 1( 1.32GB) ,測試文件 2( 1.62MB) ,測試文件夾 1,測試文件夾 2( 含 70M 文件,主要測試在文件夾內的大文件是否可以按規則處理) ,進行數據上傳和導出功能測試,測試步驟如下:
文件進行上傳測試。在不同目錄對文件進行上傳測試。相同目錄對文件進行上傳測試。文件和數據指針文件進行導出測試。
3.2 測試結果
本次測試對智能文件存儲系統的核心功能即數據處理功能進行了驗證,主要驗證結果如下: 1) 小于 10M 的文件處理功能。直接上傳: 目錄內無相同文件名的文件直接上傳。覆蓋上傳: 目錄內有相同文件名的文件做覆蓋處理。 ( 2) 大于 10M 的文件處理功能。直接上傳: 系統內無相同數據特征的文件直接上傳。生成指針文件: 系統內數據特征庫進行對比,如有相同特征的文件不對真實文件進行上傳,同時生成數據指針文件。實際文件: 直接進行導出。指針文件: 導出真實文件內容。
與傳統數據備份方式相比,本系統在原 SAN 存儲框架的基礎之上,引入了智能磁盤讀寫引擎,使用讀寫引擎將數據進行整合; 備份數據和文件數據分析同時進行,大大縮短了拷貝時間,增加了大容量數據備份效率; 同時,考慮到大容量地理信息數據種類繁雜重復較多的特點,系統平臺對重復數據采用鏡像存儲,加快了存儲速度,減少了時間成本。對比傳統平臺單純的存儲和提取操作,本系統增加了條目記錄功能,每次數據上傳、更新、索引操作都會更新相應條目,使操作更加簡潔、高效。
4 結論
大容量數據高速備份方法研究,為海量地理信息數據的備份提供了有效可行的技術方法,通過研究成果的應用,加快了地理信息數據存儲和傳輸的速度,節約了時間成本,在地理國情普查、基礎測繪生產、數字城市建設、室內混合智能定位等重大項目中,有效地提高了海量數據的服務效率; 同時,研究成果的應用,降低了存儲空間,節約了設備購置成本,提高了設備性能,促進地理信息更高效地為社會服務。本課題的研究成果適用于海量數據的備份工作,在這個大數據的時代,可廣泛推廣至有需求的各行業,其應用前景廣闊。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >