99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 正文

空間基礎(chǔ)信息平臺分布式數(shù)據(jù)庫設(shè)計

前言:本站為你精心整理了空間基礎(chǔ)信息平臺分布式數(shù)據(jù)庫設(shè)計范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

空間基礎(chǔ)信息平臺分布式數(shù)據(jù)庫設(shè)計

摘要:國家級國土空間基礎(chǔ)信息平臺采用“1個主中心+N個分中心”的分布式架構(gòu)。為實現(xiàn)多數(shù)據(jù)中心數(shù)據(jù)深度融合計算,本文開展了國家級國土空間基礎(chǔ)信息平臺分布式空間數(shù)據(jù)庫建設(shè)前期研究,提出了基于HBase的分布式空間數(shù)據(jù)庫存儲架構(gòu),開發(fā)了系統(tǒng)原型并進行了實驗驗證。實驗結(jié)果顯示,分布式空間數(shù)據(jù)庫HBase在地域分布的情況下,可以穩(wěn)定高效地完成計算分析任務(wù),網(wǎng)絡(luò)環(huán)境如果達到4.5Gbit/s(4.5千兆)以上,則不影響數(shù)據(jù)庫集群的查詢性能和計算集群的計算性能。該技術(shù)框架可有力支撐國家級國土空間基礎(chǔ)信息平臺的分布式建設(shè)模式。

關(guān)鍵詞:國土空間基礎(chǔ)平臺;分布式;數(shù)據(jù)庫;海量數(shù)據(jù);HBase

0引言

國土空間基礎(chǔ)信息平臺按照“共建、共用、互聯(lián)、共享”的原則,集成整合并統(tǒng)一管理各級各類國土空間數(shù)據(jù)信息,為統(tǒng)一行使全民所有自然資源資產(chǎn)所有者職責、統(tǒng)一行使所有國土空間用途管制和生態(tài)保護修復(fù)職責,提升國土空間治理體系和治理能力現(xiàn)代化水平,提供基礎(chǔ)服務(wù)、數(shù)據(jù)服務(wù)、專題服務(wù)和業(yè)務(wù)應(yīng)用服務(wù),是國家重要的空間基礎(chǔ)設(shè)施[1]。國家級國土空間基礎(chǔ)信息平臺采用“1個主中心+N個分中心”的分布式建設(shè)模式,如圖1所示,數(shù)據(jù)物理分散、邏輯一體,通過平臺集中展現(xiàn)、調(diào)度。當前,主中心和部分分中心主要通過數(shù)據(jù)服務(wù)集成的方式實現(xiàn)數(shù)據(jù)集成和共享,該種方式可以滿足大多用戶的日常空間數(shù)據(jù)瀏覽、查詢、統(tǒng)計等基本需求,由于數(shù)據(jù)異構(gòu)存儲及數(shù)據(jù)服務(wù)方式本身的局限性,難以實現(xiàn)跨數(shù)據(jù)中心的數(shù)據(jù)深度融合計算。涉及多數(shù)據(jù)中心數(shù)據(jù)的全國國土空間規(guī)劃綱要編制前期研究、執(zhí)法督察、全國“三區(qū)三線”(指城鎮(zhèn)空間、農(nóng)業(yè)空間、生態(tài)空間三種類型空間所對應(yīng)的區(qū)域,以及分別對應(yīng)劃定的城鎮(zhèn)開發(fā)邊界、耕地和永久基本田保護紅線、生態(tài)保護紅線三條控制線)劃定成果的比對分析等復(fù)雜空間計算分析,目前,仍采用數(shù)據(jù)分中心數(shù)據(jù)庫整庫物理遷移到主數(shù)據(jù)中心統(tǒng)一集中計算分析的方式。為維護數(shù)據(jù)的現(xiàn)勢性,該方式數(shù)據(jù)庫遷移成本較高,因此,開展分布式數(shù)據(jù)庫建設(shè)十分必要,通過對各數(shù)據(jù)中心數(shù)據(jù)進行統(tǒng)一的分布式存儲管理,實現(xiàn)數(shù)據(jù)可以跨數(shù)據(jù)中心進行任何形式的高效融合計算。面向國家級海量空間數(shù)據(jù)的分布式存儲、管理、計算的實際應(yīng)用需求,本文提出了基于HBase分布式數(shù)據(jù)庫存儲架構(gòu)。

1基于HBase的分布式存儲和管理現(xiàn)狀

近年來,分布式海量空間數(shù)據(jù)的存儲和管理成為研究熱點[2-3],HBase擁有高可靠性、高性能、可伸縮、實時讀寫的空間數(shù)據(jù)管理能力,成為分布式空間數(shù)據(jù)存儲和管理的主流技術(shù)之一。HBase既支持多種數(shù)據(jù)格式存儲,又具有較強的數(shù)據(jù)查詢、讀寫與擴展能力,適用于需要實時讀寫、隨機訪問超大規(guī)模數(shù)據(jù)的場景[4]。已有的研究基于HBase開展了分布式空間數(shù)據(jù)的存儲管理、計算等[5-9],相關(guān)的云企業(yè)和GIS企業(yè)也提出和研發(fā)了基于HBase的產(chǎn)品。華為云CloudTable提供基于HBase的分布式、可伸縮、全托管的NoSQL數(shù)據(jù)存儲服務(wù),集成OpenTSDB和GeoMesa并提供時序數(shù)據(jù)庫和時空數(shù)據(jù)庫功能,提供了毫秒級的隨機讀寫能力,適用于海量結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、時序數(shù)據(jù)和時空位置數(shù)據(jù)的存儲和查詢應(yīng)用,已廣泛應(yīng)用于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、金融、智慧城市、氣象等海量數(shù)據(jù)存儲和在線查詢的場景[10]。阿里云推出的HBaseGanos是支持空間、時空、柵格、影像一體化管理的時空大數(shù)據(jù)引擎系統(tǒng),系統(tǒng)集成GeoMesa和GeoServer,提供海量時空數(shù)據(jù)查詢、分析、共享功能,已廣泛應(yīng)用于互聯(lián)網(wǎng)出行、實時GIS、IoT等海量時空大數(shù)據(jù)存儲、查詢、分析與數(shù)據(jù)挖掘[11]。SuperMap發(fā)布SDX+引擎,該引擎主要支持UDBX、HBase、PostGIS、HDFS、MongoDB、Elasticsearch等存儲數(shù)據(jù)庫,其中,HBase數(shù)據(jù)庫引擎支持多種數(shù)據(jù)格式和坐標,提供海量數(shù)據(jù)高并發(fā)、高效查詢功能,具有高性能、可彈性伸縮及分布式特性,支持PB級大數(shù)據(jù)存儲,同時滿足千萬級QPS并發(fā),是分布式空間數(shù)據(jù)存儲和管理的首選[12]。本文針對國家級國土空間基礎(chǔ)信息平臺“1個主中心+N個分中心”的分布式架構(gòu),提出基于HBase+GeoMesa的分布式數(shù)據(jù)庫存儲架構(gòu)。HBase作為分布式數(shù)據(jù)庫管理系統(tǒng),負責數(shù)據(jù)庫管理,GeoMesa作為空間數(shù)據(jù)庫引擎,實現(xiàn)空間數(shù)據(jù)解析和空間索引。本文開發(fā)了系統(tǒng)原型,實現(xiàn)了ArcSDE數(shù)據(jù)庫遷移和分布式數(shù)據(jù)庫權(quán)限管理,并對關(guān)鍵技術(shù)進行驗證。結(jié)果表明,利用該技術(shù)路線可實現(xiàn)跨數(shù)據(jù)中心的數(shù)據(jù)高效融合計算。

2總體設(shè)計

2.1數(shù)據(jù)庫存儲策略設(shè)計

2.1.1數(shù)據(jù)中心數(shù)據(jù)庫設(shè)計考慮到數(shù)據(jù)中心之間的數(shù)據(jù)共享需求,本文按照“誰生產(chǎn)、誰負責”的原則,將各個數(shù)據(jù)中心數(shù)據(jù)庫設(shè)計為聯(lián)合的數(shù)據(jù)庫集群,這有利于提升基于跨數(shù)據(jù)中心的空間大數(shù)據(jù)分析計算性能。聯(lián)合的數(shù)據(jù)庫集群設(shè)計前提是在國家級數(shù)據(jù)中心之間建立千兆甚至萬兆級光纖網(wǎng)絡(luò),為分布式數(shù)據(jù)庫提供數(shù)據(jù)傳輸支撐。2.1.2數(shù)據(jù)存儲現(xiàn)勢數(shù)據(jù)是指當前或近幾年經(jīng)常訪問的空間數(shù)據(jù),歷史數(shù)據(jù)是指訪問頻次較低、年代久遠的數(shù)據(jù)。現(xiàn)勢數(shù)據(jù)和歷史數(shù)據(jù)分開存儲在不同的數(shù)據(jù)庫集群中,有利于將優(yōu)勢的計算機資源(硬盤I/O、內(nèi)存和CPU)分配給訪問頻次高、性能要求高的現(xiàn)勢數(shù)據(jù)。為提供更高效的數(shù)據(jù)服務(wù),相比歷史數(shù)據(jù),現(xiàn)勢數(shù)據(jù)存儲較多的副本。2.1.3計算機資源共用空間大數(shù)據(jù)的查詢和計算等任務(wù)的性能瓶頸主要存在空間查詢方面,純粹的計算需求相對較少,但在很多場景下,仍然需要借助并行計算框架提高任務(wù)并行度。因此,本文采取數(shù)據(jù)庫集群與計算集群共用計算機資源的設(shè)計策略,這樣既可以滿足任務(wù)并行計算需求和分布式數(shù)據(jù)庫查詢需求,又不會造成CPU等計算資源爭用沖突。

2.2數(shù)據(jù)庫邏輯架構(gòu)設(shè)計

分布式數(shù)據(jù)庫邏輯架構(gòu)設(shè)計如圖2所示,包括HDFS、HBase、ZooKeeper和數(shù)據(jù)客戶端四個組成部分。HDFS負責存儲數(shù)據(jù)實體文件;HBase負責分布式數(shù)據(jù)庫管理;ZooKeeper作為分布式協(xié)調(diào)組件,協(xié)助HBase做分布式管理;數(shù)據(jù)客戶端通過ZooKeeper連接HBase。2.2.1HBase客戶端接口HBase客戶端接口包括NativeJavaAPI、HBaseShell、Thrift、REST、Pig、Hive等。本設(shè)計方案采用GeoMesa作為空間數(shù)據(jù)庫引擎,GeoMesa是基于NativeJavaAPI封裝的HBase客戶端,能夠?qū)崿F(xiàn)對HBase空間數(shù)據(jù)的訪問。2.2.2ZooKeeperApacheZooKeeper是HBase集群的一個關(guān)鍵組件,主要作用是保證HBase集群只有一個HMaster節(jié)點,存儲HBase數(shù)據(jù)庫模式和數(shù)據(jù)庫表的元數(shù)據(jù),實時監(jiān)控RegionServer的上線和下線信息,并實時通知給HMaster存儲所有的Region尋址入口。2.2.3HBaseHBase服務(wù)端包括1個主服務(wù)器HMaster和多個Region服務(wù)器RegionServer。主服務(wù)器HMaster負責管理和維護HBase表的分區(qū)信息,維護Region服務(wù)器列表,分配Region,實現(xiàn)負載均衡。Region服務(wù)器RegionServer負責存儲和維護分配的Region,處理客戶端的讀寫請求。2.2.4HDFSHDFS包括NameNode、DataNode和SecondaryNameNode。NameNode主要用于協(xié)調(diào)集群中的數(shù)據(jù)存儲,管理HDFS的名稱空間和數(shù)據(jù)塊映射的信息,配置文件副本策略和處理客戶端的請求。DataNode用于存放具體數(shù)據(jù)塊的節(jié)點,主要負責數(shù)據(jù)讀寫,定期向NameNode發(fā)送心跳。SecondaryNameNode輔助NameNode收集文件系統(tǒng)運行的狀態(tài)信息,分擔工作量。

2.3關(guān)鍵技術(shù)

2.3.1空間數(shù)據(jù)索引空間數(shù)據(jù)索引是空間數(shù)據(jù)庫性能的關(guān)鍵??臻g數(shù)據(jù)索引主要包括網(wǎng)格索引、四叉樹索引、R樹索引、Z索引等模型。本文采用Z索引技術(shù)通過GeoMesa構(gòu)建空間數(shù)據(jù)庫。Z索引以一條二維或三維空間填充曲線的點值作為關(guān)鍵字,表達經(jīng)度、緯度和時間,并將數(shù)據(jù)記錄存儲在Key-Value數(shù)據(jù)庫。二維Z索引的二階曲線如3所示。對于二階曲線,16個網(wǎng)格單元的地理編碼可以用4個比特(xyxy)表達。以左上角的網(wǎng)格單元為例,x值是00,y值是11,Geohash值就是0101。在HBase數(shù)據(jù)庫中,GeoMesa空間數(shù)據(jù)的Key-Value存儲結(jié)構(gòu)如圖4所示。在圖4中,Z3(x,y,t)利用8個字節(jié)存儲空間數(shù)據(jù)索引,即Z索引;VALUE是存儲空間數(shù)據(jù)實體數(shù)據(jù)的部分。2.3.2負載均衡HBase通過Region數(shù)量實現(xiàn)負載均衡。HBase提供全局計劃、隨機分配計劃和批量啟動分配計劃三種負載均衡技術(shù)。全局計劃是最常見的負載均衡,貫穿于整個集群的平衡運行期,以特定時間間隔執(zhí)行負載均衡。隨機分配計劃適用于為新加入的RegionServer隨機分配Region。批量啟動分配計劃應(yīng)用于集群啟動時,決定將Region分配到哪臺機器。2.3.3讀寫分離通過以下兩種方法提高數(shù)據(jù)庫查詢響應(yīng)性能。(1)通過設(shè)置hbase.ipc.server.callqueue.read.ratio參數(shù),為數(shù)據(jù)庫讀取設(shè)置較多的響應(yīng)線程,優(yōu)先處理讀請求。(2)通過合理設(shè)置Key,使得Hbase把當前讀取和寫入的數(shù)據(jù)分配到不同的region,實現(xiàn)讀寫分離。

3系統(tǒng)部署

按照“1個主中心+N個分中心”的設(shè)計要求,數(shù)據(jù)庫物理部署設(shè)計分為1個主中心和N個國家級分中心。數(shù)據(jù)庫物理部署設(shè)計如圖5所示。主中心部署HDFS集群和HBase集群,其中集群主節(jié)點1部署HDFS的NameNode、HBase的HMaster、ZooKeeper集群節(jié)點ZooKeeper1,以及HDFS的DataNode和HBase的RegionServer。N個分中心主要部署HDFS的DataNode和HBase的RegionServer。需要強調(diào)的是,1個分中心需要設(shè)立主節(jié)點2,部署ZooKeeper2和HDFS的SecondaryNameNode。另外1個分中心需要在1個節(jié)點上部署ZooKeeper3(圖5已省略)。主中心和各個國家級分中心都可以通過ZooKeeper集群找到分布式數(shù)據(jù)庫地址,將各自的數(shù)據(jù)存儲到分布式數(shù)據(jù)庫。每個數(shù)據(jù)保留多個副本,副本可存儲在本中心的節(jié)點,也可存儲在其他中心的節(jié)點。ZooKeeper集群的3個節(jié)點分別部署在主中心和2個分中心的服務(wù)器,HDFS的NameNode和SecondaryNameNode也部署在主中心和1個分中心的服務(wù)器,集群存儲每個數(shù)據(jù)的多個副本。這樣的多項設(shè)計策略可最大限度地保障數(shù)據(jù)庫集群的魯棒性,在1個中心失聯(lián)或多個數(shù)據(jù)庫集群節(jié)點宕機的情況下,仍然能保證數(shù)據(jù)庫集群的正常運行和服務(wù)。根據(jù)現(xiàn)勢數(shù)據(jù)和歷史數(shù)據(jù)分開存儲的存儲策略,分布式數(shù)據(jù)庫集群分為現(xiàn)勢數(shù)據(jù)數(shù)據(jù)庫集群和歷史數(shù)據(jù)數(shù)據(jù)庫集群,2個集群均采用圖5的物理部署設(shè)計。其中,歷史數(shù)據(jù)數(shù)據(jù)庫集群分配的集群節(jié)點較少,現(xiàn)勢數(shù)據(jù)數(shù)據(jù)庫集群分配的集群節(jié)點較多,歷史數(shù)據(jù)數(shù)據(jù)庫集群節(jié)點同時作為現(xiàn)勢數(shù)據(jù)數(shù)據(jù)庫集群節(jié)點,這樣可以最大限度地利用集群資源。為了避免集群互相干擾,歷史數(shù)據(jù)數(shù)據(jù)庫集群可采用Docker容器部署。

4實驗測試

本文為驗證基于HBase的分布式數(shù)據(jù)庫存儲架構(gòu)的可行性,利用不同可用區(qū)的華為云服務(wù)器建立分布式存儲環(huán)境,進行矢量數(shù)據(jù)的分布式空間運算應(yīng)用案例測試。

4.1測試環(huán)境

測試環(huán)境基于華為云搭建,由1個主節(jié)點、2個分節(jié)點組成,HBase版本為2.0。主節(jié)點和分節(jié)點均配置8核、16GB內(nèi)存、500G硬盤,網(wǎng)絡(luò)為4.5千兆網(wǎng)。

4.2測試結(jié)果分析

該測試采用永久基本農(nóng)田數(shù)據(jù)和土地利用數(shù)據(jù),相關(guān)測試數(shù)據(jù)通過GeoMesaAPI、GeoToolsAPI實現(xiàn)從OracleArcSDE到Hbase的遷移。永久基本農(nóng)田數(shù)據(jù)和土地利用數(shù)據(jù)均為面狀數(shù)據(jù),永久基本農(nóng)田數(shù)據(jù)約包括1200萬條記錄,土地利用數(shù)據(jù)約包括1030萬條記錄。為驗證地域?qū)臻g運算的影響,該實驗分別利用華為云相同可用區(qū)和不同可用區(qū)模擬1個數(shù)據(jù)中心部署分布式數(shù)據(jù)庫和多中心部署分布式數(shù)據(jù)庫的情形,并在兩種條件下執(zhí)行基本農(nóng)田數(shù)據(jù)和土地利用數(shù)據(jù)的求交分析,記錄分析計算的完成耗時。實驗結(jié)果顯示,兩個圖層的相交結(jié)果約為1460萬條記錄。相同可用區(qū)求交耗時51分鐘,不同可用區(qū)耗時52分鐘,差異幾乎可以忽略。該結(jié)果表明,基于HBase的分布式數(shù)據(jù)庫集群節(jié)點在地域分布條件下,可以準確高效地完成分析計算任務(wù),網(wǎng)絡(luò)環(huán)境如果達到4.5Gbit/s(4.5千兆)以上,則不影響數(shù)據(jù)庫集群的查詢性能和計算集群的計算性能??紤]未來分布式國土空間基礎(chǔ)信息平臺運行的高效穩(wěn)定,本文建議各中心采用萬兆網(wǎng)相連。

5結(jié)束語

面向國家級海量空間數(shù)據(jù)分布式存儲、管理、計算的實際應(yīng)用需求,本文提出基于HBase+GeoMesa的分布式數(shù)據(jù)庫存儲架構(gòu),并通過系統(tǒng)原型進行了實驗,結(jié)果驗證了本文提出的技術(shù)框架可行性。該技術(shù)路線可以解決國家級國土空間基礎(chǔ)信息平臺“1個主中心+N個分中心”數(shù)據(jù)跨中心難以深度融合計算的問題,實現(xiàn)統(tǒng)一的海量空間數(shù)據(jù)的高效存儲、計算、管理,為全國各級國土空間基礎(chǔ)信息平臺分布式存儲和計算設(shè)提供技術(shù)實現(xiàn)途徑。未來研究考慮進一步優(yōu)化空間數(shù)據(jù)庫索引,采用更高效的空間索引提升查詢性能,并將分布式數(shù)據(jù)庫與并行計算框架Spark進行對接,進一步提升空間分析計算的效率。

作者:李治君 周俊杰 范延平 鄧頌平 單位: 自然資源部國土空間大數(shù)據(jù)工程技術(shù)創(chuàng)新中心 自然資源部信息中心