99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 大數(shù)據(jù)庫建設(shè)方案

大數(shù)據(jù)庫建設(shè)方案

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數(shù)據(jù)庫建設(shè)方案范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

大數(shù)據(jù)庫建設(shè)方案

大數(shù)據(jù)庫建設(shè)方案范文第1篇

關(guān)鍵詞:中間庫;數(shù)據(jù)轉(zhuǎn)換;設(shè)計

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)26-0115-02

隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系被進(jìn)一步挖掘,并在此基礎(chǔ)上進(jìn)行綜合分析,形成決策。將不同數(shù)據(jù)庫中的數(shù)據(jù)聯(lián)合起來,形成相關(guān),具有多種解決方案,設(shè)計一個中間庫和一個中間件,專門負(fù)責(zé)數(shù)據(jù)的聯(lián)系和轉(zhuǎn)換,是當(dāng)前主流的解決方案。

1 現(xiàn)狀

伴隨信息化的高速發(fā)展,我國絕大多數(shù)中小型企業(yè)和單位在信息化建設(shè)方面已經(jīng)取得一定的成效,但在大數(shù)據(jù)背景下,以往建設(shè)的信息化系統(tǒng)出現(xiàn)了如下明顯問題:

1)信息化孤島。有些政府和事業(yè)單位,根據(jù)自身的業(yè)務(wù)范圍,已經(jīng)建設(shè)了幾十個大小不一的信息管理系統(tǒng),這些系統(tǒng)中,每個系統(tǒng)都有一個自身獨(dú)立的數(shù)據(jù)庫,系統(tǒng)與系統(tǒng)之間,數(shù)據(jù)庫與數(shù)據(jù)庫之間即使具有相同的字段,它們也沒有任何數(shù)據(jù)關(guān)聯(lián)。

2)由于數(shù)據(jù)庫沒有關(guān)聯(lián),則存在著明顯的二次錄入現(xiàn)象,比如一個人員名單的增加,需要在人事系統(tǒng)中增加,也需要在業(yè)務(wù)數(shù)據(jù)庫中增加,工作量大而繁瑣。

3)數(shù)據(jù)不一致。由于一條信息可能會在多個業(yè)務(wù)數(shù)據(jù)庫中出現(xiàn),如果這條信息沒有及時流通到相關(guān)部門中,則這個部門數(shù)據(jù)庫的數(shù)據(jù)不會更新,比如在一個高校的招生中,招生部門錄取了一名學(xué)生,但名單還未到達(dá)教務(wù)處前,教務(wù)處的系統(tǒng)沒有更新,導(dǎo)致了數(shù)據(jù)的不一致性。

4)數(shù)據(jù)沉睡。由于不同的數(shù)據(jù)庫之間沒有聯(lián)系,故不能挖掘相關(guān)數(shù)據(jù)的相關(guān)性,不同數(shù)據(jù)庫之間的數(shù)據(jù)不能聯(lián)合分析,致使數(shù)據(jù)沉睡,價值發(fā)揮不足。

基于以上的問題,將不同數(shù)據(jù)庫之間的數(shù)據(jù)有效聯(lián)系起來,成為了數(shù)據(jù)有效發(fā)揮其價值的重要環(huán)節(jié)。

2 中間件設(shè)計

1)模型設(shè)計

經(jīng)過多年的信息化建設(shè),眾多企業(yè)和單元已經(jīng)具備多套信息管理系統(tǒng),這些系統(tǒng)和系統(tǒng)之間具有如下特征:

① 系統(tǒng)之間相互孤立。在建設(shè)初期,每個系統(tǒng)都擁有獨(dú)立的數(shù)據(jù)庫,各數(shù)據(jù)庫之間沒有聯(lián)系,修改其中一個數(shù)據(jù)庫中的數(shù)據(jù),其他數(shù)據(jù)庫的數(shù)據(jù)不受影響。

② 系統(tǒng)之間存在聯(lián)系。在操作某個業(yè)務(wù)時,修改一個數(shù)據(jù)庫中的信息,其他數(shù)據(jù)庫中的信息可能要改變。如刪除一個名單時,涉及多個系統(tǒng)多次刪除,形成二次錄入。

③ 新形勢下需要將多系統(tǒng)數(shù)據(jù)聯(lián)合分析。在大數(shù)據(jù)背景下,需要將所有的信息系統(tǒng)統(tǒng)一起來進(jìn)行綜合分析,以形成精準(zhǔn)決策和精準(zhǔn)管理。

其具體模型如圖1:

上述問題至少有2種解決方案

方案1:在設(shè)計統(tǒng)一查詢平臺時,將綜合平臺的每一項信息與各業(yè)務(wù)平臺中的數(shù)據(jù)聯(lián)立。當(dāng)需要在統(tǒng)一查詢平臺上查詢某些信息時,在其中一個或幾個數(shù)據(jù)庫聯(lián)合查詢即可,如需進(jìn)行數(shù)據(jù)轉(zhuǎn)換,則進(jìn)行適當(dāng)轉(zhuǎn)換。當(dāng)綜合平臺中某個數(shù)據(jù)修改時,對應(yīng)的若干個業(yè)務(wù)數(shù)據(jù)庫統(tǒng)一完成修改。

方案2:在設(shè)計統(tǒng)一查詢平臺時,設(shè)計一個中間庫。中間庫與各基礎(chǔ)庫聯(lián)立統(tǒng)一查詢平臺只在中間庫上進(jìn)行查詢,在統(tǒng)一查詢平臺上進(jìn)行修改操作直接修改中間數(shù)據(jù)庫。在中間數(shù)據(jù)庫和各基礎(chǔ)業(yè)務(wù)數(shù)據(jù)庫之間,設(shè)計一個數(shù)據(jù)轉(zhuǎn)換模型,設(shè)計中間庫與基礎(chǔ)庫數(shù)據(jù)之間的轉(zhuǎn)換關(guān)系和轉(zhuǎn)換規(guī)則。具體見圖2:

比較分析方案1和方案2可以發(fā)現(xiàn),方案2明顯優(yōu)于方案1。方案1具有兩大明顯不足,一是綜合統(tǒng)一平臺在查詢某個數(shù)據(jù)時,需要從業(yè)務(wù)數(shù)據(jù)庫中調(diào)取,這個數(shù)據(jù)有可能存在多個數(shù)據(jù)庫中,多個數(shù)據(jù)庫對這個數(shù)據(jù)的保存信息可能不一致,綜合查詢平臺基于不同的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)庫時,查詢結(jié)果不一樣。二是每次在修改數(shù)據(jù)時,都需要向多個數(shù)據(jù)庫寫數(shù)據(jù),所有的數(shù)據(jù)庫都必須全部打開等待數(shù)據(jù)寫入,非常浪費(fèi)系統(tǒng)資源。

方案2設(shè)計了一個中間庫,統(tǒng)一查詢平臺的數(shù)據(jù)查詢都基于此中間庫,平臺修改的數(shù)據(jù)也僅僅是修改中間庫的數(shù)據(jù),中間庫設(shè)計了一個觸發(fā)器,當(dāng)中間庫有變化時,才向各業(yè)務(wù)數(shù)據(jù)庫寫入數(shù)據(jù),當(dāng)各基礎(chǔ)業(yè)務(wù)數(shù)據(jù)庫發(fā)生變化時,向中間庫寫入數(shù)據(jù)。也可以設(shè)計一個算法,定時批量同步數(shù)據(jù)。

2)數(shù)據(jù)同步方案

① 數(shù)據(jù)轉(zhuǎn)換基本流程

數(shù)據(jù)同步時,有兩種情況,第一種是統(tǒng)一查詢平臺修改數(shù)據(jù)后,中間數(shù)據(jù)庫的數(shù)據(jù)被修改,按照一定的規(guī)程根據(jù)被修改的中間數(shù)據(jù)庫的情況修改業(yè)務(wù)數(shù)據(jù)庫,其基本流程對應(yīng)于圖3。第二種情況是,在各業(yè)務(wù)平臺上修改了數(shù)據(jù),這些數(shù)據(jù)引起了業(yè)務(wù)基礎(chǔ)庫的更新,更新的數(shù)據(jù)庫將引起中間庫的更新,其基本流程圖對應(yīng)于圖4。

② 數(shù)據(jù)同步方案

中間數(shù)據(jù)庫與業(yè)務(wù)基礎(chǔ)庫中相同變量的對應(yīng)關(guān)系是一對多,在中間數(shù)據(jù)中修改一個數(shù)據(jù),可能涉及多個業(yè)務(wù)基礎(chǔ)庫的修改,但每個業(yè)務(wù)數(shù)據(jù)庫修改的方式又不一樣。如在中間數(shù)據(jù)庫中增加一個姓名,定義為8個字節(jié),業(yè)務(wù)基礎(chǔ)數(shù)據(jù)庫1和業(yè)務(wù)基礎(chǔ)數(shù)據(jù)庫2都涉及了姓名列,但在業(yè)務(wù)數(shù)據(jù)庫1中,其字段長度為20,而業(yè)務(wù)基礎(chǔ)庫2中,其字段長度為30,故在轉(zhuǎn)換時,需要為中間數(shù)據(jù)庫每一個字段與所有的業(yè)務(wù)基礎(chǔ)庫的相同字段定義好轉(zhuǎn)換規(guī)則,在轉(zhuǎn)換時,必須查找對應(yīng)的規(guī)則進(jìn)行轉(zhuǎn)換。

大數(shù)據(jù)庫建設(shè)方案范文第2篇

【關(guān)鍵詞】 大數(shù)據(jù) 電信運(yùn)營商 4V Hadoop Spark 流計算

一、引言

大數(shù)據(jù)的應(yīng)用是在互聯(lián)網(wǎng)的高速發(fā)展中誕生的。谷歌提出了一套以分布式為特征的全新技術(shù)體系,即分布式文件系統(tǒng)(GFS,Google File System)、分布式并行計算(MapReduce)和分布式數(shù)據(jù)庫(BigTable)等技術(shù)。這些技術(shù)奠定了當(dāng)前大數(shù)據(jù)技術(shù)的基礎(chǔ),可以認(rèn)為是大數(shù)據(jù)技術(shù)的源頭。

二、大數(shù)據(jù)發(fā)展現(xiàn)狀

近年大數(shù)據(jù)的發(fā)展呈現(xiàn)以下兩個特征:1)互聯(lián)網(wǎng)公司引領(lǐng)大數(shù)據(jù)發(fā)展。互聯(lián)網(wǎng)公司在搜索、廣告領(lǐng)域積極采用大數(shù)據(jù)技術(shù)優(yōu)化既有業(yè)務(wù)。二是今年以來陸續(xù)推出一系列面向第三方的大數(shù)據(jù)服務(wù)。2)傳統(tǒng)企業(yè)大數(shù)據(jù)應(yīng)用仍處在探索期,發(fā)展?jié)u趨理性。傳統(tǒng)企業(yè)在大數(shù)據(jù)應(yīng)用的思路上也在糾偏,更加務(wù)實。一是更加注重更干凈、結(jié)構(gòu)化小的數(shù)據(jù)。二是更加注重企業(yè)自身沉淀下來的內(nèi)部數(shù)據(jù)的價值挖掘。三是更加注重根業(yè)務(wù)需求把Hadoop 與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合起來用。

三、大數(shù)據(jù)關(guān)鍵技術(shù)

1)大數(shù)據(jù)存儲管理。傳統(tǒng)的單機(jī)文件系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)要求一個文件系統(tǒng)的數(shù)據(jù)必須存儲在一臺物理機(jī)上,在冗余性、可擴(kuò)展性和容錯能力和并發(fā)能力上難以滿足大數(shù)據(jù)的需求。2)大數(shù)據(jù)計算能力。傳統(tǒng)的數(shù)據(jù)計算能力的提升依賴于擴(kuò)容單機(jī)的CPU性能、增加內(nèi)存、擴(kuò)展磁盤等方式,難以支撐平滑擴(kuò)容。以MapReduce為代表的分布式并行計算技術(shù)可以通過低成本的通用服務(wù)器搭建系統(tǒng)。通過添加服務(wù)器擴(kuò)展系統(tǒng)的總處理能力。3)大數(shù)據(jù)分析技術(shù)。大數(shù)據(jù)分析主要在兩個方面,一是對海量的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,如從文本網(wǎng)頁中進(jìn)行自然語言分析;二是對非結(jié)構(gòu)化的語音、圖片和視頻進(jìn)行機(jī)器可以識別的分析提取有用的信息。

四、大數(shù)據(jù)的主流技術(shù)

1、Hadoop。Hadoop是基于Java語言開發(fā),以分布式文件系統(tǒng)和Mapreduce為核心。其特點(diǎn)如下:1)可擴(kuò)展性:Hadoop運(yùn)行在基于X86結(jié)構(gòu)的普通PC服務(wù)器或刀片服務(wù)器上,硬件和軟件松耦合在一起,可以很方便的增加計算節(jié)點(diǎn)。2)可靠性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配,確保能夠針對失敗的節(jié)點(diǎn)重新分布計算。3)低成本:Hadoop架構(gòu)在廉價的硬件服務(wù)器上,不需要昂貴的硬件作支撐。其軟件是開源產(chǎn)品,不需要授權(quán)費(fèi)用。4)高效性:相比傳統(tǒng)并行計算結(jié)構(gòu),Hadoop的計算和存儲是一體的,實現(xiàn)任務(wù)之間無共享,I/O開銷小。

2、Spark。Spark擁有MapReduce的優(yōu)點(diǎn),但不同于MapReduce的Job中間輸出,其結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS。其有以下特點(diǎn):1)速度快。Spark支持內(nèi)存計算,對于小數(shù)據(jù)集能達(dá)到亞秒級的延遲。2)易于使用。Spark支持Sscala、Java和Python編寫程序。Spark提供了超過80個高級運(yùn)算符,以便于更容易的構(gòu)建并行應(yīng)用程序。3)與HDFS底層兼容。Spark能夠運(yùn)行在Hadoop 2.x的YARN集群管理器上,并且能夠讀取任何存在Hadoop數(shù)據(jù)。

2、流計算。流式數(shù)據(jù)是指將數(shù)據(jù)看作數(shù)據(jù)流的形式來處理。數(shù)據(jù)流是在時間分布和數(shù)量上無限的一系列動態(tài)數(shù)據(jù)集合體;數(shù)據(jù)記錄是數(shù)據(jù)流的最小組成單元。流計算的技術(shù)特點(diǎn)如下:1)實時性。流數(shù)據(jù)是實時產(chǎn)生、實時計算,結(jié)果反饋往往也需要保證及時性。2)易失性。在流計算環(huán)境中,數(shù)據(jù)流往往是到達(dá)后立即被計算并使用,只有極少數(shù)的數(shù)據(jù)才會被持久化地保存下來,大多數(shù)數(shù)據(jù)往往會被直接丟棄。3)突發(fā)性。在流計算中,數(shù)據(jù)的產(chǎn)生完全由數(shù)據(jù)源確定,由于不同的數(shù)據(jù)源在不同時空范圍內(nèi)的狀態(tài)不統(tǒng)一且發(fā)生動態(tài)變化,導(dǎo)致數(shù)據(jù)流的速率呈現(xiàn)出了突發(fā)性的特征。

五、主流技術(shù)方案比較

目前大數(shù)據(jù)平臺建設(shè)最常見的是基于Hadoop平臺和MPP數(shù)據(jù)庫的兩種方案。Hadoop、MPP數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)庫并非是互相取代的關(guān)系。因此,在很多大數(shù)據(jù)解決方案中,單一大數(shù)據(jù)技術(shù)無法滿足所有的要求,而是要根據(jù)實際場景采用不同的技術(shù)方案或采用混搭架構(gòu)進(jìn)行綜合處理。

六、電信運(yùn)營商大數(shù)據(jù)部署建議

大數(shù)據(jù)平臺建設(shè)目前有兩種方式,建議采用第2種方式:1)以現(xiàn)有分析系統(tǒng)BI為基礎(chǔ),進(jìn)行擴(kuò)展,構(gòu)建統(tǒng)一開放數(shù)據(jù)平臺。2)以統(tǒng)一數(shù)據(jù)管理為契機(jī),通過數(shù)據(jù)統(tǒng)一采集、存儲與處理入手,新建大數(shù)據(jù)平臺。方式2可迅速匯聚數(shù)據(jù),不影響現(xiàn)網(wǎng)各系統(tǒng)的運(yùn)行,后期可將經(jīng)分,性能管理等系統(tǒng)上移為數(shù)據(jù)集市,專注于專業(yè)分析。各數(shù)據(jù)源僅將數(shù)據(jù)送往大數(shù)據(jù)平臺。

大數(shù)據(jù)技術(shù)架構(gòu)建議按照“松耦合、標(biāo)準(zhǔn)化、分層開放”的標(biāo)準(zhǔn)進(jìn)行方案選取。而在數(shù)據(jù)層面,運(yùn)營商面臨數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理復(fù)雜,數(shù)據(jù)結(jié)構(gòu)多樣化等多種挑戰(zhàn)。無論是傳統(tǒng)數(shù)據(jù)庫還是分布式數(shù)據(jù)庫,均難以單獨(dú)滿足數(shù)據(jù)存儲和分析的需求。大數(shù)據(jù)平臺建議采用Hadoop作為大數(shù)據(jù)的主要存儲平臺,各分析集市、應(yīng)用系統(tǒng)可根據(jù)數(shù)據(jù)分析的深度,實時性采取Hadoop,Spark或MPP混搭架構(gòu)。

參 考 文 獻(xiàn)

大數(shù)據(jù)庫建設(shè)方案范文第3篇

面對中國大數(shù)據(jù)市場的蓬勃發(fā)展和實際需求,IBM不斷加大對中國市場的投入,以領(lǐng)先的大數(shù)據(jù)與分析技術(shù)促進(jìn)大數(shù)據(jù)在零售、銀行、電信、醫(yī)療、制造和互聯(lián)網(wǎng)等諸多行業(yè)落地,這與企業(yè)對大數(shù)據(jù)應(yīng)用的熱情形成良性互動,加速了最有說服力的、實打?qū)嵉摹鞍咐钡南群笥楷F(xiàn)。

實踐時代到來

“數(shù)據(jù)是競爭資源”、“細(xì)分市場越小,對數(shù)據(jù)的需求越大”,這些觀念已經(jīng)逐漸深入人心,大數(shù)據(jù)在證明其對企業(yè)的重要性和必要性后,走進(jìn)了“榜樣就是力量”的實戰(zhàn)階段——展望全球,IBM大數(shù)據(jù)與分析在全球的客戶數(shù)已經(jīng)突破3萬家。

談到中國的大數(shù)據(jù)市場,IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠表示:“IBM大數(shù)據(jù)與分析業(yè)已邁進(jìn)‘中國實踐階段’。中國的人口和經(jīng)濟(jì)規(guī)模決定了中國具有全球最大的大數(shù)據(jù)規(guī)模,同時也意味著中國的大數(shù)據(jù)與分析解決方案比其他國家更具創(chuàng)新性。另外,中國經(jīng)濟(jì)發(fā)展面臨的諸多挑戰(zhàn)需要大數(shù)據(jù)這種創(chuàng)新方式提供更好的解決方案,這一巨大的需求在客觀上為中國提供了廣泛的大數(shù)據(jù)實踐機(jī)會。我們相信,對于大數(shù)據(jù),中國面臨前所未有的機(jī)遇,有望在這一領(lǐng)域引領(lǐng)全球技術(shù)發(fā)展趨勢。”

要落地,如何降低大數(shù)據(jù)分析成本、降低部署難度、提高分析速度是大數(shù)據(jù)應(yīng)用無論如何也逃避不了的難點(diǎn),也是企業(yè)最頭疼的關(guān)鍵點(diǎn)。IBM從這三點(diǎn)入手,實際效果不辯自明。

青島銀行以PureData for Transactions專家集成系統(tǒng)支持公司數(shù)據(jù)中心建設(shè),以整合的專家能力賦能大數(shù)據(jù),支持公司數(shù)據(jù)中心建設(shè),建立了高可用、高性能、簡單、易于安裝、簡化運(yùn)維、能夠為青島銀行新柜面業(yè)務(wù)和其他重要交易業(yè)務(wù)提供可靠的數(shù)據(jù)平臺系統(tǒng)。

安聯(lián)全球救援(中國)對原有的數(shù)據(jù)分析和報告系統(tǒng)進(jìn)行升級,利用IBM Cognos 10業(yè)務(wù)分析技術(shù)和解決方案來全面支持“安聯(lián)全球救援業(yè)務(wù)分析智能系統(tǒng)”,從而更好地管理和運(yùn)營自身的數(shù)據(jù)庫,提高服務(wù)和運(yùn)營水平,將更有價值的業(yè)務(wù)分析和預(yù)測提供給企業(yè)級汽車客戶。

安聯(lián)全球救援(中國)首席運(yùn)營官金卡羅(Giancarlo Scupino)表示:“IBM大數(shù)據(jù)分析將我們的業(yè)務(wù)分析能力提升到了一個新的高度,使我們不再局限于過去簡單的人工數(shù)據(jù)統(tǒng)計,而是對數(shù)據(jù)進(jìn)行了更高層次的總結(jié)和分析?!?/p>

技術(shù)的力量

支持這諸多應(yīng)用成功落地的正是IBM在大數(shù)據(jù)和分析領(lǐng)域的不斷努力和層出不窮的新產(chǎn)品。正如IBM全球副總裁兼IBM中國開發(fā)中心總經(jīng)理王陽所描述的:“如果你想要走進(jìn)大數(shù)據(jù)時代,IBM會給你帶來強(qiáng)有力的武器,以產(chǎn)品和解決方案幫助你來實現(xiàn)大數(shù)據(jù)時代的勝利。”

“IBM創(chuàng)新的大數(shù)據(jù)技術(shù)和解決方案,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速挖掘與分析,幫助企業(yè)更加高效地獲取大數(shù)據(jù)價值,從而深化客戶關(guān)系,規(guī)避風(fēng)險和詐騙,快速尋找新的業(yè)務(wù)機(jī)遇,提升業(yè)務(wù)表現(xiàn)。” IBM大中華區(qū)系統(tǒng)與科技事業(yè)部技術(shù)總監(jiān)李永輝了IBM大數(shù)據(jù)與分析新產(chǎn)品及實現(xiàn)路線圖。

大數(shù)據(jù)庫建設(shè)方案范文第4篇

關(guān)鍵詞: 大數(shù)據(jù);電信網(wǎng)絡(luò);精簡架構(gòu);數(shù)據(jù)即服務(wù)

Abstract: In this paper, we discuss a number of domestic and international big-data telecommunications architectures and propose our own lean big-data architecture. This new architecture combines the practical application scenarios of operators, and the universal large platform is abandoned. There are two directions in big-data development: improving business efficiency and providing data as a service (DaaS). Capturing, managing, and mining core data of a telecom operator is the basis for service implementation. Rapid deployment and application of big data is the final target. A balance also needs to be struck between in efficiency, cost and time when deploying a big-data architecture.

Key words: big data; telecommunications network; lean architecture; data as a service

中圖分類號:TN915.03; TP393.03 文獻(xiàn)標(biāo)志碼:A 文章編號:1009-6868 (2013) 04-0039-003

1 電信運(yùn)營商建設(shè)大數(shù)據(jù)

思路及關(guān)鍵技術(shù)

運(yùn)營商的網(wǎng)絡(luò)和用戶是運(yùn)營商的核心資產(chǎn),而其中流動的數(shù)據(jù)(包括用戶配置基礎(chǔ)數(shù)據(jù)、網(wǎng)絡(luò)信令數(shù)據(jù)、網(wǎng)管/日志數(shù)據(jù)、用戶位置數(shù)據(jù)、終端信息)是運(yùn)營商的核心數(shù)據(jù)資產(chǎn)。對于運(yùn)營商來說,最有價值的數(shù)據(jù)來自基礎(chǔ)電信網(wǎng)絡(luò)本身,對于基礎(chǔ)管道數(shù)據(jù)的挖掘和分析是運(yùn)營商大數(shù)據(jù)挖掘的最重要方向。抓取、管理和挖掘這些數(shù)據(jù)是運(yùn)營商的當(dāng)務(wù)之急[1-2]。運(yùn)營商基于核心數(shù)據(jù)的大數(shù)據(jù)應(yīng)用可從兩個方面入手:

(1)通過大數(shù)據(jù)應(yīng)用提升自身運(yùn)營效率。比較典型的應(yīng)用包括:信令多維分析、網(wǎng)絡(luò)綜合管理及分析、業(yè)務(wù)和運(yùn)營支撐系統(tǒng)(BOSS)經(jīng)營綜合分析、精準(zhǔn)營銷等。

(2)通過數(shù)據(jù)即服務(wù)(DAAS)拓展新的服務(wù)內(nèi)容,提供對外服務(wù)。包括個體及群體的位置信息以及用戶行為分析等,對于第三方公司(比如零售業(yè)或者咨詢公司、政府等)都是非常有價值的信息。運(yùn)營商可以基于這些數(shù)據(jù)提供對外DAAS服務(wù),拓展市場空間。

為了構(gòu)建電信運(yùn)營的大數(shù)據(jù)應(yīng)用,從技術(shù)能力的角度可以分為數(shù)據(jù)收集與存儲、信息檢索匯聚、知識發(fā)現(xiàn)以及智慧4個層面。電信大數(shù)據(jù)技術(shù)層面如圖1所示。自下而上數(shù)據(jù)挖掘深度增加,難度加大,對于系統(tǒng)的智能需求提升。其中關(guān)鍵的技術(shù)包括抽取轉(zhuǎn)換裝載(ETL)、并行計算框架、分布式數(shù)據(jù)庫、分布式文件系統(tǒng)和數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。

面對海量的大數(shù)據(jù),如何有效進(jìn)行數(shù)據(jù)處理是需要解決的迫切問題,分布式并行處理是有效手段。傳統(tǒng)關(guān)系型數(shù)據(jù)庫多采用共享磁盤(Sharing-disk)架構(gòu),當(dāng)數(shù)據(jù)量達(dá)到一定程度,將面臨處理的“瓶頸”以及擴(kuò)展的困難,同時成本也偏高。當(dāng)前有效的做法是采用分布式文件系統(tǒng)/分布式數(shù)據(jù)庫結(jié)合做分布并行處理。目前基于開源的Hadoop平臺是業(yè)界采用較廣泛的一個實現(xiàn)方案。Hadoop[3]的核心思想是基于Hadoop分布式文件系統(tǒng)(HDFS)存儲文件或者基于HBase數(shù)據(jù)庫(也是基于HDFS),使用分布式并行計算框架MapReduce來并行執(zhí)行分發(fā)Map操作以及Reduce歸約操作。在Hadoop的計算模型中,計算節(jié)點(diǎn)與存儲節(jié)點(diǎn)合一。存儲數(shù)據(jù)的普通PC服務(wù)器可以執(zhí)行MapReduce的任務(wù)。而在Sharing-disk模型中,存儲節(jié)點(diǎn)與計算節(jié)點(diǎn)是分離的,存儲的數(shù)據(jù)需要傳送到計算節(jié)點(diǎn)做計算。Hadoop計算模型適合離線批處理的場景,比如Log日志分析、文檔統(tǒng)計分析等。它是關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的有益補(bǔ)充。

在私有技術(shù)上實現(xiàn)分布式存儲和并行處理,在調(diào)用接口上與Hadoop兼容,這是一個可行的技術(shù)方案。這種方案可以避免上述Hadoop的缺點(diǎn),同時在性能上做更多的優(yōu)化。有效的手段包括增加數(shù)據(jù)本地性(Data Locality)特性,在多次迭代的計算過程減少數(shù)據(jù)在不同節(jié)點(diǎn)之間的傳送;使用索引和緩存加快數(shù)據(jù)的處理速度。結(jié)合存儲和計算硬件進(jìn)行調(diào)優(yōu)也是有效的手段,可以使用數(shù)據(jù)的分層存儲,將數(shù)據(jù)分布在內(nèi)存、固態(tài)硬盤(SSD)、硬盤等不同介質(zhì)上[4],使得與計算資源達(dá)到很好的平衡。

面對海量數(shù)據(jù)實時性的要求,比較有效的方式是采用復(fù)雜事件處理(CEP)[5]。實時流處理采用事件觸發(fā)機(jī)制,對于輸入的事件在內(nèi)存中及時處理。同時對于多個事件能合成一個事件[6]。實時流處理需要支持規(guī)則以滿足靈活的事件處理要求。實時流處理可以使用分布式內(nèi)存數(shù)據(jù)庫、消息總線等機(jī)制來實現(xiàn)快速實時響應(yīng)。目前商用的CEP產(chǎn)品有不少,但是在功能、性能以及適用范圍上有較大差異,選擇成熟度高以及合適的產(chǎn)品是關(guān)鍵。

針對大數(shù)據(jù)中大量的半結(jié)構(gòu)化或者非結(jié)構(gòu)數(shù)據(jù),NoSQL數(shù)據(jù)庫應(yīng)運(yùn)而生。NoSQL數(shù)據(jù)庫放棄關(guān)系模型,弱化事務(wù),支持海量存儲、高可擴(kuò)展性、高可用及高并發(fā)需求。NoSQL數(shù)據(jù)庫在特定應(yīng)用場景下有很高的優(yōu)勢,是傳統(tǒng)數(shù)據(jù)庫的有效補(bǔ)充。按照數(shù)據(jù)模型,NoSQL主要有四大類:鍵-值(Key-Value)型、列存儲型、文檔型、圖型,它們對應(yīng)不同的應(yīng)用場景。比如Key-Value型適合簡單鍵-值對的高效查詢,而圖型適合社交關(guān)系的存儲和高效查詢。

針對大數(shù)據(jù)挖掘分析、搜索以及機(jī)器自適應(yīng)學(xué)習(xí)等技術(shù)在企業(yè)系統(tǒng)中逐步應(yīng)用。相關(guān)的算法種類很多,當(dāng)前需求較多的是分布式挖掘和分布式搜索。

由于數(shù)據(jù)類型以及數(shù)據(jù)處理方式的改變,傳統(tǒng)ETL已經(jīng)不適用。運(yùn)營商需要根據(jù)應(yīng)用場景做不同的規(guī)劃。目前來說,由于運(yùn)營商應(yīng)用系統(tǒng)差別較大,尚未有一種統(tǒng)一的處理模式。比較可行的一種方法是依據(jù)數(shù)據(jù)的功用以及特性做分層處理,比如大量的數(shù)據(jù)源首先做初篩,初篩完之后有部分?jǐn)?shù)據(jù)進(jìn)入數(shù)據(jù)倉庫或者RDBMS或者其他應(yīng)用。初篩可以使用Hadoop或者CEP或者定制的方式來完成。

針對運(yùn)營商的不同應(yīng)用場景,需要采用不同的技術(shù)或者技術(shù)組合。比如用戶實時詳單查詢,數(shù)據(jù)量巨大,但是它的數(shù)據(jù)類型簡單,數(shù)據(jù)以讀為主,不需要復(fù)雜的Join操作,數(shù)據(jù)的分布性好。相比傳統(tǒng)的RDBMS,使用Hadoop可以大大提升查詢性能,降低處理成本。更多的應(yīng)用可能需要多種技術(shù)的組合。比如信令采集及多維分析,信令數(shù)據(jù)特別是分組域(PS)信令數(shù)據(jù)量大且實時性要求高,有效解決海量數(shù)據(jù)處理與實時性要求是它的關(guān)鍵,需要CEP與Hadoop的組合。在當(dāng)前階段,不同的技術(shù)成熟度不一,由于業(yè)界大數(shù)據(jù)應(yīng)用進(jìn)展較快,我們認(rèn)為當(dāng)前針對不同應(yīng)用的精簡方案是最合適的,也就是依據(jù)應(yīng)用場景,挑選最合適的組件做組合,摒棄通用化的大平臺。

2 中興通訊大數(shù)據(jù)實踐

中興通訊依托在云計算等領(lǐng)域的長期積累,針對大數(shù)據(jù)形成了一套完整的技術(shù)體系架構(gòu)。ZTE大數(shù)據(jù)技術(shù)體系架構(gòu)如圖2所示。架構(gòu)依據(jù)運(yùn)營商的不同的應(yīng)用需求,注重采用組件搭建的方式,形成端到端的精簡方案。下面以兩個具體的案例進(jìn)行說明。

(1)用戶實時位置信息服務(wù)系統(tǒng)

該系統(tǒng)實時采集蜂窩網(wǎng)絡(luò)用戶的動態(tài)位置信息,并通過規(guī)范接口提供DAAS服務(wù)。實際工程中,當(dāng)期接入的用戶數(shù)達(dá)兩千多萬,每天用戶位置更新數(shù)據(jù)可達(dá)40多億條,高峰期更新達(dá)到每秒幾十萬次。除了采集的位置,還可以結(jié)合其他數(shù)據(jù)源比如用戶年齡等屬性做分析,以應(yīng)用編程接口(API)開放給上層應(yīng)用。此外該系統(tǒng)需要有良好的可擴(kuò)展性,后續(xù)可以接入其他區(qū)域的數(shù)據(jù)源。另外這套系統(tǒng)需要有良好的性價比,成本可控,時間可控。依據(jù)這些需求,我們在成熟的組件K-V NoSQL 數(shù)據(jù)庫的基礎(chǔ)上搭建了系統(tǒng)。用戶實時位置信息服務(wù)系統(tǒng)如圖3所示。

用戶實時位置信息服務(wù)系統(tǒng)是一個典型的精簡方案,它基于分布式Key-Value NoSQL數(shù)據(jù)庫的分布式緩存(DCache),組裝了對位置流事件實時處理的系統(tǒng)。DCache既是消息總線,也是內(nèi)存數(shù)據(jù)庫,能很好地滿足實時性的要求。同時DCache基于x86刀片服務(wù)器,采用分布式架構(gòu),系統(tǒng)的擴(kuò)展性很好,成本較低。該系統(tǒng)性能優(yōu)越,穩(wěn)定可靠,取得良好的效果。

(2)信令監(jiān)測多維分析系統(tǒng)

隨著運(yùn)營商數(shù)據(jù)業(yè)務(wù)快速增長,運(yùn)營商對于網(wǎng)絡(luò)質(zhì)量提升、網(wǎng)絡(luò)運(yùn)營效率有著更大的壓力。通過采集網(wǎng)絡(luò)Gn接口、Mc接口信令并加以處理分析,可以獲得網(wǎng)絡(luò)運(yùn)行的完整視圖,基于信令的相關(guān)專題分析,比如網(wǎng)絡(luò)質(zhì)量分析、流量效率分析、多網(wǎng)協(xié)同分析、客戶投訴及服務(wù)分析等對于運(yùn)營商網(wǎng)絡(luò)運(yùn)營有極大的價值。

信令監(jiān)測多維分析的難點(diǎn)在于信令流量大且數(shù)據(jù)量大,比如某運(yùn)營商省公司Gn接口峰值流量可以達(dá)到4 Gb/s,每天信令數(shù)據(jù)可達(dá)1 TB。需要采集信令并做多種分析以服務(wù)于不同的部門。

信令監(jiān)測多維分析系統(tǒng)采用分層的架構(gòu),便于數(shù)據(jù)共享及和應(yīng)用的擴(kuò)展。信令監(jiān)測多維分析系統(tǒng)如圖4所示。使用實時流處理滿足實時性高的數(shù)據(jù)分析要求,對于會話或事務(wù)詳單(XDR)初步處理完的數(shù)據(jù)采用傳統(tǒng)RDBMS存儲供后續(xù)分析查詢使用。對于數(shù)據(jù)量龐大的XDR采用Hadoop HBase存儲并查詢,原始信令采用分布式文件系統(tǒng)存放在本地。

在這個方案中,數(shù)據(jù)根據(jù)它的使用特性采用不同的方式存儲和處理,突破RDBMS處理“瓶頸”和擴(kuò)展性的“瓶頸”,達(dá)到了很好的效果。在測試中,4節(jié)點(diǎn)PC服務(wù)器可以全部承擔(dān)某運(yùn)營商省公司PS域XDR的存儲,入庫性能可達(dá)50 Mb/s,針對上百億條記錄查詢,可以在10 s內(nèi)返回。取得了很好的實踐效果。

3 結(jié)束語

電信運(yùn)營商面臨大數(shù)據(jù)發(fā)展的機(jī)遇,都在積極推動大數(shù)據(jù)的試點(diǎn)和商用。在當(dāng)前大數(shù)據(jù)技術(shù)快速發(fā)展的形勢下,根據(jù)需求和應(yīng)用場景搭建精簡方案,可以幫助運(yùn)營商在當(dāng)前激烈競爭環(huán)境中快速獲得競爭優(yōu)勢,在效率、成本和時間上取得最佳平衡。

參考文獻(xiàn)

[1] Cisco Systems. Cisco visual networking index global mobile data traffic forecast update, 2011 - 2016 [EB/OL]. [2013-03-25]. http://.

[2] MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition, and productivity [R]. McKinsey Global Institute, 2011.

[3] WHITE T. Hadoop權(quán)威指南 [M]. 2版. 周敏奇, 王曉玲, 金澈清, 譯. 北京:清華大學(xué)出版社, 2011.

[4] SNIA. 2012 SNIA Sprint Tutorials-NextGen Infrastructure for Big Data [EB/OL]. [2013-02-15]. http://

[5] NEUMEYER L, ROBBINS B, NAIR A, et al. S4: Distributed stream computing platform [C]//Proceedings of the IEEE International Conference on Data Mining Workshops (ICDMW’10), Dec 14-17,2010, Sydney, Australia .Los Alamitos, CA, USA: IEEE Computer Society, 2010:170-177.

[6] SHARON G, ETZION O. Event-processing network model and implementation [J]. IBM Systems Journal, 2008,47(2):321-334.

作者簡介

大數(shù)據(jù)庫建設(shè)方案范文第5篇

[關(guān)鍵詞]地質(zhì)大數(shù)據(jù);數(shù)據(jù)中心;建設(shè)

中圖分類號:P621 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2017)17-0098-02

地質(zhì)礦產(chǎn)勘查部門經(jīng)營幾十年沉淀下海量的各類地學(xué)數(shù)據(jù),由于缺乏有效的管理和綜合開發(fā)利用,大部分依然埋存在數(shù)據(jù)墳?zāi)怪校灾翢o法創(chuàng)造附加價值。如何盤活這些數(shù)據(jù)資源,將沉淀的數(shù)據(jù)資源價值最大化,是一個面臨的重大考驗。引入云計算、大數(shù)據(jù)等新一代信息技術(shù),建設(shè)地質(zhì)大數(shù)據(jù)中心,從而實現(xiàn)地質(zhì)數(shù)據(jù)智慧化服務(wù)和管理的新模式,為地質(zhì)數(shù)據(jù)資源綜合開發(fā)利用提供基礎(chǔ)保障。

1 地質(zhì)大數(shù)據(jù)中心發(fā)展趨勢

隨著地質(zhì)調(diào)查信息化水平的提高,地質(zhì)大數(shù)據(jù)時代到來的步伐不斷加快,在大數(shù)據(jù)時代背景下,地質(zhì)資料的管理、開發(fā)利用以及社會服務(wù)也將發(fā)生變化,與傳統(tǒng)的資料存儲相比,大數(shù)據(jù)時代下的地質(zhì)資料數(shù)據(jù)具有載體形式多、數(shù)據(jù)格式多、信息量龐大的特點(diǎn),給數(shù)據(jù)資料管理存儲與應(yīng)用服務(wù)帶來了新的挑戰(zhàn),如何有效保存、快速發(fā)現(xiàn)和獲取成為重要課題,建立具有高性能、容災(zāi)備份能力的數(shù)據(jù)中心成為了當(dāng)今地質(zhì)大數(shù)據(jù)時代信息化和數(shù)字化的必然要求[1]。

2 地質(zhì)數(shù)據(jù)化管理現(xiàn)狀

地質(zhì)數(shù)據(jù)化管理化建設(shè)已經(jīng)開展多年,但目前依然局限于解決某個部門某個項目的訴求上,處于比較落后階段。沒有統(tǒng)一的信息化管理平臺,沒有集中管理的數(shù)據(jù)存儲中心。各類地學(xué)數(shù)據(jù)無法統(tǒng)一存儲管理、數(shù)據(jù)安全管理缺失、信息安全管控能力薄弱、系統(tǒng)容災(zāi)性極差的尷尬局面。據(jù)公開數(shù)據(jù)顯示,當(dāng)前已經(jīng)建設(shè)完成涵蓋基礎(chǔ)地質(zhì)數(shù)據(jù)、地質(zhì)礦產(chǎn)數(shù)據(jù)、物化遙數(shù)據(jù)、水工環(huán)數(shù)據(jù)等多專業(yè)的地學(xué)數(shù)據(jù)庫。但這些數(shù)據(jù)庫的建設(shè)方式大多數(shù)是簡單地利GIS系統(tǒng)和數(shù)據(jù)庫系統(tǒng)來裝載數(shù)據(jù),很少做數(shù)據(jù)層面的資源整合和以需求為主導(dǎo)的二次開發(fā)。不同專業(yè)屬性的數(shù)據(jù)不能互相構(gòu)建互通,造成信息資源分散,共享和統(tǒng)一的程度不高。

3 地質(zhì)大數(shù)據(jù)中心建設(shè)現(xiàn)實需求分析

以存儲、管理、開發(fā)利用地質(zhì)數(shù)據(jù)為主題的大數(shù)據(jù)中心,是地質(zhì)行業(yè)信息化建設(shè)的大放向,以數(shù)據(jù)為核心,連接各類地質(zhì)業(yè)務(wù)平臺,可以促進(jìn)地質(zhì)數(shù)據(jù)共享,有效地提高數(shù)據(jù)資源的利用率,這將成為地質(zhì)數(shù)據(jù)資源轉(zhuǎn)換為地質(zhì)數(shù)據(jù)資產(chǎn)必備條件。

解決海量地學(xué)數(shù)據(jù)的存儲和各類應(yīng)用系統(tǒng)的整合部署,是目前地質(zhì)大數(shù)據(jù)中心建設(shè)的迫切需求。海量數(shù)據(jù)的存儲需求主要以各類項目和應(yīng)用系統(tǒng)的需求為主導(dǎo),項目包括已經(jīng)完成、正在實施、計劃開展的項目。以對基礎(chǔ)地質(zhì)、礦產(chǎn)地質(zhì)、農(nóng)業(yè)地質(zhì)、礦山環(huán)境、地質(zhì)災(zāi)害、旅游地質(zhì)等的專業(yè)數(shù)據(jù)評估,都以矢量數(shù)據(jù)、柵格數(shù)據(jù)、文本數(shù)據(jù)、表格等為主,所產(chǎn)生的數(shù)據(jù)都屬于PB級的數(shù)據(jù)量。為有效對這些海量數(shù)據(jù)進(jìn)行采集、存儲、管理和深度挖掘,以充分利用數(shù)據(jù)資源,地質(zhì)大數(shù)據(jù)中心建設(shè)成為了未來發(fā)展的必然趨勢。

4 地質(zhì)大數(shù)據(jù)中心建設(shè)目標(biāo)和原則

以地質(zhì)數(shù)據(jù)生產(chǎn)、存儲、管理、開發(fā)、利用為主線,采取統(tǒng)一、分步、集中、共享的建設(shè)方針,逐步構(gòu)建地質(zhì)大數(shù)據(jù)中心為目標(biāo)。

統(tǒng)一:對數(shù)據(jù)中心化建設(shè)進(jìn)行統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一規(guī)劃、統(tǒng)一籌備、統(tǒng)一部署、統(tǒng)一管理。避免各個業(yè)務(wù)部門、地勘單位各自為營的建設(shè)。

分步:設(shè)備會貶值,技術(shù)會過時,數(shù)據(jù)中心建設(shè)是一個長期工程,不可能一步建設(shè)到位,必須根據(jù)規(guī)劃,依據(jù)實際需求進(jìn)行分步建設(shè),逐步向目標(biāo)推進(jìn)。

集中:數(shù)據(jù)中心的硬件資源、軟件資源、網(wǎng)絡(luò)資源進(jìn)行集中采購、集中部署、集中管理。避免重屯度胄緯傻淖試蠢朔眩便于軟硬件資源的維護(hù),同時強(qiáng)化信息安全的管理。

共享:地勘單位共享硬件資源、軟件資源、網(wǎng)絡(luò)資源,各類資源由管理部門統(tǒng)一調(diào)度,各個地勘單位原則上不再投入建設(shè)相關(guān)的設(shè)施。

數(shù)據(jù)中心的建設(shè)必須理清現(xiàn)狀,明確需求,以資源整合、充分利舊、合理升級為建設(shè)原則。

資源整合:對硬件資源、軟件資源、網(wǎng)絡(luò)資源進(jìn)行分析、評估、整合,各類資源能用就用,統(tǒng)籌部署、合理共享,提高資源利用率。

充分利舊:充分利用現(xiàn)有基礎(chǔ)設(shè)施資源,可以改建為同城災(zāi)備中心和數(shù)據(jù)機(jī)房。

合理升級:運(yùn)營多年的業(yè)務(wù)系統(tǒng),設(shè)施可能已經(jīng)落后,并且多年沉淀下來的數(shù)據(jù),已屬于海量數(shù)據(jù)。原則上在利舊的前提下,新數(shù)據(jù)中心機(jī)房的建設(shè),在不影響現(xiàn)有數(shù)據(jù)存儲、業(yè)務(wù)系統(tǒng)運(yùn)營的情況下,合理升級數(shù)據(jù)的存儲方案和業(yè)務(wù)系統(tǒng)的運(yùn)營策略等。

5 地質(zhì)大數(shù)據(jù)中心總體方案描述

數(shù)據(jù)中心建設(shè)的指導(dǎo)思想是:堅持整體規(guī)劃、分布實施、統(tǒng)一標(biāo)準(zhǔn)、整體協(xié)調(diào)、整合發(fā)展、資源共享的原則,以網(wǎng)絡(luò)為基礎(chǔ)、應(yīng)用為重點(diǎn)、信息資源開發(fā)利用為核心,建立一個高可靠、大容量、安全的數(shù)據(jù)中心。依據(jù)建設(shè)目標(biāo),以業(yè)務(wù)應(yīng)用為驅(qū)動,切合實際數(shù)據(jù)存儲規(guī)模需求作為建設(shè)切入點(diǎn)打造全新的地質(zhì)模塊化數(shù)據(jù)中心。數(shù)據(jù)中心的建設(shè)涉及到硬件資源的整合、軟件資源的整合、網(wǎng)絡(luò)資源的整合、業(yè)務(wù)應(yīng)用系統(tǒng)功能整合、各類數(shù)據(jù)庫的整合,每個環(huán)節(jié)都需從管理、應(yīng)用、服務(wù)等諸多方面多角度全方位的考慮,并擬出技術(shù)方案方可實施。

1)地質(zhì)大數(shù)據(jù)中心應(yīng)用架構(gòu)

對各類地質(zhì)數(shù)據(jù)進(jìn)行全面梳理、分析,整合現(xiàn)有的數(shù)據(jù)資源,構(gòu)建完整、規(guī)范、統(tǒng)一的數(shù)據(jù)存儲中心,集中存儲,打破部門邊界,實現(xiàn)資源的有效共享,為今后業(yè)務(wù)系統(tǒng)建設(shè)奠定基礎(chǔ)(圖1)。

2)地質(zhì)大數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)

數(shù)據(jù)中心的網(wǎng)絡(luò)構(gòu)架必須統(tǒng)籌局域網(wǎng)內(nèi)部署,同時協(xié)調(diào)已有的各業(yè)務(wù)系統(tǒng)之間的運(yùn)營需求,使這些已有的系統(tǒng)運(yùn)行、真正投入使用,實現(xiàn)這些業(yè)務(wù)系統(tǒng)與下屬地勘單位互聯(lián)互通,進(jìn)行項目實時動態(tài)管理。而這些系統(tǒng)運(yùn)轉(zhuǎn)的前提是數(shù)據(jù)中心機(jī)房的建設(shè),需要大力的設(shè)備、人力、物力、財力的支撐,時間持續(xù)也很長久(圖2)。

3)確立數(shù)據(jù)中心平臺

構(gòu)建一套基于軟件定義的云存儲平臺,在標(biāo)準(zhǔn)硬件上構(gòu)建一套系統(tǒng)滿足文件存儲及對象存儲資源的訴求,并能實現(xiàn)存儲資源的按需自動化發(fā)放。不同類型存儲分別為不同業(yè)務(wù)按需提供存儲資源。

文件存儲服務(wù):提供NFS、CIFS、FTP和HDFS等標(biāo)準(zhǔn)接口,以卓越性能、大規(guī)模橫向擴(kuò)展能力和超大單一文件系統(tǒng)為用戶提供非結(jié)構(gòu)化數(shù)據(jù)共享存儲資源,應(yīng)用于視頻/音頻海量存儲、大數(shù)據(jù)應(yīng)用等場景。

對象存儲服務(wù):兼容Amazon S3與OpenStack Swift,支持融入主流云計算生態(tài),滿足云備份、云歸檔、IoT及云存儲服務(wù)運(yùn)營場景需求。

通過存儲系統(tǒng)軟件將標(biāo)準(zhǔn)硬件的本地存儲資源組織起來,構(gòu)建全分布式存儲池,實現(xiàn)一套存儲系統(tǒng)向上層應(yīng)用提供塊、文件和對象三種存儲資源服務(wù),滿足結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化等多類型數(shù)據(jù)存取對IOPS、帶寬及海量擴(kuò)展需求;提供快照、精簡配置、遠(yuǎn)程復(fù)制、多租戶等豐富的企I級數(shù)據(jù)服務(wù)特性,幫助企業(yè)輕松應(yīng)對業(yè)務(wù)快速變化時的數(shù)據(jù)靈活、可靠存取需求。同時,提供基于標(biāo)準(zhǔn)接口協(xié)議的開放API,天然融入OpenStack云基礎(chǔ)架構(gòu)及Hadoop大數(shù)據(jù)生態(tài)[2]。

4)容量規(guī)劃

根據(jù)實際數(shù)據(jù)存儲的容量需求,總體配置1540TB裸容量,滿足1PB可用容量需求,分布式存儲系統(tǒng)最大可達(dá)到4096節(jié)點(diǎn),200PB容量,本期配備11個節(jié)點(diǎn),兼容未來5年內(nèi)數(shù)據(jù)增長對存儲容量的冗余需求。

5)存儲網(wǎng)絡(luò)拓?fù)?/p>

存儲的組網(wǎng)架構(gòu)包括管理網(wǎng)絡(luò)、前端業(yè)務(wù)網(wǎng)絡(luò)和后端存儲網(wǎng)絡(luò)。管理網(wǎng)絡(luò)用于云存儲系統(tǒng)與用戶維護(hù)網(wǎng)絡(luò)對接,為系統(tǒng)管理員提供管理UI,完成系統(tǒng)配置、租戶管理、資源管理、服務(wù)發(fā)放等業(yè)務(wù)操作,以及告警/性能/拓?fù)涞染S護(hù)操作。同時可以匯聚所有物理節(jié)點(diǎn)的Mgmt接口,提供遠(yuǎn)程設(shè)備維護(hù)能力,如遠(yuǎn)程登錄設(shè)備虛擬KVM、查看溫度、電壓等硬件運(yùn)行數(shù)據(jù)等。前端業(yè)務(wù)網(wǎng)絡(luò)用于云存儲系統(tǒng)與用戶網(wǎng)絡(luò)對接,為租戶用戶提供租戶UI,完成資源申請、使用情況查詢等操作,并處理租戶客戶端或API發(fā)送的業(yè)務(wù)請求。

后端存儲網(wǎng)絡(luò)用于云存儲節(jié)點(diǎn)間內(nèi)部互聯(lián),提供HA(High Availability)組件如DSS(Data Service SubSystem)的心跳通信,以及各組件之間的內(nèi)部通信和數(shù)據(jù)交互(圖3)。

6)地質(zhì)大數(shù)據(jù)中心建設(shè)階段規(guī)劃

數(shù)據(jù)中心建設(shè)是一個中長期建設(shè)的過程,可按數(shù)據(jù)存儲中心、數(shù)據(jù)處理中心、數(shù)據(jù)應(yīng)用中心、數(shù)據(jù)運(yùn)營服務(wù)中心五個階段逐步實施(圖4)。

6 地質(zhì)大數(shù)據(jù)中心建設(shè)模式

地質(zhì)大數(shù)據(jù)中心工程可以考慮參其它單位的模塊化數(shù)據(jù)機(jī)房建設(shè)模式:系統(tǒng)運(yùn)營商投資建設(shè),應(yīng)用單位購買服務(wù)。

由于項目建設(shè)初期資金投入大、運(yùn)營周期長、維護(hù)難度大,為了降低項目建設(shè)初期資金籌措風(fēng)險以及后期運(yùn)行維護(hù)壓力,可借鑒目前硬件商推薦的“系統(tǒng)運(yùn)營商投資建設(shè),政府購買服務(wù)”。

該方案的優(yōu)點(diǎn)在于:在系統(tǒng)運(yùn)營服務(wù)期內(nèi),政府只需要按年向中標(biāo)的系統(tǒng)運(yùn)營商支付系統(tǒng)建設(shè)運(yùn)營服務(wù)費(fèi)即可,大大降低財政資金壓力;同時,不需要再成立專門的平臺維護(hù)機(jī)構(gòu),專注于業(yè)務(wù)處理,提高行政效率。

7 結(jié)束語

在國家大數(shù)據(jù)互聯(lián)網(wǎng)建設(shè)的背景,針對目前地質(zhì)數(shù)據(jù)存儲、管理存在的問題和安全隱患提出,為了保障數(shù)據(jù)安全,建立地質(zhì)大數(shù)據(jù)中心,挖掘深層數(shù)據(jù)信息,提高辦公效率,解決存在的隱患問題。通過對數(shù)據(jù)中心構(gòu)建的可行性分析認(rèn)為是可行的,地質(zhì)大數(shù)據(jù)中心的構(gòu)建推動地質(zhì)大數(shù)據(jù)挖掘、綜合利用,促進(jìn)地質(zhì)數(shù)據(jù)資源服務(wù)全行業(yè)的積極作用。

參考文獻(xiàn):