前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數(shù)據(jù)分析論文范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
大數(shù)據(jù)背景下的機器算法
專業(yè)
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現(xiàn)狀與意義
為什么大數(shù)據(jù)分析很重要?大數(shù)據(jù)分析可幫助組織利用其數(shù)據(jù)并使用它來識別新的機會。反過來,這將導致更明智的業(yè)務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯(lián)網(wǎng)和技術公司的支持下,大數(shù)據(jù)在2000年代初的數(shù)據(jù)熱潮期間出現(xiàn)。有史以來第一次,軟件和硬件功能是消費者產(chǎn)生的大量非結構化信息。搜索引擎,移動設備和工業(yè)機械等新技術可提供公司可以處理并持續(xù)增長的數(shù)據(jù)。隨著可以收集的天文數(shù)據(jù)數(shù)量的增長,很明顯,傳統(tǒng)數(shù)據(jù)技術(例如數(shù)據(jù)倉庫和關系數(shù)據(jù)庫)不適合與大量非結構化數(shù)據(jù)一起使用。 Apache軟件基金會啟動了第一個大數(shù)據(jù)創(chuàng)新項目。最重要的貢獻來自Google,Yahoo,F(xiàn)acebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數(shù)據(jù)準備和ETL的旗艦,可以為許多數(shù)據(jù)存儲或分析環(huán)境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發(fā))通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數(shù)據(jù)呈指數(shù)級增長,企業(yè)必須不斷擴展其基礎架構以最大化其數(shù)據(jù)的經(jīng)濟價值。在大數(shù)據(jù)的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產(chǎn)系統(tǒng)非常昂貴且效率低下。要使用大數(shù)據(jù),您還需要適當?shù)娜藛T和軟件技能,以及用于處理數(shù)據(jù)和查詢速度的硬件。協(xié)調(diào)所有內(nèi)容同時運行是一項艱巨的任務,許多大數(shù)據(jù)項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規(guī)模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業(yè)能夠勝過現(xiàn)有系統(tǒng)。
二、 擬研究的主要內(nèi)容(提綱)和預期目標
隨著行業(yè)中數(shù)據(jù)量的爆炸性增長,大數(shù)據(jù)的概念越來越受到關注。 由于大數(shù)據(jù)的大,復雜和快速變化的性質(zhì),許多用于小數(shù)據(jù)的傳統(tǒng)機器學習算法不再適用于大數(shù)據(jù)環(huán)境中的應用程序問題。 因此,在大數(shù)據(jù)環(huán)境下研究機器學習算法已成為學術界和業(yè)界的普遍關注。 本文主要討論和總結用于處理大數(shù)據(jù)的機器學習算法的研究現(xiàn)狀。 另外,由于并行處理是處理大數(shù)據(jù)的主要方法,因此我們介紹了一些并行算法,介紹了大數(shù)據(jù)環(huán)境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數(shù)據(jù)量大的情況下算法和模型的關系,同時也會探討大部分細分行業(yè)數(shù)據(jù)量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數(shù)據(jù)分析用戶包括大數(shù)據(jù)分析專業(yè)人士和一般用戶,但是大數(shù)據(jù)分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數(shù)據(jù)的特征,并像閱讀照片的讀者一樣容易接受。 2.數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論中心是數(shù)據(jù)挖掘算法。不同的數(shù)據(jù)挖掘算法依賴于不同的數(shù)據(jù)類型和格式來更科學地表征數(shù)據(jù)本身。由于它們被全世界的統(tǒng)計學家所公認,因此各種統(tǒng)計方法(稱為真值)可以深入到數(shù)據(jù)中并挖掘公認的值。另一方面是這些數(shù)據(jù)挖掘算法可以更快地處理大數(shù)據(jù)。如果該算法需要花費幾年時間才能得出結論,那么大數(shù)據(jù)的價值是未知的。 3.預測分析。大數(shù)據(jù)分析的最后一個應用領域是預測分析,發(fā)現(xiàn)大數(shù)據(jù)功能,科學地建立模型以及通過模型吸收新數(shù)據(jù)以預測未來數(shù)據(jù)。 4.語義引擎。非結構化數(shù)據(jù)的多樣化為數(shù)據(jù)分析提出了新的挑戰(zhàn)。您需要一套工具來分析和調(diào)整數(shù)據(jù)。語義引擎必須設計有足夠的人工智能,以主動從數(shù)據(jù)中提取信息。 5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理的組成部分。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理確保了分析結果在學術研究和商業(yè)應用中的可靠性和價值。大數(shù)據(jù)分析的基礎是前五個方面。當然,如果您更深入地研究大數(shù)據(jù)分析,則還有更多特征,更深入,更專業(yè)的大數(shù)據(jù)分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內(nèi)容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據(jù)中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數(shù)據(jù)分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數(shù)據(jù)分析下的中國社會輿情:總體態(tài)勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數(shù)據(jù)分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數(shù)據(jù)分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數(shù)據(jù)分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數(shù)據(jù)分析的輸變電設備狀態(tài)數(shù)據(jù)異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數(shù)”:2012年社會輿情運行態(tài)勢研究——基于百度熱搜詞的大 數(shù)據(jù)分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
[關鍵詞]Hadoop;大數(shù)據(jù);分布式計算;HDFS;MapReduce
doi:10.3969/j.issn.1673 - 0194.2015.20.032
[中圖分類號]TP308;TP311.13 [文獻標識碼]A [文章編號]1673-0194(2015)20-0041-01
1 大數(shù)據(jù)
大數(shù)據(jù)需要新處理模式才具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的核心是預測,它把數(shù)學算法應用到海量數(shù)據(jù)上來預測事件發(fā)生的可能性。大數(shù)據(jù)同時意味著思維的變革:①小數(shù)據(jù)分析的是隨機樣本,而大數(shù)據(jù)分析的是全體數(shù)據(jù),全面展示樣本無法表達的細節(jié)信息;②小數(shù)據(jù)分析追求精確性,而大數(shù)據(jù)分析具有混雜性,這意味著大數(shù)據(jù)的簡單算法比采樣數(shù)據(jù)的復雜算法更有效;③小數(shù)據(jù)分析關注因果關系,而大數(shù)據(jù)分析更關注相關關系,通過分析事物之間的關聯(lián)性,來預測事件的發(fā)展趨勢。
2 Hadoop大數(shù)據(jù)平臺
Hadoop是Apache的開源分布式計算平臺。受Google大數(shù)據(jù)論文的啟發(fā),Doug Cutting用JAVA實現(xiàn)了以MapReduce和HDFS為核心的Hadoop,并將源代碼完全貢獻出來。Hadoop充分發(fā)揮集群的計算和存儲能力,快速完成海量數(shù)據(jù)的處理。Hadoop采用分布式存儲來提高讀寫速度和擴大存儲容量;采用MapReduce整合分布式文件系統(tǒng)上的數(shù)據(jù),實現(xiàn)數(shù)據(jù)高速處理;采用存儲冗余數(shù)據(jù)來保證數(shù)據(jù)的安全性。
2.1 HDFS
HDFS是基于流模式訪問和處理超大文件的需求而開發(fā)的,它可以運行于廉價的商用服務器上,HDFS的主要特點有以下3個方面。①處理超大文件:在實際應用中,HDFS已經(jīng)能夠用來存儲管理PB級的數(shù)據(jù)了。②流式訪問數(shù)據(jù):請求讀取整個數(shù)據(jù)集要比讀取一條記錄更加高效。③運行于廉價的商用機器集群上:HDFS對硬件要求較低,無需昂貴的高可用性機器。
HDFS體系結構中有兩類節(jié)點:NameNode和DataNode,NameNode負責管理集群中的執(zhí)行調(diào)度,DataNode是具體任務的執(zhí)行節(jié)點。當執(zhí)行任務時,客戶端訪問NameNode獲取文件數(shù)據(jù)信息,與DataNode進行交互以訪問整個文件系統(tǒng)。HDFS向用戶提供類似POSIX的文件接口,開發(fā)者在編程時無需考慮NameNode和DataNode的實現(xiàn)細節(jié)。
2.2 MapReduce
MapReduce是Google公司的核心計算模型。在Hadoop中,用于執(zhí)行MapReduce任務的機器有兩種角色:JobTracker和TaskTracker,一個Hadoop集群中只有一個JobTracker,用于任務管理和調(diào)度。一般來說,為了減輕網(wǎng)絡傳輸?shù)膲毫Γ瑪?shù)據(jù)存儲在哪個節(jié)點上,就由哪個節(jié)點進行這部分數(shù)據(jù)的計算。JobTracker監(jiān)控任務運行情況,當一個TaskTracker出現(xiàn)故障時,JobTracker會將其承擔的任務轉交到另一個空閑的TaskTracker重新運行。TaskTracker用于執(zhí)行具體的工作。
3 大數(shù)據(jù)在智能電網(wǎng)中的應用構想
通過Hadoop大數(shù)據(jù)平臺,技術人員可實時觀察到全網(wǎng)范圍內(nèi)的電能流動狀態(tài)、電能負載熱區(qū)、設備故障高發(fā)區(qū)和客戶集中區(qū)等數(shù)據(jù),實現(xiàn)更加智能化的電網(wǎng)。具體包括以下4個方面。
3.1 電網(wǎng)數(shù)據(jù)可視化
在未來智能電網(wǎng)中,通過大數(shù)據(jù)分析融合調(diào)度、配電、輸電、發(fā)電和用電客戶數(shù)據(jù),實現(xiàn)實時和非實時數(shù)據(jù)的高度信息化集成,通過實時可視化運算分析,全面展示完整和精細的電網(wǎng)運行狀態(tài)圖,為管理層提供輔助決策支持和依據(jù)。
3.2 電網(wǎng)負載趨勢預測
在未來智能電網(wǎng)中,通過大數(shù)據(jù)分析電網(wǎng)負載的歷史數(shù)據(jù)和實時數(shù)據(jù),展示全網(wǎng)實時負載狀態(tài),預測電網(wǎng)負載變化趨勢,通過現(xiàn)代化管理技術的綜合應用,提高設備的使用效率,降低電能損耗,使電網(wǎng)運行更加經(jīng)濟和高效。
3.3 設備故障趨勢預測
在未來智能電網(wǎng)中,通過大數(shù)據(jù)分析電網(wǎng)中部分故障設備的故障類型、歷史狀態(tài)和運行參數(shù)之間的相關性,預測電網(wǎng)故障發(fā)生的規(guī)律,評估電網(wǎng)運行風險,開展實時預警,提前做好設備巡檢和消缺工作,為電網(wǎng)安全穩(wěn)定運行保駕護航。
3.4 客戶電力需求預測
在未來智能電網(wǎng)中,通過大數(shù)據(jù)分析電網(wǎng)客戶的用電數(shù)據(jù),預測區(qū)域用電和大客戶用電需求變化趨勢,針對客戶需求提前制訂高質(zhì)量的服務計劃,提升社會滿意度。
4 結 語
Hadoop充分發(fā)揮集群的計算和存儲能力,完成海量數(shù)據(jù)的實時處理。在未來的智能電網(wǎng)中,大數(shù)據(jù)分析可以應用到電網(wǎng)運行全景可視化、電網(wǎng)負載預測、設備故障趨勢預測和客戶需求趨勢預測等需求,充分挖掘海量數(shù)據(jù)的價值,為智能電網(wǎng)提供技術參考。
(湖南城市學院圖書館,湖南 益陽413000)
【摘 要】在云計算、物聯(lián)網(wǎng)等技術的推動下,世界已經(jīng)進入了一個“大數(shù)據(jù)”時代。本文旨在討論大數(shù)據(jù)時代下,圖書館與大數(shù)據(jù)相關的研究內(nèi)容、發(fā)展存在的問題以及總體發(fā)展趨勢。在大數(shù)據(jù)時代下,圖書館應該進行服務模式創(chuàng)新與重構、服務內(nèi)容創(chuàng)新與重構,從而解決發(fā)展瓶頸。
關鍵詞 大數(shù)據(jù);圖書館;云計算
0 引言
在云計算、物聯(lián)網(wǎng)等技術的推動下,世界已經(jīng)進入了一個“大數(shù)據(jù)”時代。如何有效地利用大數(shù)據(jù)成為政府公共管理和企業(yè)界共同關注的問題,但這些數(shù)據(jù)集的規(guī)模往往超出數(shù)據(jù)處理者的能力。圖書館主要工作為實踐,研究和教育。以最大限度地利用人類的知識,促進專業(yè)的交流為責任。圖書館職業(yè)無法離開專業(yè)知識和信息,影響人類社會的可持續(xù)發(fā)展。數(shù)據(jù)是圖書館藏書的重要組成部分。數(shù)據(jù)作為原始類的產(chǎn)品,可以加工、整理、分析,最后提煉成人與人之間的生產(chǎn)和生活中發(fā)揮更大作用的信息和知識。因此,大數(shù)據(jù)主題是圖書館行業(yè)內(nèi)應當研究的問題,展示了圖書館界在信息社會求生存,謀發(fā)展能力的提升。本文旨在討論大數(shù)據(jù)時代下,圖書館與大數(shù)據(jù)相關的研究內(nèi)容、發(fā)展存在的問題以及總體發(fā)展趨勢。
1 圖書館學研究教育與大數(shù)據(jù)現(xiàn)狀
圖書館已有的研究中有文獻計量學等和大數(shù)據(jù)有關。研究人員為了促進信息科學與社會科學的進步,通過大型網(wǎng)絡規(guī)模的收集獲得數(shù)據(jù)和分析數(shù)據(jù)得出相關結論來實現(xiàn)目標。由于大數(shù)據(jù)技術的應用,傳統(tǒng)的文獻計量學的研究從過去只有簡單的描述性研究擴展到評估和預測的研究。圖書館學研究人員參與了很多相關的項目,例如,新西蘭的奧塔哥大學的圖書館承擔了研究數(shù)據(jù)管理項目的任務,在麻省理工大學設立項目研究圖書館數(shù)據(jù)存儲、需求分析數(shù)據(jù)的管理,和傳播數(shù)據(jù),并完成數(shù)據(jù)收集保存標準的制定工作。烏里韋和麥克唐納在認為數(shù)據(jù)監(jiān)測工作將從傳統(tǒng)的信息技術受益。Huwe建議采取政治手段,以促進圖書館和數(shù)據(jù)中心的發(fā)展,他認為高等教育機構應該認可圖書館對學術研究的支持。通過分析2008非常流行的“數(shù)字化監(jiān)控中心的生命周期模型”,希金斯提出,圖書館的“數(shù)據(jù)保留計劃”的生命周期可以被納入其數(shù)字機構庫文件管理實體。此外,美國學者對館員在大數(shù)據(jù)環(huán)境中的作用和專業(yè)知識進行了調(diào)查,他們一致認為圖書館可以在大數(shù)據(jù)時代承擔數(shù)據(jù)管理職責。謝菲爾德大學還安排了基礎的信息學專業(yè)課程。 2011年6月倫敦國際監(jiān)護教育論壇投入使用的,也給數(shù)字監(jiān)控領域的發(fā)展提供了一個機會。
國內(nèi)目前的相關研究課題還處于剛起步的狀態(tài),CNKI與該主題相關的文章也只有寥寥幾篇。相比之下,國內(nèi)對“數(shù)據(jù)監(jiān)護權”的關注度更高這,主要是針對大學圖書館在這個專業(yè)領域展開更多的研究。這方面的論文在2012年之后有一個井噴式的增長,但總體來說,國內(nèi)相關文獻還相對較少,研究項目也幾乎沒有。
2 圖書館的大數(shù)據(jù)特征
在數(shù)字化時代,數(shù)據(jù)處理更容易、更快。圖書館的數(shù)據(jù)資源種類多、數(shù)量大、形式多樣。截至2008年底,CALS的文檔數(shù)據(jù)量達到180T,2010年底的國家圖書館數(shù)字資源總量達到480 T。目前,國家博物館進行維護之后,數(shù)字圖書館的非結構化數(shù)據(jù)的存儲容量將非常大??倲?shù)字資源工程也達到108TB。由此看來,圖書館的數(shù)字資源總量已聚集為一個大的數(shù)據(jù)集。再次,圖書館自動化服務水平已發(fā)展到了一個新的階段。此外,用戶服務信息每日激增,用戶對服務的要求越來越高,圖書館要根據(jù)用戶的服務信息,做出相應的調(diào)整。因此,根據(jù)各自限定的環(huán)境和條件,從大量的數(shù)據(jù)分析中挖掘出用戶當前和未來的需求都非常迫切。
3 大數(shù)據(jù)背景下圖書館發(fā)展趨勢
3.1 服務模式創(chuàng)新與重構
目前,隨著科學技術的不斷發(fā)展,傳統(tǒng)的紙質(zhì)圖書館向電子、數(shù)字圖書館的轉變,因此圖書館服務的性質(zhì)已經(jīng)發(fā)生了很大的變化。傳統(tǒng)圖書館是點對點的服務,而目前數(shù)字圖書館已經(jīng)成為綜合,服務的風格和方法等方面都發(fā)生了很大的變化。在服務理念上,數(shù)字圖書館是基于數(shù)據(jù)服務的基礎上,在大數(shù)據(jù)的基礎上,從數(shù)據(jù)采集,智能服務,提供綜合服務,創(chuàng)新了服務模式。在大數(shù)據(jù)時代,數(shù)據(jù)資源是豐富的,每個圖書館可以利用網(wǎng)絡來收集大量的數(shù)據(jù)資源,基于資源共享提供各種數(shù)據(jù)管理的資源之間的無縫連接。
3.2 服務內(nèi)容創(chuàng)新與重構
在大數(shù)據(jù)時代背景下,競爭已經(jīng)不再是一個簡單的數(shù)據(jù)資源所有權的競爭,而是在數(shù)據(jù)的結構以及類型上、數(shù)據(jù)的開發(fā)以及利用上的競爭。從圖書館的角度來看,它是在大數(shù)據(jù)背景下,為了避免自己被邊緣化,就必須分析數(shù)據(jù),來進行相關的數(shù)據(jù)分析服務。分析數(shù)據(jù)庫業(yè)務有以下幾個方面:首先,圖書館需要建立自己的大數(shù)據(jù)分析,數(shù)據(jù)分析通常在現(xiàn)有的數(shù)據(jù),如讀者愛好的書籍等。另外是對讀者的分析,這類似企業(yè)和其他客戶群體參考提供的數(shù)據(jù)分析、競爭情報分析,但也有很大的區(qū)別,不同之處在于數(shù)據(jù)分析對象、用于數(shù)據(jù)分析和數(shù)據(jù)分析的目的等。對于這樣的數(shù)據(jù),可能不會被圖書館所擁有,所以它必然成為在這個行業(yè)發(fā)展的瓶頸限制,我們應該想辦法解決這些問題。
參考文獻
[1]劉瓊.大數(shù)據(jù)環(huán)境下圖書館面臨的影響與挑戰(zhàn)[J].理論觀察,2013(8):112-113.
[2]孫琳.大數(shù)據(jù)時代圖書館服務體系創(chuàng)新研究[J].理論觀察,2013(4):99-100.
[3]李立.大數(shù)據(jù)在數(shù)字圖書館中的應用分析[J].高校實驗室工作研究,2014(3): 35-37.
關鍵詞:大數(shù)據(jù)時代;地方應用型高校;軟件工程專業(yè);課程體系
0引言
大數(shù)據(jù)作為繼云計算、物聯(lián)網(wǎng)之后IT行業(yè)又一顛覆性的技術,備受人們的關注,大數(shù)據(jù)技術正從概念轉向實際的應用,涌現(xiàn)出越來越多的大數(shù)據(jù)技術應用成功案例,大數(shù)據(jù)的價值也在迅速增長。2015年,中國大數(shù)據(jù)市場規(guī)模達到115.9億元人民幣,增速達38%,預計2016~2018年中國大數(shù)據(jù)市場規(guī)模將維持40%左右的高速增長[1]。大數(shù)據(jù)時代的到來,使得軟件行業(yè)對人才的應用能力和綜合素質(zhì)提出了更高的要求。咸陽師范學院作為咸陽市地方應用型高校以服務咸陽地區(qū)經(jīng)濟社會發(fā)展為己任,肩負著培養(yǎng)滿足咸陽地方社會需求軟件人才的使命,需要把培養(yǎng)面向大數(shù)據(jù)時代的軟件工程專業(yè)人才作為戰(zhàn)略任務來抓。而課程體系的建設是軟件工程專業(yè)人才培養(yǎng)體系最重要的一個方面。本文通過分析我院傳統(tǒng)軟件工程專業(yè)課程體系,以及大數(shù)據(jù)時代下企業(yè)對軟件工程專業(yè)人才要求,找出大數(shù)據(jù)時代下軟件工程專業(yè)應用型人才中課程體系存在的問題,探索出我院面向大數(shù)據(jù)環(huán)境的應用型軟件工程人才中課程體系的建設。
1我院軟件工程專業(yè)傳統(tǒng)的課程體系
自我院計算機系成立以來,軟件工程專業(yè)一直是我院重點建設專業(yè)。2013年,“‘3+1’校企合作軟件人才培養(yǎng)模式創(chuàng)新實驗區(qū)”被確定為省級人才培養(yǎng)模式創(chuàng)新實驗區(qū)。一直以來,該專業(yè)以培養(yǎng)“厚基礎、強能力、高素質(zhì)”應用型人才的為培養(yǎng)目標,以企業(yè)、市場需求為導向,重視實踐、技能和應用能力的培養(yǎng),與尚觀科技、中軟國際、華清遠見、藍鷗科技等西安多家企業(yè)聯(lián)合,采取3+1嵌入式校企聯(lián)合教育培養(yǎng)模式,將課程教學、工程實踐、行業(yè)理念進行無縫結合。課程體系是一個專業(yè)所設置的課程相互間的分工與配合[2],主要反映在基礎課與專業(yè)課,理論課與實踐課,必修課與選修課之間的比例關系上[3]。地方應用型本科院校的課程體系設計既要體現(xiàn)基礎知識的傳授,也要體現(xiàn)實踐能力的培養(yǎng),同時還要考慮學生的職業(yè)能力規(guī)劃發(fā)展問題。我院2013-2015級軟件工程專業(yè)課程體系結構圖如圖1所示。圖12013-2015級軟件工程專業(yè)課程體系結構圖從圖1可以看出通識教育必修課程的教學階段共3個半學年,主要涉及思想政治基礎知識、體育、人文歷史、外語應用能力等;相關學科基礎類課程主要包括高數(shù)、線性代數(shù)、數(shù)字邏輯等數(shù)學類課程;本學科基礎類課程主要涉及程序設計語言、計算機網(wǎng)絡、操作系統(tǒng)、數(shù)據(jù)結構、計算機組成原理等;專業(yè)技能教學階段強調(diào)對學生工程性、實用性、技術性和復合型能力的培養(yǎng),主要安排專業(yè)必修課程和專業(yè)選修課程。專業(yè)必修課程包括面向對象程序設計、軟件工程、數(shù)據(jù)庫原理與應用、軟件設計與體系結構、算法分析與設計等,專業(yè)選修課程包括Web軟件開發(fā)、Linux系統(tǒng)應用程序開發(fā)、移動終端開發(fā)等。根據(jù)教育部專業(yè)教學指導委員會軟件工程行業(yè)規(guī)范[4],本著“輕理論,重實踐”的原則,我院在一定程度上壓縮理論課課時,增加實踐課課時,優(yōu)化專業(yè)課程體系結構。我院2015級軟件工程專業(yè)的人才培養(yǎng)計劃中,各類課程學分設置與所占比例。
2大數(shù)據(jù)時代企業(yè)對軟件工程專業(yè)人才的要求
大數(shù)據(jù)時代所需要的人才是一定擁有數(shù)據(jù)處理、分析技術的,也就是對數(shù)據(jù)有敏銳的直覺和本質(zhì)的認知、能夠運用統(tǒng)計分析、機器學習、分布式處理等技術,從海量、復雜的數(shù)據(jù)中挖掘出有用的信息,以清晰易懂的形式傳達給決策者,并創(chuàng)造出豐富有價值的專業(yè)人士[5]。在大數(shù)據(jù)時代下,對軟件專業(yè)人才培養(yǎng),應具備以下四個方面的技能。(1)具有厚實的數(shù)學、統(tǒng)計和計算機學科的相關知識,能夠根據(jù)具體案例大數(shù)據(jù)分析任務的要求,運用大數(shù)據(jù)處理、分析平臺,收集整理海量數(shù)據(jù)并加以分析,挖掘出有價值的信息。(2)掌握大數(shù)據(jù)處理技術及可視化工具,能根據(jù)具體任務的需求,對數(shù)據(jù)進行選擇、轉換、加工等處理操作,采用有效方法和模型對數(shù)據(jù)進行分析并形成數(shù)據(jù)分析報告,用易于用戶理解的方式,提供科學的決策依據(jù)。(3)熟悉行業(yè)知識、專門業(yè)務及流程,將大數(shù)據(jù)技術和企業(yè)文化相結合,充分利用大數(shù)據(jù)分析處理的結果,挖掘出海量數(shù)據(jù)中隱藏的價值并應用于企業(yè)市場領域。(4)團隊合作精神,大量數(shù)據(jù)的收集整理、存儲、分析和處理,一個人是很難完成的,需要一個由團隊成員合理分工、共同協(xié)作完成。
3大數(shù)據(jù)時代我院軟件工程專業(yè)傳統(tǒng)的課程體系存在的問題
地方高校一直以來受傳統(tǒng)的“學術型”、“研究型”人才培養(yǎng)模式的影響較大,形成了適合于“精英教育”為培養(yǎng)研究型人才的課程體系,無法適應以工程實踐能力、創(chuàng)新創(chuàng)業(yè)意識、新技術新方向為目標的人才培養(yǎng),課程體系中理論教學占主導地位,實踐教學往往處于次要地位[6]。而目前處于大數(shù)據(jù)時代,信息技術的不斷創(chuàng)新、企業(yè)需求不斷變化、綜合型人才需求巨大等因素的影響下,傳統(tǒng)的培養(yǎng)研究型人才的課程體系,無法適應大數(shù)據(jù)時代以工程實踐能力、創(chuàng)新創(chuàng)業(yè)意識、新技術新方向為目標的人才培養(yǎng)。通過了解大數(shù)據(jù)環(huán)境企業(yè)對軟件工程人才的要求,分析我院2013-2015級軟件工程專業(yè)人才培養(yǎng)課程體系結構,發(fā)現(xiàn)存在以下問題:(1)缺少大數(shù)據(jù)技術方面的課程。傳統(tǒng)的課程體系中主要包括軟件工程專業(yè)一些傳統(tǒng)的課程,如數(shù)據(jù)結構、軟件工程、軟件體系結構等,而且課程內(nèi)容較陳舊,所開設的一些應用軟件的學習不能緊密貼合行業(yè)和技術發(fā)展,軟件工程專業(yè)教育必須適應互聯(lián)網(wǎng)時展和大數(shù)據(jù)技術的需求,關注企業(yè)發(fā)展及大數(shù)據(jù)系統(tǒng)的建設問題,以滿足企業(yè)對應用型人才的需要。(2)實踐類課程學時所占比例較少。我院2015級軟件工程專業(yè)實踐類課程占總學時的10.8%,是因為傳統(tǒng)的課程體系注重知識傳授,而忽略了學生解決問題、動手能力的提高。地方高校在人才培養(yǎng)中重視理論內(nèi)容、計算機編程能力,而忽略學生探索能力的培養(yǎng),這些都不利于學生對新技術、新方向發(fā)展的把握,學生難以應對各種層出不窮、錯綜復雜的海量數(shù)據(jù),很難挖掘出隱藏的數(shù)據(jù)價值并有效利用。(3)課程體系結構設置方面,一是存在通識教育類課程教學階段持續(xù)時間長,一直到第7個學期,這就影響了后面專業(yè)類課程的學習;二是專業(yè)基礎類分為專業(yè)必修和選修,沒有從課程教學階段不同來劃分,不能體現(xiàn)課程先后的銜接關系。
4大數(shù)據(jù)時代我院軟件工程專業(yè)課程體系建設改革
在大數(shù)據(jù)時代,軟件工程專業(yè)教育必須適應企業(yè)發(fā)展和大數(shù)據(jù)行業(yè)的需求。教學內(nèi)容的設置應與行業(yè)需求接軌,根據(jù)我院學生特點調(diào)整2016級軟件工程專業(yè)課程體系。具體做了以下幾點的調(diào)整。(1)課程體系結構更合理。一是通識教育類課程的調(diào)整。一方面將教學階段全部調(diào)整到第1、2學年完成,這樣在第3學年學生就可以重點學習專業(yè)類技能課程;另一方面此部分增加了大學生心理健康和創(chuàng)新創(chuàng)業(yè)教育課程,主要可以加強學生團隊合作精神的培養(yǎng)。二是專業(yè)類課程結構的調(diào)整。將專業(yè)類課程分為專業(yè)(學科)基礎課程和專業(yè)技能課程兩大類,專業(yè)(學科)基礎課程主要包括數(shù)學類課程、計算機導論、程序設計語言、數(shù)據(jù)結構、操作系統(tǒng)、軟件工程、運籌學、數(shù)據(jù)分析與處理。專業(yè)技能課程又分為專業(yè)核心課程和專業(yè)方向課,專業(yè)核心課程包括面向對象程序語言類、軟件設計模式、算法分析與設計、軟件測試等軟件工程專業(yè)要求的核心課程,而專業(yè)方向課分為3個方向:大數(shù)據(jù)分析、Web技術應用、移動終端開發(fā),鼓勵學生在學好專業(yè)基礎和核心課程的同時,發(fā)現(xiàn)自己專業(yè)類的興趣,選擇一個自己感興趣的方向集中學習,大數(shù)據(jù)分析方向是重點向學生推薦。在教學階段安排上,一般專業(yè)(學科)基礎課程要優(yōu)先于專業(yè)技能課程,這樣可以讓學生在掌握了學科、專業(yè)基礎上,充分了解軟件工程專業(yè)技能的訓練。(2)增加了大數(shù)據(jù)技術方面的課程。在新調(diào)整的課程體系中,專業(yè)(學科)基礎課程和專業(yè)技能課程都增加了大數(shù)據(jù)相關內(nèi)容?;A課設置增添運籌學、數(shù)據(jù)分析與處理等,使學生了解大數(shù)據(jù)行業(yè)基礎知識,激發(fā)學生對大數(shù)據(jù)行業(yè)發(fā)展及大數(shù)據(jù)應用前景的興趣;專業(yè)技能課設置了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘、大數(shù)據(jù)統(tǒng)計分析與應用、數(shù)據(jù)挖掘算法與應用等前沿科學技術相關課程以滿足大數(shù)據(jù)系統(tǒng)建設與應用的需要,培養(yǎng)更多企業(yè)需要的大數(shù)據(jù)管理分析軟件專業(yè)人才。院級選修課鼓勵研究大數(shù)據(jù)方向的教師積極申請大數(shù)據(jù)案例分析、大數(shù)據(jù)安全與隱私保護、HadoopMap/Reduce技術原理與應用等實用性強的課程,以補充對大數(shù)據(jù)方向特別感興趣學生的學習內(nèi)容。(3)增加實踐類課程所占比例。相比較2015級,以培養(yǎng)地方應用型人才為總目標,實踐類課程課時由19課時增加到28課時,所占總課時比例提高了約50%。實踐類課程包括校內(nèi)(課程設計和實訓)和校外(見習、實習、實訓、畢業(yè)論文),種類多樣化,使得學生多方面提升自己解決問題和動手操作能力。針對校內(nèi)實驗我院教師結合大數(shù)據(jù)教學實驗平臺,根據(jù)課程內(nèi)容設計實驗項目,從初級到高級,安排合理的階梯式學習,實驗內(nèi)容持續(xù)更新,加入最新、主流的分析建模工具和挖掘算法,學生在免費、開放的平臺環(huán)境下進行大數(shù)據(jù)構建、存儲、分析統(tǒng)計等實驗內(nèi)容,使學生熟練掌握Ha-doop、HBase、Spark等關鍵技術,提高大數(shù)據(jù)理論分析及技術應用的能力。做好校內(nèi)實踐的同時,校外實踐更是尤為重要,首先在實習、實訓企業(yè)的選擇上,盡量選擇“口碑好、技術強、理念先進”的單位,目前我院已與鄰近城市西安與尚觀科技、中軟國際、華清遠見、藍鷗科技等西安多家企業(yè)聯(lián)合,第四學年分批組織學生到合作企業(yè)的實訓基地參加真實的實訓項目,體驗IT企業(yè)真實的工作環(huán)境、工作流程和企業(yè)文化,了解互聯(lián)網(wǎng)大數(shù)據(jù)、零售大數(shù)據(jù)、金融大數(shù)據(jù)等領域知識,學習海量數(shù)據(jù)搜集、分析、存儲技術,引導學生按照項目的需求、總體設計、詳細設計、編碼、測試等流程完成實踐內(nèi)容,規(guī)范化文檔和代碼的編寫,培養(yǎng)學生的行業(yè)、職業(yè)素養(yǎng)。
5應用效果
目前應用此方案有2016和2017級兩級學生,雖然這兩級學生都還沒有就業(yè),但在創(chuàng)新應用能力方面都較2015級之前學生有顯著提升。近兩年有10余組學生團隊獲得國家級、省級、校級“大學生科研訓練項目”立項資助,有8名同學獲得“藍橋杯”程序設計大賽國家級二等獎、三等獎,省級一等獎2項,二等獎、三等獎多項。2016年有兩隊學生獲得陜西省高校“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)大賽三等獎,一隊學生獲得咸陽市青年創(chuàng)業(yè)大賽二等獎。數(shù)十名學生在核心期刊上公開發(fā)表學術論文。從目前取得的成績來看,課程體系結構的調(diào)整,使得學生不僅獲得扎實的理論知識,而且具備了過硬的實踐和創(chuàng)新能力,我院軟件工程專業(yè)畢業(yè)生一定會深受用人單位喜歡。
6總結
針對大數(shù)據(jù)時代下地方本科院校軟件專業(yè)人才培養(yǎng)中課程體系存在的一些問題,筆者分析了大數(shù)據(jù)環(huán)境對軟件工程專業(yè)人才的要求,以地方本科院校咸陽師范學院為例,改革調(diào)整了課程體系,主要在在理論教學和實踐教學中增加大數(shù)據(jù)相關理論及技術內(nèi)容,通過近年來的探索與實踐,此課程體系結構有效提高了學生的創(chuàng)新應用能力,為大數(shù)據(jù)時代企業(yè)發(fā)展培養(yǎng)了高水平、高素質(zhì)的大數(shù)據(jù)分析人才,新的課程體系適應了大數(shù)據(jù)環(huán)境下軟件工程人才的培養(yǎng)。
參考文獻
[1]孫琳.大數(shù)據(jù)應用的創(chuàng)新路徑[N].人民政協(xié)報,2016-05-17.
[2]潘正高.地方應用型高校軟件工程專業(yè)課程體系的研究[J].西昌學院學報,2017,31(3):94-97.
[3]潘怡.應用型本科院校軟件工程專業(yè)課程體系設置探討[J].長沙大學學報,2008,22(5):98-100.
[4]教育部專業(yè)教學指導委員會.高等學校軟件工程專業(yè)規(guī)范[M].北京:高等教育出版社,2011.
用戶如何從這龐大的數(shù)據(jù)庫中提取對自己有用的信息呢?這就需要大數(shù)據(jù)分析技術和工具,而傳統(tǒng)的商業(yè)智能(BI)工具已經(jīng)抵擋不住企業(yè)如此龐大的數(shù)據(jù)信息。提到大數(shù)據(jù),不得不說的是與大數(shù)據(jù)相關的技術名詞:Hadoop、MapReduce、HBase、NoSQL等。業(yè)界的眾多廠商也都開始從技術入手,打造各自的大數(shù)據(jù)解決方案。一時間,Hadoop紅遍了全球,就像當年的Linux開源軟件系統(tǒng)一樣,成為了研究和設計大數(shù)據(jù)解決方案的主流平臺。
華麗的變形
Hadoop的發(fā)展基本上經(jīng)歷了這樣一個過程:從一個開源的Apache基金會項目,隨著越來越多的用戶的加入,不斷地被使用、貢獻和完善,逐漸形成了一個強大的生態(tài)系統(tǒng)。
隨著云計算和大數(shù)據(jù)的發(fā)展,如今Hadoop已經(jīng)是一個能夠讓用戶輕松駕馭和使用的分布式計算平臺。用戶可以在不了解分布式底層細節(jié)的情況下,輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序,并能充分利用集群的威力實現(xiàn)高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在價格低廉的硬件上,而且它提供高傳輸率來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。HDFS放寬了POSIX的要求,這樣可以用流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。
Hadoop最受歡迎的是在Internet上對搜索關鍵字進行內(nèi)容分類的工具,但它也可以解決許多要求極大伸縮性的問題。例如,如果您要grep一個100TB的巨型文件,會出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上,這將需要很長的時間。但是Hadoop在設計時就考慮到這些問題,采用并行執(zhí)行機制,因此能大大提高效率。
如今,基于Hadoop的應用已經(jīng)遍地開花:Yahoo通過集群運行Hadoop,以支持廣告系統(tǒng)和Web搜索的研究;Facebook借助集群運行Hadoop,以支持其數(shù)據(jù)分析和機器學習;百度則使用Hadoop進行搜索日志的分析和網(wǎng)頁數(shù)據(jù)的挖掘工作;淘寶的Hadoop系統(tǒng)用于存儲并處理電子商務交易的相關數(shù)據(jù)。
九年的長跑,Hadoop已從初出茅廬的小象華麗變形,成為了行業(yè)巨人,但還需戒驕戒躁、不斷完善。
性能大提升
Hadoop還是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架。Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。
Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。
Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop可以將數(shù)千個節(jié)點投入計算,非常具有性能潛力。但并非所有的工作都可以進行并行處理,如用戶交互進行的數(shù)據(jù)分析。如果你設計的應用沒有專門為 Hadoop集群進行優(yōu)化,那么性能并不理想,因為每個Map/Reduce任務都要等待之前的工作完成。
英特爾針對大數(shù)據(jù)的開放架構核心產(chǎn)品線,推出了英特爾Hadoop分發(fā)版,讓用戶可以實現(xiàn)“軟硬協(xié)同,體驗至上”的創(chuàng)新效果。例如,利用英特爾至強處理器平臺對網(wǎng)絡和I/O 技術所做的優(yōu)化,與英特爾Hadoop分發(fā)版進行強力組合,以往分析1TB的數(shù)據(jù)需要4個多小時才能完全處理完,現(xiàn)在僅需要短短的7分鐘即可完成,極大地提升了大數(shù)據(jù)分析的速度。
Hadoop還是可伸縮的,能夠處理PB級數(shù)據(jù)。由于批量處理功能,Hadoop最好部署在這些場合:索引編制、模式識別、推薦引擎建立和情緒分析。在所有這些場合下,數(shù)據(jù)大量生成,存儲在Hadoop中,然后最終使用MapReduce函數(shù)來進行查詢。但是這并不意味著,Hadoop會取代數(shù)據(jù)中心里面目前的組件。恰恰相反,Hadoop會集成到現(xiàn)有的IT基礎設施里面,以便充分利用進入到該企業(yè)的海量數(shù)據(jù)。
曾聽過這樣一則案例:Hadoop集成到一家企業(yè)網(wǎng)站后,情況較之先前大有改觀:大大節(jié)省了時間和精力。來自Web服務器的日志數(shù)據(jù)不用經(jīng)歷ETL操作,而是直接被完整地發(fā)送到了Hadoop里面的HDFS。然后,對日志數(shù)據(jù)執(zhí)行同樣的清理過程,現(xiàn)在只使用MapReduce任務,一旦數(shù)據(jù)清理完畢,隨后被發(fā)送到數(shù)據(jù)倉庫。這個操作要迅速得多,這歸因于省去了ETL這一步,加上MapReduce操作速度快。而且,所有數(shù)據(jù)仍然保存在Hadoop里面,網(wǎng)站操作人員后續(xù)所需數(shù)據(jù)都可以查詢到。
開源的典范
Hadoop依賴于社區(qū)服務器,任何人都可以自由的下載、安裝并運行。由于它是一個開源項目,所以沒有軟件成本,這使得它成為一種非常吸引人的解決方案。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如C++。
Hadoop稱得上開源創(chuàng)新領域的杰出典范。思科的James Urquhart曾經(jīng)這樣說過:“Hadoop可以說是不涉及任何現(xiàn)有專利的開源項目在企業(yè)軟件方面所取得的首個里程碑式成功”。盡管里程碑不只這么一個,但能夠以這樣的規(guī)模將成功果實迅速擴展的例子還真不多見。
雖然大量的行業(yè)用戶開始學習Hadoop的技術架構,但在真實的生產(chǎn)環(huán)境中,依然顯得相當謹慎,很大一部分也是因為開源。Google雖然公開了MapReduce論文,但底層的GFS、BigTable等技術都不是開源的,因為這是互聯(lián)網(wǎng)的核心競爭力。很多企業(yè)的確想用這個技術,但是技術門檻比較高,前期投入非常之大。一旦進入維護和開發(fā)階段,Hadoop的真實成本就會凸顯出來。
群體的智慧
Hadoop作為海量數(shù)據(jù)分析的最佳解決方案,已經(jīng)受到眾多IT廠商的關注,并由此而錘煉出風格迥異的Hadoop發(fā)行版以及支持Hadoop的產(chǎn)品。
例如,IBM在Hadoop系統(tǒng)領域的代表產(chǎn)品InfoSphere BigInsights,它是基于開源Apache Hadoop框架實現(xiàn),增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究實驗室的數(shù)據(jù)分析、機器學習技術以及文本數(shù)據(jù)分析挖掘;IBM在流計算領域的代表產(chǎn)品是InfoSphere Streams,是目前業(yè)界獨有的流數(shù)據(jù)處理技術。Streams能夠在對諸如氣象信息、通訊信息、金融交易數(shù)據(jù)的管理中動態(tài)捕捉信息、進行實時分析,能夠對靜態(tài)數(shù)據(jù)的處理提供有效補充;在數(shù)據(jù)倉庫方面是InfoSphere Warehouse和etezza。Netezza克服了傳統(tǒng)數(shù)據(jù)倉庫在面臨大數(shù)據(jù)挑戰(zhàn)時的瓶頸,可以將大量數(shù)據(jù)整合到統(tǒng)一的平臺上,計算能力高達TB級。