前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的特征范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
【關(guān)鍵詞】圖像分類深度 卷積神經(jīng)網(wǎng)絡(luò) 加權(quán)壓縮近鄰
1 研究背景
手寫數(shù)字識別是一個經(jīng)典的模式識別問題。從0 到9這10 個阿拉伯數(shù)字組成。由于其類別數(shù)比較小,它在些運算量很大或者比較復雜的算法中比較容易實現(xiàn)。所以,在模式識別中數(shù)字識別一直都是熱門的實驗對象。卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)不但可以解決淺層學習結(jié)構(gòu)無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。
2 深度卷積神經(jīng)網(wǎng)絡(luò)
深度卷積神經(jīng)網(wǎng)絡(luò)是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡(luò),隱含層中的卷積層和池采樣層是實現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數(shù)來進行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過迭代訓練提高分類精確度。
深度卷積神經(jīng)網(wǎng)絡(luò)的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應的分類結(jié)果。正常情況下,一個卷積后面都跟一個子采樣層?;诰矸e層里權(quán)值共享和局部連接的特性,可以簡化網(wǎng)絡(luò)的樣本訓練參數(shù)。運算之后,獲得的結(jié)果通過激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個卷積層,反復進行特征學習。將被標記的樣本輸入到Softmax分類器中。
CNN 能夠簡化網(wǎng)絡(luò)的樣本訓練參數(shù),降低計算難度。這些良好的性能是網(wǎng)絡(luò)在有監(jiān)督方式下學會的,網(wǎng)絡(luò)的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個特點:
2.1 局部連接
深度卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的神經(jīng)元節(jié)點是局部連接,不像BP 神經(jīng)網(wǎng)絡(luò)中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡(luò)利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點連接相鄰的上一層神經(jīng)元節(jié)點。
2.2 權(quán)重共享
在深度卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中每一個卷積濾波器共享相同參數(shù)并重復作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進行分類。
3 實驗結(jié)果
為了驗證卷積神經(jīng)網(wǎng)絡(luò)的有效性,本實驗中使用以最經(jīng)典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數(shù)字MNIST數(shù)據(jù)庫有集60000 個訓練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數(shù)字USPS 數(shù)據(jù)庫含有7291 個訓練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。
表1給出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST 和USPS 庫上的識別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡(luò)對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。
因此,使用深度卷積神經(jīng)網(wǎng)絡(luò)算法訓練在圖像識別中獲得更高識別率。因此,深度卷積神經(jīng)網(wǎng)絡(luò)在識別手寫體字符時有著較好的分類效果。
4 總結(jié)
本文介紹深度卷積神經(jīng)網(wǎng)絡(luò)的理論知識、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經(jīng)網(wǎng)絡(luò)對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。
參考文獻
[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫體數(shù)字識別簡介[J].計算機科學,2013,40(08):316-318.
[2]王強.基于CNN的字符識別方法研究[D].天津師范大學,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.
作者簡介
關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學歷?,F(xiàn)為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。
以上文章都結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型對交通標志分類做了大量的研究,避免了復雜的人工特征提取算法的設(shè)計,研究結(jié)果具有一定的參考性。在現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型的啟發(fā)下,以上文章都采用分類器。而訓練分類器需要大量樣本,因而在小樣本數(shù)據(jù)下,采用分類器容易造成過擬合,降低網(wǎng)絡(luò)的泛化性。同時,由于SVM分類器在小樣本數(shù)據(jù)集上具有出色分類性能,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和多類SVM分類器[[4]的交通標志識別模型。此模型利用卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取和泛化能力,使得算法在復雜環(huán)境中依然具有可靠的識別結(jié)果。 首先,本文通過遷移學習策略「51L61對AlexNet網(wǎng)絡(luò)[7]特征提取部分進行微調(diào),并將微調(diào)結(jié)果作為本文的特征提取器。然后將卷積神經(jīng)網(wǎng)絡(luò)提取的特征作為多類SVM分類器的輸入。同時為了進一步防止過擬合現(xiàn)象的發(fā)生,本文在SVM分類器中加入dropout層,利用隨機置零策略進行參數(shù)選擇。最后,文章通過實驗結(jié)果證實本文提出的分類模型相比于采用softmax分類器有更好的準確率、在復雜背景中具有較高的識別率和較強的魯棒性棒。1卷積神經(jīng)網(wǎng)絡(luò)和SVM
1.1 AlexNet網(wǎng)絡(luò)
AlexNet網(wǎng)絡(luò)是著名的卷積分類網(wǎng)絡(luò),可成功實現(xiàn)對1000類別物體的分類。其結(jié)構(gòu)可以分為特征提取器和分類器兩部分。
特征提取器主要由卷積層、池化層、激活函數(shù)組成。卷積層由大小不同的卷積核組成,卷積核類似于傳統(tǒng)視覺中的特征提取算子。但區(qū)別于傳統(tǒng)視覺算子,卷積核參數(shù)由網(wǎng)絡(luò)自己學習得到,可以提取圖像從底層到高層的不同特征信息。池化層常連接在卷積層之后,一般常用最大池化操作。池化層可以加強網(wǎng)絡(luò)對平移變化的魯棒性。激活函數(shù)為網(wǎng)絡(luò)引入非線性因素,使得網(wǎng)絡(luò)可以逼近任意函數(shù)形式。
分類層主要由全連接層和多類邏輯回歸函數(shù)組成。全連接層學習用合理的方式組合特征,可以看為函數(shù)映射。邏輯回歸函數(shù)進行類別概率判別,邏輯回歸判別見公式。同時,為了防止全連接層過擬合,AlexNet網(wǎng)絡(luò)引入dropout層,dropout[9]采用隨機置零的方式,防止神經(jīng)元以特定的方式組合工作,從而防止深度網(wǎng)絡(luò)的過擬合。p}Y}}}=j1二(‘);B)=藝 e醉x})丫‘eBTx}' }e' j代表類別,二(i)為輸入,k代表類別總數(shù),8,表示將樣本x}')映射到j(luò)類的參數(shù),B代表er,r=i,z,~… ,,組成的矩陣,p(少‘)=j}x(仍表示x}'}屬于j類的概率。1.2標準SVM SVM是基于結(jié)構(gòu)風險最小化理論的有監(jiān)督學習算法,通過尋找最優(yōu)分割超平面來實現(xiàn)分類[}10}。相比于神經(jīng)網(wǎng)絡(luò),SVM在小樣本數(shù)據(jù)集上也能表現(xiàn)出良好的分類效果,因而得到廣泛使用。標準的SVM通過尋求公式(2)的最優(yōu)解來找到最優(yōu)超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i個樣本標簽,x}'}代表第i個樣本特,m為訓練集大小。分類模型設(shè)計
本文提出的分類模型主要分為兩部分,特征提取部分和多類SVM分類器。整體結(jié)構(gòu)如圖1所示。
圖1中,特征提取器主要對輸入圖片進行特征提取和融合,最終得到圖像的高階特征并將提取到的信息特征送入多類SVM分類器。dropout層進行參數(shù)隨機丟失步驟,此步驟通過隨機失活神經(jīng)元可有效防止過擬合的發(fā)生;然后結(jié)合不加正則化項的SVM算法進行分類,得到最終輸出結(jié)果。
2.1特征提取器
>> 基于PCA—LDA與蟻群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的人臉識別算法 基于粒子群算法和神經(jīng)網(wǎng)絡(luò)的人臉識別分類器研究 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別研究 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識別研究 基于PCA算法的人臉識別技術(shù)研究 基于改進PCA算法的人臉識別研究 基于MB_LBP和PCA算法的人臉識別研究 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識別算法的實現(xiàn) 基于模糊混沌神經(jīng)網(wǎng)絡(luò)的人臉識別算法 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別 基于子圖分割和BP神經(jīng)網(wǎng)絡(luò)的人臉識別方法 基于EMPCA和RBF神經(jīng)網(wǎng)絡(luò)的人臉識別 基于改進PCA與FLD算法的人臉識別 基于模糊人工神經(jīng)網(wǎng)絡(luò)的人臉識別研究 基于改進的LBP和PCA算法的人臉識別 基于并行PCA算法的人臉識別系統(tǒng)的研究 基于PCA和SVM的人臉識別 基于PCA和FLD的人臉識別方法 基于快速PCA―SVM的人臉識別研究 基于主分量分析的BP神經(jīng)網(wǎng)絡(luò)人臉圖像識別算法 常見問題解答 當前所在位置:l.
[6]劉學勝.基于PCA和SVM算法的人臉識別[J].計算機與數(shù)字工程,2011(7).
[7]廖海濱,陳慶虎. 基于因子分析的實用人臉識別研究[J].電子與信息學報,2011(7).
[8]蔡曉曦,陳定方.特征臉及其改進方法在人臉識別中的比較研究[J].計算機與數(shù)字工程,2007(4).
過去10年,人們對機器學習的興趣激增。幾乎每天,你都可以在各種各樣的計算機科學課程、行業(yè)會議、華爾街日報等等看到有關(guān)機器學習的討論。在所有關(guān)于機器學習的討論中,許多人把機器學習能做的事情和他們希望機器學習做的事情混為一談。從根本上講,機器學習是使用算法從原始數(shù)據(jù)中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)是機器學習的一種模型,它們至少有50年歷史了。神經(jīng)網(wǎng)絡(luò)的基本單元是節(jié)點(node),基本上是受哺乳動物大腦中的生物神經(jīng)元啟發(fā)。神經(jīng)元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發(fā)展的方式是為“訓練”。
在20世紀80年代中期和90年代初期,許多重要的架構(gòu)進步都是在神經(jīng)網(wǎng)絡(luò)進行的。然而,為了得到好的結(jié)果需要大量時間和數(shù)據(jù),這阻礙了神經(jīng)網(wǎng)絡(luò)的采用,因而人們的興趣也減少了。在21世紀初,計算能力呈指數(shù)級增長,計算技術(shù)出現(xiàn)了“寒武紀大爆發(fā)”。在這個10年的爆炸式的計算增長中,深度學習成為這個領(lǐng)域的重要的競爭者,贏得了許多重要的機器學習競賽。直到2017年,這種興趣也還沒有冷卻下來;今天,我們看到一說機器學習,就不得不提深度學習。
作者本人也注冊了Udacity的“Deep Learning”課程,這門課很好地介紹了深度學習的動機,以及從TensorFlow的復雜和/或大規(guī)模的數(shù)據(jù)集中學習的智能系統(tǒng)的設(shè)計。在課程項目中,我使用并開發(fā)了用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò),用于自然語言處理的嵌入式神經(jīng)網(wǎng)絡(luò),以及使用循環(huán)神經(jīng)網(wǎng)絡(luò)/長短期記憶的字符級文本生成。
本文中,作者總結(jié)了10個強大的深度學習方法,這是AI工程師可以應用于他們的機器學習問題的。首先,下面這張圖直觀地說明了人工智能、機器學習和深度學習三者之間的關(guān)系。
人工智能的領(lǐng)域很廣泛,深度學習是機器學習領(lǐng)域的一個子集,機器學習又是人工智能的一個子領(lǐng)域。將深度學習網(wǎng)絡(luò)與“經(jīng)典的”前饋式多層網(wǎng)絡(luò)區(qū)分開來的因素如下:
比以前的網(wǎng)絡(luò)有更多的神經(jīng)元更復雜的連接層的方法用于訓練網(wǎng)絡(luò)的計算機能力的“寒武紀大爆炸”自動特征提取
這里說的“更多的神經(jīng)元”時,是指神經(jīng)元的數(shù)量在逐年增加,以表達更復雜的模型。層(layers)也從多層網(wǎng)絡(luò)中的每一層都完全連接,到在卷積神經(jīng)網(wǎng)絡(luò)中層之間連接局部的神經(jīng)元,再到在循環(huán)神經(jīng)網(wǎng)絡(luò)中與同一神經(jīng)元的循環(huán)連接(recurrent connections)。
深度學習可以被定義為具有大量參數(shù)和層的神經(jīng)網(wǎng)絡(luò),包括以下四種基本網(wǎng)絡(luò)結(jié)構(gòu):
無監(jiān)督預訓練網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)
在本文中,主要介紹后三種架構(gòu)?;旧?,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一個標準的神經(jīng)網(wǎng)絡(luò),通過共享的權(quán)重在空間中擴展。CNN設(shè)計用于通過內(nèi)部的卷積來識別圖像,它可以看到圖像中待識別的物體的邊緣。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被設(shè)計用于識別序列,例如語音信號或文本。它的內(nèi)部有循環(huán),這意味著網(wǎng)絡(luò)上有短的記憶。遞歸神經(jīng)網(wǎng)絡(luò)更像是一個層級網(wǎng)絡(luò),在這個網(wǎng)絡(luò)中,輸入必須以一種樹的方式進行分層處理。下面的10種方法可以應用于所有這些架構(gòu)。
1.反向傳播
反向傳播(Back-prop)是一種計算函數(shù)偏導數(shù)(或梯度)的方法,具有函數(shù)構(gòu)成的形式(就像神經(jīng)網(wǎng)絡(luò)中)。當使用基于梯度的方法(梯度下降只是方法之一)解決優(yōu)化問題時,你需要在每次迭代中計算函數(shù)梯度。
對于神經(jīng)網(wǎng)絡(luò),目標函數(shù)具有組合的形式。如何計算梯度呢?有兩種常用的方法:(i)解析微分(Analytic differentiation)。你已經(jīng)知道函數(shù)的形式,只需要用鏈式法則(基本微積分)來計算導數(shù)。(ii)利用有限差分進行近似微分。這種方法在計算上很昂貴,因為函數(shù)值的數(shù)量是O(N),N指代參數(shù)的數(shù)量。不過,有限差分通常用于在調(diào)試時驗證back-prop實現(xiàn)。
2.隨機梯度下降法
一種直觀理解梯度下降的方法是想象一條河流從山頂流下的路徑。梯度下降的目標正是河流努力達到的目標——即,到達最底端(山腳)。
現(xiàn)在,如果山的地形是這樣的,在到達最終目的地之前,河流不會完全停下來(這是山腳的最低點,那么這就是我們想要的理想情況。)在機器學習中,相當從初始點(山頂)開始,我們找到了解決方案的全局最小(或最佳)解。然而,可能因為地形的性質(zhì)迫使河流的路徑出現(xiàn)幾個坑,這可能迫使河流陷入困境。在機器學習術(shù)語中,這些坑被稱為局部極小值,這是不可取的。有很多方法可以解決這個問題。
因此,梯度下降很容易被困在局部極小值,這取決于地形的性質(zhì)(用ML的術(shù)語來說是函數(shù)的性質(zhì))。但是,當你有一種特殊的地形時(形狀像一個碗,用ML的術(shù)語來說,叫做凸函數(shù)),算法總是保證能找到最優(yōu)解。凸函數(shù)對ML的優(yōu)化來說總是好事,取決于函數(shù)的初始值,你可能會以不同的路徑結(jié)束。同樣地,取決于河流的速度(即,梯度下降算法的學習速率或步長),你可能以不同的方式到達最終目的地。這兩個標準都會影響到你是否陷入坑里(局部極小值)。
3.學習率衰減
根據(jù)隨機梯度下降的優(yōu)化過程調(diào)整學習率(learning rate)可以提高性能并減少訓練時間。有時這被稱為學習率退火(learning rate annealing)或自適應學習率(adaptive learning rates)。訓練過程中最簡單,也是最常用的學習率適應是隨著時間的推移而降低學習度。在訓練過程開始時使用較大學習率具有進行大的改變的好處,然后降低學習率,使得后續(xù)對權(quán)重的訓練更新更小。這具有早期快速學習好權(quán)重,后面進行微調(diào)的效果。
兩種常用且易于使用的學習率衰減方法如下:
逐步降低學習率。在特定的時間點較大地降低學習率。
4?. Dropout
具有大量參數(shù)的深度神經(jīng)網(wǎng)絡(luò)是非常強大的機器學習系統(tǒng)。然而,過擬合在這樣的網(wǎng)絡(luò)中是一個嚴重的問題。大型網(wǎng)絡(luò)的使用也很緩慢,這使得在測試時將許多不同的大型神經(jīng)網(wǎng)絡(luò)的預測結(jié)合起來變得困難。Dropout是解決這個問題的一種方法。
Dropout的關(guān)鍵想法是在訓練過程中隨機地從神經(jīng)網(wǎng)絡(luò)中把一些units(以及它們的連接)從神經(jīng)網(wǎng)絡(luò)中刪除。這樣可以防止單元過度適應。在訓練過程中,從一個指數(shù)級的不同的“稀疏”網(wǎng)絡(luò)中刪除一些樣本。在測試時,通過簡單地使用一個具有較小權(quán)重的單一網(wǎng)絡(luò),可以很容易地估計所有這些“變瘦”了的網(wǎng)絡(luò)的平均預測效果。這顯著減少了過擬合,相比其他正則化方法有了很大改進。研究表明,在視覺、語音識別、文檔分類和計算生物學等監(jiān)督學習任務中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)有所提高,在許多基準數(shù)據(jù)集上獲得了state-of-the-art的結(jié)果。
5. Max Pooling
最大池化(Max pooling)是一個基于樣本的離散化過程。目標是對輸入表示(圖像,隱藏層輸出矩陣等)進行下采樣,降低其維度,并允許對包含在分區(qū)域中的特征進行假設(shè)。
這在一定程度上是為了通過提供一種抽象的表示形式來幫助過擬合。同時,它通過減少學習的參數(shù)數(shù)量,并為內(nèi)部表示提供基本的平移不變性(translation invariance),從而減少計算成本。最大池化是通過將一個最大過濾器應用于通常不重疊的初始表示的子區(qū)域來完成的。
6.批量歸一化
當然,包括深度網(wǎng)絡(luò)在內(nèi)的神經(jīng)網(wǎng)絡(luò)需要仔細調(diào)整權(quán)重初始化和學習參數(shù)。而批量標準化有助于實現(xiàn)這一點。
權(quán)重問題:無論權(quán)重的初始化如何,是隨機的也好是經(jīng)驗性的選擇也罷,都距離學習到的權(quán)重很遙遠??紤]一個小批量(mini batch),在最初時,在所需的特征激活方面將會有許多異常值。
深度神經(jīng)網(wǎng)絡(luò)本身是有缺陷的,初始層中一個微小的擾動,就會導致后面層巨大的變化。在反向傳播過程中,這些現(xiàn)象會導致對梯度的分散,這意味著在學習權(quán)重以產(chǎn)生所需輸出之前,梯度必須補償異常值,而這將導致需要額外的時間才能收斂。
批量歸一化將梯度從分散規(guī)范化到正常值,并在小批量范圍內(nèi)向共同目標(通過歸一化)流動。
學習率問題:一般來說,學習率保持較低,只有一小部分的梯度校正權(quán)重,原因是異常激活的梯度不應影響學習的激活。通過批量歸一化,減少異常激活,因此可以使用更高的學習率來加速學習過程。
7.長短時記憶
LSTM網(wǎng)絡(luò)在以下三個方面與RNN的神經(jīng)元不同:
能夠決定何時讓輸入進入神經(jīng)元;能夠決定何時記住上一個時間步中計算的內(nèi)容;能夠決定何時讓輸出傳遞到下一個時間步長。
LSTM的優(yōu)點在于它根據(jù)當前的輸入本身來決定所有這些。所以,你看下面的圖表:
當前時間標記處的輸入信號x(t)決定所有上述3點。輸入門從點1接收決策,遺忘門從點2接收決策,輸出門在點3接收決策,單獨的輸入能夠完成所有這三個決定。這受到我們的大腦如何工作的啟發(fā),并且可以基于輸入來處理突然的上下文/場景切換。
8. Skip-gram
詞嵌入模型的目標是為每個詞匯項學習一個高維密集表示,其中嵌入向量之間的相似性顯示了相應詞之間的語義或句法相似性。Skip-gram是學習單詞嵌入算法的模型。
Skip-gram模型(以及許多其他的詞語嵌入模型)的主要思想是:如果兩個詞匯項(vocabulary term)共享的上下文相似,那么這兩個詞匯項就相似。
換句話說,假設(shè)你有一個句子,比如“貓是哺乳動物”。如果你用“狗”去替換“貓”,這個句子仍然是一個有意義的句子。因此在這個例子中,“狗”和“貓”可以共享相同的上下文(即“是哺乳動物”)。
基于上述假設(shè),你可以考慮一個上下文窗口(context window,一個包含k個連續(xù)項的窗口),然后你跳過其中一個單詞,試著去學習一個能夠得到除跳過項外所有項的神經(jīng)網(wǎng)絡(luò),并預測跳過的項是什么。如果兩個詞在一個大語料庫中反復共享相似的語境,則這些詞的嵌入向量將具有相近的向量。
9.連續(xù)詞袋(Continuous Bag Of Words)
在自然語言處理問題中,我們希望學習將文檔中的每個單詞表示為一個數(shù)字向量,使得出現(xiàn)在相似的上下文中的單詞具有彼此接近的向量。在連續(xù)的單詞模型中,我們的目標是能夠使用圍繞特定單詞的上下文并預測特定單詞。
我們通過在一個龐大的語料庫中抽取大量的句子來做到這一點,每當我們看到一個單詞時,我們就會提取它周圍的單詞。然后,我們將上下文單詞輸入到一個神經(jīng)網(wǎng)絡(luò),并預測位于這個上下文中心的單詞。
當我們有成千上萬的這樣的上下文單詞和中心詞以后,我們就有了一個神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集的實例。訓練神經(jīng)網(wǎng)絡(luò),最后編碼的隱藏層輸出表示特定單詞的嵌入。而當我們對大量的句子進行訓練時也能發(fā)現(xiàn),類似語境中的單詞得到的是相似的向量。
10.遷移學習
關(guān)鍵詞:深度學習;網(wǎng)絡(luò)安全;網(wǎng)絡(luò)數(shù)據(jù);計算機
隨著信息化社會的進步,互聯(lián)網(wǎng)與人們的生活緊密相關(guān),人們可以通過互聯(lián)網(wǎng)進行購物、社交、學習,為人們的生活帶來便利的同時,也促進了社會經(jīng)濟的發(fā)展。然而,信息安全問題日益突出,存在數(shù)據(jù)外泄的風險[1]。網(wǎng)絡(luò)病毒、數(shù)據(jù)泄露等問題一直在威脅著人們的信息安全,不僅會影響個人的信息安全,還會威脅國家網(wǎng)絡(luò)信息安全,因此必須從多方面對互聯(lián)網(wǎng)信息安全進行防護[2]。在計算機網(wǎng)絡(luò)安全管理中,需要實時檢測網(wǎng)絡(luò)平臺數(shù)據(jù)的安全狀態(tài)。深度學習是一種通過模擬人腦對視覺和聽覺的反應對圖片和音頻進行分析的一種模型[3]。基于此,本文構(gòu)建基于深度學習的網(wǎng)絡(luò)安全管理模型,利用深度學習模型對網(wǎng)絡(luò)數(shù)據(jù)中的不安全因素進行分析。
1網(wǎng)絡(luò)安全管理模型設(shè)計
1.1構(gòu)建網(wǎng)絡(luò)平臺防護框架
計算機病毒是危害互聯(lián)網(wǎng)信息安全的重要因素之一,一般隱藏在執(zhí)行程序、數(shù)據(jù)和文件中,不容易被人們發(fā)現(xiàn)。感染計算機病毒的電腦存在泄露個人信息的風險,而個人信息泄漏也會使其他的信息安全遭到一定程度的威脅,影響了我國的互聯(lián)網(wǎng)安全。在大數(shù)據(jù)背景下,針對不同的情況應采用不同等級的防御系統(tǒng)[4]。本文以系統(tǒng)安全性評價為基礎(chǔ),構(gòu)建網(wǎng)絡(luò)平臺防護框架,如圖1所示[5]。網(wǎng)絡(luò)平臺防護框架包括用戶信息采集模塊、用戶信息認證模塊、防火墻模塊、常用存儲模塊、備用存儲模塊、報警模塊、數(shù)據(jù)監(jiān)控模塊、網(wǎng)絡(luò)數(shù)據(jù)庫模塊、中央處理器模塊、信息安全監(jiān)測模塊、信息安全分析模塊和信息安全處理模塊。
1.2網(wǎng)絡(luò)信息安全檢測
黑客攻擊手段分為非破壞性攻擊和破壞性攻擊兩類,非破壞性攻擊是利用拒絕服務等手段來影響操作系統(tǒng)的正常工作,破壞性攻擊則是指通過非法方式進入其他計算機,以竊取重要的操作系統(tǒng)保密信息,從而攻擊系統(tǒng)的重要數(shù)據(jù)[5]。在黑客進行攻擊時,最常用的手段就是利用域名隨機算法隨機生成惡意域名。雖然國內(nèi)已經(jīng)開發(fā)出相對完善的查殺系統(tǒng)和網(wǎng)絡(luò)監(jiān)測體系,但是隨著人工智能技術(shù)的發(fā)展,惡意域名的識別也更加困難[6-8]。因此,需要建立新的域名檢測方式,加強對惡意域名的識別,保障網(wǎng)絡(luò)環(huán)境安全。
1.3基于深度學習的惡意域名檢測模型
基于深度學習的惡意域名檢測模型擁有多層認知機制,可通過訓練實現(xiàn)對不同網(wǎng)絡(luò)數(shù)據(jù)的識別[9-11]。深度學習基礎(chǔ)模型大致包括卷積計算神經(jīng)網(wǎng)絡(luò)模型、深度信任網(wǎng)絡(luò)模型及堆棧式自編碼網(wǎng)絡(luò)模型。在應用模型的過程中,可利用卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)識別的優(yōu)點,對網(wǎng)絡(luò)系統(tǒng)中存在的數(shù)據(jù)風險進行準確分析。卷積神經(jīng)網(wǎng)絡(luò)通過卷積層、池化層、全連接層來模擬人視覺神經(jīng)網(wǎng)絡(luò),卷積層能夠保留數(shù)據(jù)特征,并經(jīng)過池化層進行降維和分析,通過全連接層輸出最終結(jié)果。該模型的兼容性較強,可先進行預處理后再識別域名數(shù)據(jù),能夠節(jié)省計算時間。卷積神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)對數(shù)據(jù)的識別,并通過模型中的多層神經(jīng)網(wǎng)來模擬人腦對數(shù)據(jù)的處理方式。由于基于深度學習的惡意域名檢測模型具有較強的自主學習能力,因此能夠有效執(zhí)行異常數(shù)據(jù)識別等操作,有效實現(xiàn)對惡意域名的檢測。基于深度學習的惡意域名檢測模型的檢測過程如圖2所示。輸入域名后對域名進行預處理,排除數(shù)據(jù)中的重復域名和大數(shù)據(jù)中已有的非法域名,并對正常域名和非法域名進行標記[12]。進入嵌入階段,將域名中的字符通過特定方式映射為多維向量,然后對向量進行訓練[13]。檢測域名中是否包含特殊字符,識別特殊字符的惡意程度,因為域名長度不長且沒有完整的語法結(jié)構(gòu),所以利用卷積算法進行計算[14-15]。將數(shù)據(jù)輸入卷積層提取信息后,輸送至折疊層構(gòu)建矩陣,最后進入全連接層進行訓練,輸出結(jié)果。
2實驗對比分析
為證實網(wǎng)絡(luò)安全管理模型的實用性能,采用對比實驗的方式進行驗證,分別采用本文設(shè)計的基于深度學習的網(wǎng)絡(luò)安全管理模型與傳統(tǒng)模型對實驗數(shù)據(jù)進行安全監(jiān)測。
2.1實驗準備
在選取數(shù)據(jù)時,篩選當天產(chǎn)生的惡意域名,選取可信度高的30萬條域名作為實驗數(shù)據(jù),再選取30萬條正常域名將兩者混合進行實驗,另外再選取6萬條惡意域名和6萬條正常域名作為測試數(shù)據(jù),實驗數(shù)據(jù)劃分情況如表1所示。將實驗數(shù)據(jù)分批次進行訓練,實驗環(huán)境配置表如表2所示。
2.2實驗數(shù)據(jù)和分析
在實驗過程中,將數(shù)據(jù)分為5組分別進行實驗,得到的實驗數(shù)據(jù)如表3所示。從表3可以看出,基于深度學習的檢測模型在檢測過程中能夠正確識別的數(shù)量明顯多于傳統(tǒng)模型,便于對數(shù)據(jù)進行進一步處理。
3結(jié)語