99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)

卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)范文第1篇

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);圖像處理;訓(xùn)練時間

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)33-0167-04

如今在機(jī)器學(xué)習(xí)領(lǐng)域中,深度學(xué)習(xí)方法已經(jīng)占據(jù)了相當(dāng)重要的地位,通過模仿人X學(xué)習(xí)方式構(gòu)造模型,在圖像、文本、語音處理方面取得了顯著成果[1]。目前應(yīng)用較為廣泛的深度學(xué)習(xí)模型包含多層感知器模型(MLP)[2],卷積神經(jīng)網(wǎng)絡(luò)模型和限制性玻爾茲曼機(jī)模型等[4]。多層感知器[2]網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)節(jié)點一般分層排列,主要由輸入層,輸出層和一些隱層組成,同層之間的神經(jīng)元節(jié)點無連接,相鄰的兩層神經(jīng)元進(jìn)行全連接,前一層的神經(jīng)元的輸出作為后一層神經(jīng)元的輸入,但本身此種算法存在著一些問題,那就是它的學(xué)習(xí)速度非常慢,其中一個原因就是由于層與層之間進(jìn)行全連接,所以它所需要訓(xùn)練的參數(shù)的規(guī)模是非常大的,所以對其進(jìn)行改進(jìn),產(chǎn)生了卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)模型在圖像識別方面的應(yīng)用十分廣泛[5,8,9]。從它的結(jié)構(gòu)上來看,層與層之間的神經(jīng)元節(jié)點采用局部連接模式,而并非MLP的全連接模型,這樣就降低了需要訓(xùn)練的參數(shù)的規(guī)模。而在它卷積層中,它的每一個濾波器作為卷積核重復(fù)作用于整個輸入圖像中,對其進(jìn)行卷積,而得出的結(jié)果作為輸入圖像的特征圖[6],這樣就提取出了圖像的局部特征。而由于每一個卷積濾波器共享相同的參數(shù),這樣也就大大降低了訓(xùn)練參數(shù)的時間成本。而本文,以卷積神經(jīng)網(wǎng)絡(luò)為研究對象,在其模型的基礎(chǔ)上通過對其結(jié)構(gòu)中卷積核也就是濾波器的大小進(jìn)行調(diào)整并結(jié)合卷積核個數(shù)調(diào)整和gpu加速等已有的訓(xùn)練提速方法,達(dá)到降低訓(xùn)練時間并且對識別結(jié)果并無太大影響的目的。

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)在MLP的基礎(chǔ)上,已經(jīng)對結(jié)構(gòu)進(jìn)行了優(yōu)化,通過層與層之間的局部連接以及權(quán)值共享等方式對要訓(xùn)練的參數(shù)的進(jìn)行了大幅減低。

1.1局部連接

BP神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元在本層中呈線性排列狀態(tài),層與層之間進(jìn)行全連接,而在卷積神經(jīng)網(wǎng)絡(luò)中,為了減少每層之間的可訓(xùn)練參數(shù)數(shù)量,對連接方式進(jìn)行了修改,相對于BP神經(jīng)網(wǎng)絡(luò)的全連接,卷積神經(jīng)網(wǎng)絡(luò)采取了局部連接的連接方式[7],也就是說按照某種關(guān)聯(lián)因素,本層的神經(jīng)元只會與上層的部分神經(jīng)元進(jìn)行連接。

2.2 權(quán)值共享

在CNN中,卷積層中的卷積核也就是濾波器,重復(fù)作用在輸入圖像上,對其進(jìn)行卷積,最后的輸出作為他的特征圖,由于每個濾波器共享相同的參數(shù),所以說他們的權(quán)重矩陣以及偏置項是相同的。

我們從上圖看出,相同箭頭連線的權(quán)值是共享的,這樣在原有的局部連接的基礎(chǔ)上我們又降低了每層需要訓(xùn)練的參數(shù)的數(shù)量。

2.3卷積過程

特征圖是通過濾波器按照特定的步長,對輸入圖像進(jìn)行濾波,也就是說我們用一個線性的卷積核對輸入圖像進(jìn)行卷積然后附加一個偏置項,最后對神經(jīng)元進(jìn)行激活。如果我們設(shè)第k層的特征圖記為[hk],權(quán)重矩陣記為[Wk],偏置項記為[bk],那么卷積過程的公式如下所示(雙曲函數(shù)tanh作為神經(jīng)元的激活函數(shù)):

2.4 最大池采樣

通過了局部連接與權(quán)值共享等減少連接參數(shù)的方式卷積神經(jīng)網(wǎng)絡(luò)中還有另外一個重要的概念那就是最大池采樣方法,它是一種非線性的采樣方法。最大池采樣法在對減少訓(xùn)練參數(shù)數(shù)量的作用體現(xiàn)在兩個方面:

1 )它減小了來自m-1層的計算復(fù)雜度。

2 )池化的單元具有平移不變性,所以即使圖像在濾波后有小的位移,經(jīng)過池化的特征依然會保持不變。

3卷積神經(jīng)網(wǎng)絡(luò)整體構(gòu)造以及減少訓(xùn)練時間的方法

3.1使用GPU加速

本次論文實驗中,使用了theano庫在python環(huán)境下實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)模型,在lenet手寫數(shù)字識別模型上進(jìn)行改進(jìn),由于theano庫本身支持GPU加速,所以在訓(xùn)練速度上實現(xiàn)了大幅度的提高。

3.2 數(shù)據(jù)集的預(yù)處理

本次實驗使用的兩個數(shù)據(jù)集是mnist手寫數(shù)字庫以及cifar_10庫

Mnist手寫數(shù)字庫具有60000張訓(xùn)練集以及10000張測試集,圖片的像素都為28*28,而cifar_10庫是一個用于普適物體識別的數(shù)據(jù)集,它由60000張32*32像素的RGB彩色圖片構(gòu)成,50000張圖片組成訓(xùn)練集,10000張組成測試集。而對于cifar_10數(shù)據(jù)集來說,由于圖片都是RGB的,所以我們在進(jìn)行實驗的時候,先把其轉(zhuǎn)換為灰度圖在進(jìn)行存儲。由于實驗是在python環(huán)境下運行,theano函數(shù)庫進(jìn)行算法支持,所以我們把數(shù)據(jù)集進(jìn)行處理,此處我們對使用的數(shù)據(jù)集進(jìn)行了格式化。格式化的文件包括三個list,分別是訓(xùn)練數(shù)據(jù),驗證數(shù)據(jù)和測試數(shù)據(jù)。而list中每個元素都是由圖像本身和它的相對應(yīng)的標(biāo)簽組成的。以mnist數(shù)據(jù)集為例,我們包含train_set,valid_set,test_set三個list,每個list中包含兩個元素,以訓(xùn)練集為例,第一個元素為一個784*60000的二維矩陣,第二個元素為一個包含60000個元素的列向量,第一個元素的每一行代表一張圖片的每個像素,一共60000行,第二個元素就存儲了對相應(yīng)的標(biāo)簽。而我們?nèi)∮?xùn)練樣本的10%作為驗證樣本,進(jìn)行相同的格式化,而測試樣本為沒有經(jīng)過訓(xùn)練的10000張圖片。在以cifar_10數(shù)據(jù)集為實驗對象時,把其進(jìn)行灰度化后,進(jìn)行相同的格式化處理方式。

3.3實驗?zāi)P徒Y(jié)構(gòu)

本次實驗是在python環(huán)境下基于theano函數(shù)庫搭建好的lenet模型進(jìn)行參數(shù)的調(diào)整,以達(dá)到在實驗準(zhǔn)確度可接受情況下減少訓(xùn)練時間的目的。

上圖為實驗中的基礎(chǔ)模型舉例說明實驗過程,首先以mnist數(shù)據(jù)集為例,我們的輸入圖像為一個28*28像素的手寫數(shù)字圖像,在第一層中我們進(jìn)行了卷積處理,四個濾波器在s1層中我們得到了四張?zhí)卣鲌D。在這里要特別的說明一下濾波器的大小問題,濾波器的大小可根據(jù)圖像像素大小和卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)進(jìn)行設(shè)置,舉例說明,假如說我們的輸入圖像為28*28像素的圖像,我們把第一層卷積層濾波器大小設(shè)置為5*5,也就是說我們用一個大小為5*5的局部滑動窗,以步長為一對整張圖像進(jìn)行滑動濾波,則滑動窗會有24個不同的位置,也就是說經(jīng)過卷積處理后的C1層特征圖的大小為24*24。此處的濾波器大小可進(jìn)行調(diào)整,本論文希望通過對濾波器大小的調(diào)整,已達(dá)到減少訓(xùn)練時間的目的,并尋找調(diào)整的理論依據(jù)。C1層的特征圖個數(shù)與卷積過程中濾波器數(shù)量相同。S1層是C1經(jīng)過降采樣處理后得到的,也就是說四點經(jīng)過降采樣后變?yōu)橐粋€點,我們使用的是最大池方法,所以取這四個點的最大值,也就是說S1層圖像大小為12*12像素,具有4張?zhí)卣鲌D。而同理S1層經(jīng)過卷積處理得到C2層,此時我們?yōu)V波器的大小和個數(shù)也可以自行設(shè)置,得到的C2層有6張?zhí)卣鲌D,C2到S2層進(jìn)行降采樣處理,最后面的層由于節(jié)點個數(shù)較少,我們就用MLP方法進(jìn)行全連接。

3.4實驗參數(shù)改進(jìn)分析

由此可見,我們對濾波器的大小以及個數(shù)的改變,可以直接影響到卷積訓(xùn)練參數(shù)的個數(shù),從而達(dá)到減少訓(xùn)練時間的目的。

從另一種角度來看,增大濾波器的大小,實際效果應(yīng)該相似于縮小輸入圖像的像素大小,所以這樣我們可以預(yù)測增大濾波器的大小會減少樣本的訓(xùn)練時間,但是這樣也可能會降低訓(xùn)練后的分類的準(zhǔn)確率,而濾波器的大小是如何影響訓(xùn)練時間以及分類準(zhǔn)確率的,我們通過對兩種圖片庫的實驗來進(jìn)行分析。

4 實驗結(jié)果與分析

4.1以mnist手寫數(shù)字?jǐn)?shù)據(jù)集作為實驗數(shù)據(jù)

我們知道卷積層可訓(xùn)練參數(shù)的數(shù)字與濾波器的大小和數(shù)字有關(guān),所以我們通過對卷積層濾波器大小的變化來尋找較為普遍的可減少訓(xùn)練參數(shù)從而達(dá)到減少訓(xùn)練時間的目的。在實驗記錄中,我們表格縱列記錄兩層卷積層濾波器大小,橫列分別為對已經(jīng)過訓(xùn)練圖像識別和對未經(jīng)過訓(xùn)練的驗證圖像進(jìn)行識別的錯誤率,最后記錄每種濾波器大小搭配的使用時間。我們設(shè)定每次試驗都進(jìn)行100次重復(fù)訓(xùn)練,每次對權(quán)重矩陣進(jìn)行優(yōu)化。

此處我們記錄兩層濾波器大小之和作為橫坐標(biāo),比較濾波器大小與實驗之間的關(guān)系。兩層濾波器大小相加后相同的元素我們把其對應(yīng)時間做平均。

4.2以cifar_10數(shù)據(jù)集作為實驗數(shù)據(jù)

同樣是以100次循環(huán)訓(xùn)練進(jìn)行測試,通過改變兩層中濾波器的大小來尋找減少訓(xùn)練時間的設(shè)定。

此處以同樣的方法,記錄兩層濾波器大小之和作為橫坐標(biāo),比較濾波器大小與實驗之間的關(guān)系。

4.3實驗結(jié)果分析

從兩組試驗中,在不同的數(shù)據(jù)集下,我們得到了濾波器的大小與訓(xùn)練時間成反比的關(guān)系,而在減少了訓(xùn)練時間的同時確實增大了訓(xùn)練的錯誤率。

5 總結(jié)

通過實驗結(jié)果分析表明,增大卷積層濾波器大小的方法,在此兩種數(shù)據(jù)庫的情況下,是有效減小訓(xùn)練時間的方式,而在不同的數(shù)據(jù)庫對分類準(zhǔn)確率的影響程度不同,mnist手寫數(shù)字?jǐn)?shù)據(jù)庫中圖像之間的相似度非常高,所以濾波器的增大對準(zhǔn)確率產(chǎn)生的負(fù)面影響較小,而ifar_10數(shù)據(jù)集中圖像之間的相似度較小,所以增大濾波器的大小對其分類結(jié)果的準(zhǔn)確率的負(fù)面影響較大。

參考文獻(xiàn):

[1]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[2] Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. ]Journal of Neural Network Computing, 1990, 2(2): 40-48.

[3]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The handbook of brain theory and neural networks, 1995, 3361(10): 1995.

[4] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 536-543.

[5]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.

[6] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 818-833.

[7] Jarrett K, Kavukcuoglu K, Lecun Y. What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009: 2146-2153.

卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)范文第2篇

【關(guān)鍵詞】微表情識別 卷積神經(jīng)網(wǎng)絡(luò) 長短時記憶

1 引言

人們的內(nèi)心想法通常都會表現(xiàn)在面部表情上,然而在一些極端環(huán)境下,人們?yōu)榱藟阂肿约旱恼鎸崈?nèi)心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫(yī)學(xué)、教育、心理和國防等領(lǐng)域上,微表情的應(yīng)用前景十分遠(yuǎn)大, 不過即便是經(jīng)過訓(xùn)練的人也很難用肉眼來準(zhǔn)確的檢測和識別微表情。其主要原因就是它的持續(xù)時間短,僅為1/5~1/25s,而且動作幅度很小。

人臉表情識別技術(shù)早已發(fā)展到一定程度了,甚至不少研究團(tuán)隊提出的方法針對6種基本表情的識別率已經(jīng)達(dá)到90%。然而微表情識別技術(shù)的研究在近幾年來才剛剛開始,如Pfister等提出了一種結(jié)合時域插值模型和多核學(xué)習(xí)的方法來識別微表情; Wu等設(shè)計了一種使用Gabor特征和支持向量機(jī)的微表情識別系統(tǒng);唐紅梅等在LTP做出改進(jìn)而提出的MG-LTP算法,然后采用極限學(xué)習(xí)機(jī)對微表情進(jìn)行訓(xùn)練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學(xué)習(xí)機(jī)訓(xùn)練和分類微表情。

上述的識別技術(shù)都是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,而近幾年來,利用深度學(xué)習(xí)技術(shù)來解決圖像識別問題是當(dāng)前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)特征提取方法,其性能遠(yuǎn)遠(yuǎn)超過使用人工提取特征的方法,并且在近幾年內(nèi)的ImageNet大規(guī)模視覺識別挑戰(zhàn)比賽中連續(xù)刷新了世界紀(jì)錄。

本文決定使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取人臉微表情特征,它能讓機(jī)器自主地從樣本數(shù)據(jù)中學(xué)習(xí)到表示這些微表情的本質(zhì)特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網(wǎng)絡(luò)(LSTM),它是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)中的一種變換形式,它能夠充分的利用數(shù)據(jù)的上下文信息,在對序列的識別任務(wù)中表現(xiàn)優(yōu)異,近幾年來它被充分的利用到自然語言處理、語音識別機(jī)器翻譯等領(lǐng)域。綜上所述,本文提出一種CNN和LSTM結(jié)合的微表情識別方法。

2 相關(guān)工作

2.1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)最早是由LeCun等在1990年首次提出,現(xiàn)已在圖像識別領(lǐng)域取得巨大成功,它能夠發(fā)現(xiàn)隱藏在圖片中的特征,相比人工提取的特征更具有區(qū)分度,而且不需要對原始數(shù)據(jù)做過多的預(yù)處理。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過三種方式來讓網(wǎng)絡(luò)所學(xué)習(xí)到的特征更具有魯棒性:局部感受野、權(quán)值共享和降采樣。局部感受野是指每一個卷積層的神經(jīng)元只能和上一層的一部分神經(jīng)元連接,而不是一般神經(jīng)網(wǎng)絡(luò)里所要求的全連接,這樣每一個神經(jīng)元能夠感受到局部的視覺特征,然后在更高層將局部信息進(jìn)行整合,進(jìn)而得到整個圖片的描述信息。權(quán)值共享是指每一個神經(jīng)元和上一層的部分神經(jīng)元所連接的每一條邊的權(quán)值,和當(dāng)前層其他神經(jīng)元和上一層連接的每一條邊的權(quán)值是一樣的,首先@樣減少了需要訓(xùn)練的參數(shù)個數(shù),其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內(nèi)的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強(qiáng)的泛化性。

2.2 長短時記憶型遞歸神經(jīng)網(wǎng)絡(luò)模型

長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統(tǒng)RNN在處理長序列數(shù)據(jù)時存在的梯度消失問題,這一切都要歸結(jié)于LSTM結(jié)構(gòu)的精心設(shè)計。一個常規(guī)的LSTM結(jié)構(gòu)如圖1所示。

每一個LSTM結(jié)構(gòu)都有一個記憶單元Ct(t表示當(dāng)前時刻),它保存著這個時刻LSTM結(jié)構(gòu)的內(nèi)部狀態(tài),同時里面還有三個門來控制整個結(jié)構(gòu)的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:

(1)

(2)

(3)

(4)

(5)

(6)

其中σ是一個sigmod函數(shù),而則表示輸入數(shù)據(jù)的非線性變化,W和b是模型需要訓(xùn)練得到的參數(shù)。等式5展示了當(dāng)前的記憶單元是由忘記門和上一時刻的內(nèi)部狀態(tài)所控制的,ft決定了上一時刻的內(nèi)部狀態(tài)對當(dāng)前時刻的內(nèi)部狀態(tài)的影響程度,而it則確定了輸入數(shù)據(jù)的非線性變換得到的狀態(tài)對當(dāng)前時刻記憶單元的影響程度。等式6展示了輸出門和當(dāng)前時刻的內(nèi)部狀態(tài)決定了該LSTM的輸出。正因為這個巧妙的設(shè)計,LSTM就能處理長序列的數(shù)據(jù),并且能夠從輸入序列中獲取時間上的關(guān)聯(lián)性,這一特性對于微表情的識別尤為重要。

3 網(wǎng)絡(luò)結(jié)構(gòu)調(diào)優(yōu)和改進(jìn)

3.1 卷積神經(jīng)網(wǎng)絡(luò)設(shè)計

本文針對輸入大小為96×96的灰度圖,構(gòu)建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應(yīng)的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經(jīng)元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數(shù)全部是采用ReLU,CNN的參數(shù)訓(xùn)練都是采用隨機(jī)梯度下降算法,每一批次包含100張圖片,并設(shè)置沖量為0.9,學(xué)習(xí)速率為0.001。

3.2 長短時記憶型遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計

盡管CNN已經(jīng)從人臉微表情圖片從學(xué)習(xí)到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學(xué)習(xí)不同人臉表情在時域上的關(guān)聯(lián)特征。我們構(gòu)建了多個LSTM層,以及一個softmax層。

我們首先先訓(xùn)練好CNN的參數(shù),然后把訓(xùn)練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們?nèi)≈暗腤幀圖片([t-W+1,t])。然后將這些圖片傳入到訓(xùn)練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數(shù)目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節(jié)點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網(wǎng)絡(luò)的參數(shù)訓(xùn)練還是采用隨機(jī)梯度下降算法,每一批次為50個序列,沖量為0.85,學(xué)習(xí)速率為0.01。

4 實驗

4.1 微表情數(shù)據(jù)集

該實驗的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均來自于中國科學(xué)院心理研究所傅小蘭團(tuán)隊的第2代改進(jìn)數(shù)據(jù)庫CASMEII。該數(shù)據(jù)庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結(jié)束時間以及表情標(biāo)簽,由于其中悲傷和害怕表情的數(shù)據(jù)量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數(shù)據(jù)庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進(jìn)行灰度處理,并歸一化到 大小作為網(wǎng)絡(luò)的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。

4.2 CNN+LSTM和CNN的對比實驗

從圖2中可以看出不同策略在五類表情里的識別率。當(dāng)我們采用單一的CNN模型來對人臉微表情進(jìn)行分類時,我們采取了dropout策略和數(shù)據(jù)集擴(kuò)增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數(shù)據(jù)擴(kuò)增策略的CNN模型, 即對每一張圖片進(jìn)行了以下四種變換:旋轉(zhuǎn)、水平平移、垂直平移、水平翻轉(zhuǎn)。從而能將數(shù)據(jù)集擴(kuò)增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結(jié)合了CNN和LSTM的網(wǎng)絡(luò)模型。

從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現(xiàn)要好于沒有添加策略的CNN,這可能是因為訓(xùn)練圖片較少,而CNN網(wǎng)絡(luò)層次較深,導(dǎo)致沒有添加策略的CNN在訓(xùn)練參數(shù)的過程中很容易就過擬合了。而對于CNN+LSTM的表現(xiàn)要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數(shù)據(jù),這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區(qū)分度較大,并且樣本較多。

4.3 LSTM的參數(shù)調(diào)整

下面我們逐一的研究不同參數(shù)對CNN+LSTM模型的微表情識別率的影響程度。

圖4顯示輸入的序列個數(shù)為100左右能夠擁有相對較高的準(zhǔn)確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓(xùn)練出的模型才更加具有一般性。

圖5顯示出當(dāng)LSTM隱層的神經(jīng)元個數(shù)為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經(jīng)元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。

圖6顯示了LSTM隱層的個數(shù)為5時,該模型擁有最好的識別率,這說明較深的LSTM網(wǎng)絡(luò)才能充分挖掘特征的時域信息。因此經(jīng)過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經(jīng)元,并能夠處理長度為100的特征序列的模型。

4.4 和非深度學(xué)習(xí)算法的實驗對比

為了比較傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法孰優(yōu)孰劣,我們使用傳統(tǒng)機(jī)器學(xué)習(xí)算法在Casme2進(jìn)行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統(tǒng)機(jī)器學(xué)習(xí)模型,有著較為優(yōu)異的表現(xiàn)。

本文中的實驗均是基于Google的開源機(jī)器學(xué)習(xí)庫TensorFlow上進(jìn)行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內(nèi)存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。

5 結(jié)束語

本文針對傳統(tǒng)方法對微表情識別率低,圖片預(yù)處理復(fù)雜的情況,提出了采用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)結(jié)合的方式,通過前面的卷積網(wǎng)絡(luò)層來提取微表情的靜態(tài)特征,省去了傳統(tǒng)機(jī)器學(xué)習(xí)方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經(jīng)網(wǎng)路,充分利用表情特征序列的上下文信息,從而在序列數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的時域信息,從實驗結(jié)果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統(tǒng)機(jī)器學(xué)習(xí)方法也更為優(yōu)秀。但是當(dāng)數(shù)據(jù)量越大時,如果網(wǎng)絡(luò)的層次比較深的話,模型的訓(xùn)練時間就會很長,并且極度依賴硬件設(shè)備,這算是深度學(xué)習(xí)通有的弊病。為了進(jìn)一步投入到應(yīng)用中去,接下來還得提高微表情的識別率,以及在實時環(huán)境下,如何能夠動態(tài)和準(zhǔn)確的識別微表情,這些都將會是以后研究的重點。

參考文獻(xiàn)

[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.

[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.

[3]Wu Q,Shen X,F(xiàn)u X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.

[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術(shù),2015,39(03):123-126.

[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.

[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105

[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.

[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.

[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.

[10]S可.卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用研究[D].杭州:浙江大學(xué)[學(xué)位論文],2012.

[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780

[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.

[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.

[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.

[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12

[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結(jié)合的微表情識別[J].吉林大學(xué)學(xué)報:信息科學(xué)版, 2015,33(05):521-522.

[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.

卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)范文第3篇

關(guān)鍵詞:Deep Learning;多隱含層感知;DropConnect;算法

中圖分類號:TP181

Deep Learning是機(jī)器學(xué)習(xí)研究的新領(lǐng)域,它掀起了機(jī)器學(xué)習(xí)領(lǐng)域的第二次浪潮,并受到學(xué)術(shù)界到工業(yè)界高度重視。Deep Learning概念根源于人工神經(jīng)網(wǎng)絡(luò)[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學(xué)習(xí)機(jī)制的多層次神經(jīng)網(wǎng)絡(luò),并通過這種網(wǎng)絡(luò)分析解釋數(shù)據(jù),如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優(yōu)異的特征學(xué)習(xí)能力,而且學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度。本文在對Deep Learning算法分析的基礎(chǔ)上,著重闡述了對Regularization of Neural Networks using DropConnect模型的改進(jìn)。

1 Deep Learning算法分析

1.1 Deep Learning多隱含層感知架構(gòu)

Deep Learning算法最優(yōu)秀特征是多隱含層感知器架構(gòu),這種架構(gòu)通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實現(xiàn)對數(shù)據(jù)分布式表示。Deep Learning的多隱含層結(jié)構(gòu)是由輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò)(如圖1所示),只有相鄰層神經(jīng)元之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個淺層機(jī)器學(xué)習(xí)模型(如logistic regression,Support Vector Machines)。

圖1 含多個隱含層的Deep Learning模型

Deep Learning的多隱含層感知結(jié)構(gòu)模擬的是人腦的大腦皮層工作。人大腦皮層計算也是分多層進(jìn)行[5],例如圖像在人腦中是分多個階段處理,首先是進(jìn)入大腦皮層V1區(qū)提取邊緣特征,然后進(jìn)入大腦皮層V2區(qū)抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構(gòu)網(wǎng)絡(luò)主要優(yōu)勢在于它能以更簡潔的方式表達(dá)比淺層網(wǎng)絡(luò)大得多的函數(shù)關(guān)系(如圖2)。通過這種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),Deep Learning可以實現(xiàn)復(fù)雜函數(shù)的逼近,表征輸入數(shù)據(jù)的分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。

圖2 多層次實現(xiàn)復(fù)雜函數(shù)圖

1.2 Deep Learning訓(xùn)練過程

(1)首先逐層構(gòu)建單層神經(jīng)元,使得每次都是訓(xùn)練一個單層網(wǎng)絡(luò)。

(2)當(dāng)所有層訓(xùn)練完后,使用Wake-Sleep算法[6]進(jìn)行調(diào)優(yōu)。

將除最頂層的其它層間的權(quán)重是雙向的。向上的權(quán)重用于“認(rèn)知”,向下的權(quán)重用于“生成”。然后使用Wake-Sleep算法調(diào)整所有的權(quán)重。讓“認(rèn)知”和“生成”達(dá)成一致,也就是保證生成的最頂層表示能夠盡可能正確的復(fù)原底層的結(jié)點。

1.3 Deep Learning數(shù)據(jù)處理一般過程

Deep Learning算法通過傳感器等方式獲得數(shù)據(jù)之后,首先對數(shù)據(jù)進(jìn)行預(yù)處理。在數(shù)據(jù)預(yù)處理中,標(biāo)準(zhǔn)的第一步是數(shù)據(jù)歸一化處理,第二步是數(shù)據(jù)白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進(jìn)行特征提取和特征選擇,直到學(xué)習(xí)到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動編碼、稀疏編碼、聚類算法、限制波爾茲曼機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行特征提取和特征選擇。然后用反向傳播算法、隨機(jī)梯度下降算法、批量梯度下降算法等進(jìn)行調(diào)優(yōu)處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學(xué)習(xí)到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進(jìn)行識別、推理或預(yù)測。

2 基于Regularization of Neural Networks using DropConnect模型改進(jìn)

2.1 Regularization of Neural Networks using DropConnect模型[2]

該模型的四個基本組成成分是:

(1)特征提取:v=g(x;Wg)。x是輸入層的輸入數(shù)據(jù),Wg是特征提取函數(shù)的參數(shù),v是輸出的提取特征,特征提取函數(shù)g()。其中g(shù)()為多層卷積神經(jīng)網(wǎng)絡(luò)算法函數(shù),而Wg卷積神經(jīng)網(wǎng)絡(luò)的偏值。

(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權(quán)重矩陣,M是二進(jìn)制掩碼矩陣,該矩陣的每個元素隨機(jī)的以1-p概率設(shè)置為0或以p概率設(shè)置為1,a()是一個非線性激活函數(shù),r是輸出向量。M*W是矩陣對應(yīng)元素相乘。

(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個k維的輸出矩陣(k是類的個數(shù)),Ws是softmax分類函數(shù)的參數(shù)。

(4)交叉熵?fù)p失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標(biāo)簽,o是概率。

圖3 DropConnect示意圖

2.2 模型改進(jìn)描述和分析

對DropConnect模型的改進(jìn)主要集中在上面它的四個基本組成成分中的DropConnect層。由于該層以隨機(jī)方式讓掩碼矩陣M的每個元素Mij按1-p的概率設(shè)置為0,然后讓掩碼矩陣與層間的權(quán)重矩陣對應(yīng)相乘即M*W。相對DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時也提高算法的泛化性。因為Dropconnect模型在權(quán)重W和v運算之前,將權(quán)重以一定的概率稀疏了,從運行結(jié)果看整體算法的錯誤率降低了。但是,由于是隨機(jī)的讓Mij按1-p的概率為0,并且這種隨機(jī)是不可以預(yù)測的,故可能會導(dǎo)致某些重要特征對應(yīng)的權(quán)重被屏蔽掉,最終造成輸出ri的準(zhǔn)確性降低。故就此提出了新的設(shè)計思想。

改進(jìn)思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓(xùn)練出一組最佳稀疏的特征。具體描述:讓經(jīng)過多層卷積神經(jīng)網(wǎng)絡(luò)提取到的特征v作為稀疏編碼的輸入,經(jīng)過稀疏編碼重復(fù)訓(xùn)練迭代,最終得到最佳的稀疏的特征r。因為稀疏編碼算法是一種無監(jiān)督學(xué)習(xí)方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數(shù)據(jù)。

總之任何對Deep Learning算法的改進(jìn),都是為了提取出最佳特征,并使用優(yōu)秀的分類算法來分類、預(yù)測或推理,最終降低算法的錯誤率。而對于怎樣改進(jìn)算法,以何種方式降低錯誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標(biāo)都是提高算法的正確率和效率。

3 結(jié)束語

Deep Learning使得語音、圖像和文本等的智能識別和理解取得驚人進(jìn)展,如Google Brain項目和微軟推同聲傳譯系統(tǒng)。它極大地推動了人工智能和人機(jī)交互快速發(fā)展。隨著從學(xué)術(shù)界到工業(yè)界的廣泛重視,Deep Learning算法的改進(jìn)依然在繼續(xù),Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發(fā)展將加快“大數(shù)據(jù)+深度模型”時代來臨。

參考文獻(xiàn):

[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507

[2]湯姆?米切爾.機(jī)器學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2003:1-280.

[3]吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2007.

[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.

[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.

[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.

卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)范文第4篇

(廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州 510006)

摘 要:作為一個具有巨大應(yīng)用前景研究方向,深度學(xué)習(xí)無論是在算法研究,還是在實際應(yīng)用(如語音識別,自然語言處理、計算機(jī)視覺)中都表現(xiàn)出其強(qiáng)大的潛力和功能.本文主要介紹這種深度學(xué)習(xí)算法,并介紹其在金融領(lǐng)域的領(lǐng)用.

關(guān)鍵詞 :深度學(xué)習(xí);受限波茲曼機(jī);堆棧自編碼神經(jīng)網(wǎng)絡(luò);稀疏編碼;特征學(xué)習(xí)

中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-260X(2015)01-0037-03

1 深度學(xué)習(xí)的研究意義

深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,因其緩解了傳統(tǒng)訓(xùn)練算法的局部最小性,引起機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注.深度學(xué)習(xí)的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數(shù)據(jù)特征進(jìn)行無監(jiān)督的再表示(該過程稱為預(yù)學(xué)習(xí)),形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示.深度學(xué)習(xí)的這種特性由于與腦神經(jīng)科學(xué)理論相一致,因此被廣泛應(yīng)用于語音識別、自然語言處理和計算機(jī)視覺等領(lǐng)域.

生物學(xué)研究表明[1]:在生物神經(jīng)元突觸的輸出變化與輸入脈沖的持續(xù)時間有關(guān),即依賴于持續(xù)一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應(yīng)和閾值作用,也依賴于時間總和效應(yīng).

傳統(tǒng)的深度學(xué)習(xí)方法雖然較好地模擬了生物神經(jīng)元的一個重要特性——空間總和效應(yīng)上的深度,卻忽視了生物神經(jīng)元的另一個重要特性——時間總和效應(yīng)上的寬度[2].因此,對于連續(xù)的時間變量問題(如語音識別),傳統(tǒng)深度學(xué)習(xí)方法只能將連續(xù)的時間函數(shù)關(guān)系轉(zhuǎn)化為空間關(guān)系,即離散化為時間序列進(jìn)行處理.這樣做有幾個弊端:

(1)可能造成深度學(xué)習(xí)算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數(shù)據(jù)和算法.這無疑是十分不方便的;

(2)導(dǎo)致深度網(wǎng)絡(luò)規(guī)模過大,使得計算開銷增大、學(xué)習(xí)效果變差、泛化性能降低;

(3)難以滿足實際應(yīng)用對算法的實時性的要求,更難以體現(xiàn)連續(xù)輸入信息的累積效應(yīng),大大降低深度學(xué)習(xí)算法的實用性.

因此,對傳統(tǒng)的深度學(xué)習(xí)算法進(jìn)行改進(jìn),使其不但具有“深度”,亦能具有“寬度”,能夠?qū)B續(xù)時變數(shù)據(jù)進(jìn)行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結(jié)合數(shù)學(xué)分析領(lǐng)域中的泛函分析技術(shù),與堆棧自編碼神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種新的深度學(xué)習(xí)算法——深度泛函網(wǎng)絡(luò).為了驗證算法的有效性及優(yōu)越性,本項目將把新算法應(yīng)用于金融時間序列的領(lǐng)域.

在目前國內(nèi)外對于深度學(xué)習(xí)的研究中,幾乎沒有任何將深度學(xué)習(xí)技術(shù)運用于金融數(shù)據(jù)的研究.通過提出并運用得當(dāng)?shù)纳疃刃蛄袑W(xué)習(xí)方法,我們期望從金融數(shù)據(jù)中抽取更高級的、具有經(jīng)濟(jì)學(xué)意義或預(yù)測性意義的高級特征(與人工設(shè)計的“技術(shù)指標(biāo)”相對應(yīng)),并開發(fā)相應(yīng)的量化交易策略,并與其它傳統(tǒng)算法進(jìn)行對比,以說明所提算法的可行性和優(yōu)越性.

2 國內(nèi)外研究現(xiàn)狀

人類感知系統(tǒng)具有的層次結(jié)構(gòu),能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量,并保留了物體有用的結(jié)構(gòu)信息.對于要提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的自然圖像、視頻、語音和音樂等結(jié)構(gòu)豐富數(shù)據(jù),人腦獨有的結(jié)構(gòu)能夠獲取其本質(zhì)特征[3].受大腦結(jié)構(gòu)分層次啟發(fā),神經(jīng)網(wǎng)絡(luò)研究人員一直致力于多層神經(jīng)網(wǎng)絡(luò)的研究.訓(xùn)練多層網(wǎng)絡(luò)的算法以BP算法為代表,其由于局部極值、權(quán)重衰減等問題,對于多于2個隱含層的網(wǎng)絡(luò)的訓(xùn)練就已較為困難[4],這使得實際應(yīng)用中多以使用單隱含層神經(jīng)網(wǎng)絡(luò)居多.

該問題由Hinton[5]所引入的逐層無監(jiān)督訓(xùn)練方法所解決.具體地,該法對深度神經(jīng)網(wǎng)絡(luò)中的每一層貪婪地分別進(jìn)行訓(xùn)練:當(dāng)前一層被訓(xùn)練完畢后,下一層網(wǎng)絡(luò)的權(quán)值通過對該層的輸入(即前一層的輸出)進(jìn)行編碼(Encoding,詳見下文)而得到.當(dāng)所有隱含層都訓(xùn)練完畢后,最后將使用有監(jiān)督的方法對整個神經(jīng)網(wǎng)絡(luò)的權(quán)值再進(jìn)行精確微調(diào).在Hinton的原始論文中,逐層貪婪訓(xùn)練是通過受限波茲曼機(jī)(Restricted Boltzmann Machine,RBM)以及相對應(yīng)的對比散度方法(Contrastive Divergence)完成的.與通常的神經(jīng)元不同,RBM是一種概率生成模型,通常被設(shè)計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機(jī)進(jìn)行自底向上的堆棧(如圖1),可以得到深度信念網(wǎng)(Deep Belief Network,DBN).

除了生成式的RBM,還有其他的深度學(xué)習(xí)結(jié)構(gòu)被廣泛使用和研究.如堆棧自編碼神經(jīng)網(wǎng)絡(luò)(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Network)[7]等.前者的優(yōu)勢在于可以簡單地采用通常的BP算法進(jìn)行逐層預(yù)訓(xùn)練,并且引入隨機(jī)化過程的抗噪聲自編碼網(wǎng)絡(luò)(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領(lǐng)域有著廣泛應(yīng)用.

近年來,稀疏編碼(Sparse Encoding)和特征學(xué)習(xí)(Feature Learning)成為了深度學(xué)習(xí)領(lǐng)域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監(jiān)督學(xué)習(xí)方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數(shù)據(jù)的特征,更有效地挖掘隱含在輸入數(shù)據(jù)內(nèi)部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規(guī)劃問題以提高效率.同年,H.Lee等發(fā)現(xiàn),當(dāng)訓(xùn)練樣本為圖像時,對DBN的訓(xùn)練進(jìn)行稀疏性的約束有利于算法學(xué)習(xí)到更高級的特征[11].例如,對手寫識別數(shù)據(jù)集進(jìn)行訓(xùn)練時,稀疏性約束下的DBN算法自主學(xué)習(xí)到了“筆畫”的概念.

基于[10,11]的研究成果,R.Raina等[12]提出了“自導(dǎo)師學(xué)習(xí)(Self-Taught Learning)”的概念.與無監(jiān)督學(xué)習(xí)(Unsupervised Learning)和半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)不同,自導(dǎo)師學(xué)習(xí)利用大量易獲得的無標(biāo)簽數(shù)據(jù)(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構(gòu)建特征的高級結(jié)構(gòu),并通過支持向量機(jī)(Support Vector Machine,SVM)作為最終層分類器對少數(shù)有標(biāo)簽數(shù)據(jù)進(jìn)行分類.這種更接近人類學(xué)習(xí)方式的模式極大提高了有標(biāo)簽數(shù)據(jù)的分類準(zhǔn)確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結(jié)構(gòu)的特征學(xué)習(xí)算法.該算法將卷積神經(jīng)網(wǎng)絡(luò)與DBN結(jié)合,并通過稀疏正則化(Sparsity Regularization)的手段無監(jiān)督地學(xué)習(xí)層次化的特征表征.圖像識別實驗表明,該算法能夠自主學(xué)習(xí)得出“物體(Object Parts)”的概念,較好體現(xiàn)了人腦視覺感知的層次性和抽象性.

3 發(fā)展趨勢

由于信號處理、語音識別、金融時間序列分析、視頻分析等領(lǐng)域的實時應(yīng)用需求,研究能夠處理連續(xù)時變變量、自然體現(xiàn)時間聯(lián)系結(jié)構(gòu)的深度學(xué)習(xí)算法(即深度序列學(xué)習(xí),Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(jī)(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現(xiàn)出了優(yōu)秀的性能.針對TRBM的一些不足,一些改進(jìn)算法也不斷涌現(xiàn),如[15,16].然而,該類深度學(xué)習(xí)模型雖然考慮了動態(tài)的時間變量之間的聯(lián)系,但依然只能處理離散時間問題,本質(zhì)上還是屬于轉(zhuǎn)化為空間變量的化歸法.同時,在自編碼網(wǎng)絡(luò)框架下,依然缺乏較好解決時間過程(序列)問題的方案.

4 金融時序數(shù)據(jù)中的應(yīng)用

傳統(tǒng)金融理論認(rèn)為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數(shù)據(jù)的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機(jī)性假設(shè),在各種時間尺度上都存在的可以預(yù)測的空間.因此,如何建立預(yù)測模型,對于揭示金融市場的內(nèi)在規(guī)律,這無論是對于理論研究,還是對于國家的經(jīng)濟(jì)發(fā)展和廣大投資者,都具有重要的意義.

股票市場是一個高度復(fù)雜的非線性系統(tǒng),其變化既有內(nèi)在的規(guī)律性,同時也受到市場,宏觀經(jīng)濟(jì)環(huán)境,以及非經(jīng)濟(jì)原因等諸多因素的影響.目前國內(nèi)外對證券價格進(jìn)行預(yù)測的模型大致分為兩類:一是以時間序列為代表的統(tǒng)計預(yù)測模型;該類方法具有堅實的統(tǒng)計學(xué)基礎(chǔ),但由于金融價格數(shù)據(jù)存在高噪聲、波動大、高度非線性等特征,使得該類傳統(tǒng)方法無法提供有效的工具.另一類是以神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模型為代表的數(shù)據(jù)挖掘模型.該類模型能夠處理高度非線性的數(shù)據(jù),基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導(dǎo)致無法捕捉獲利空間甚至導(dǎo)致?lián)p失,外推預(yù)測效果無法令人滿意.因此,建立即能夠處理非線性價格數(shù)據(jù),又有良好泛化能力的預(yù)測模型勢在必行.

——————————

參考文獻(xiàn):

〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).

〔2〕37-44.歐陽楷,鄒睿.基于生物的神經(jīng)網(wǎng)絡(luò)的理論框架——神經(jīng)元模型[J].北京生物醫(yī)學(xué)工程,1997,16(2):93-101.

〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.

〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.

〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.

〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.

〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.

〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.

〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.

〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.

〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.

卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)范文第5篇

關(guān)鍵詞:智能科學(xué)與技術(shù);興趣導(dǎo)向;逆向教學(xué)

0引言

智能科學(xué)與技術(shù)是信息科學(xué)與技術(shù)的核心、前沿與制高點,也是整個現(xiàn)代科學(xué)技術(shù)體系的頭腦中樞,是現(xiàn)代科學(xué)技術(shù)創(chuàng)新的引領(lǐng)和示范,是現(xiàn)代社會(包括經(jīng)濟(jì)、社會、文化、民生、國防等)走向智能化的主導(dǎo)技術(shù)支柱。在越來越激烈尖銳的國際競爭環(huán)境中,智能科學(xué)與技術(shù)水平已經(jīng)成為一個國家綜合國力與科技實力的標(biāo)志。智能科學(xué)與技術(shù)的發(fā)展和智能科學(xué)與技術(shù)學(xué)科的人才培養(yǎng),不僅僅是智能科學(xué)與技術(shù)研究與教育本身的事情,更是關(guān)系到整個社會智能化發(fā)展優(yōu)劣的大事情,也是關(guān)系到整個國家強(qiáng)弱興衰的大事情。

科技發(fā)展,關(guān)鍵在于人才。在新的發(fā)展機(jī)遇下,國家對智能科學(xué)與技術(shù)專門人才的需求更加旺盛。因此,如何促進(jìn)智能科學(xué)與技術(shù)教學(xué)方式的改革是培養(yǎng)厚基礎(chǔ)、高層次的智能科學(xué)與技術(shù)人才的基本途徑。智能科學(xué)與技術(shù)教學(xué)方式的改革,不僅發(fā)展智能科學(xué)與技術(shù)本身,而且對受教育者創(chuàng)新能力的提高也至關(guān)重要。

目前,網(wǎng)絡(luò)的普及與全社會信息化程度的提高,對我國人才培養(yǎng)提出了更高的要求,特別是高校在課堂教學(xué)方面,部分原有教材及培養(yǎng)模式亟待調(diào)整。以智能科學(xué)與技術(shù)為代表的前沿新興學(xué)科,在學(xué)科發(fā)展途徑、應(yīng)用技術(shù)轉(zhuǎn)化及從業(yè)人員年齡、成長環(huán)境等方面,均與很多傳統(tǒng)學(xué)科存在較大的差異,而使用傳統(tǒng)教學(xué)方式進(jìn)行人才培養(yǎng),也出現(xiàn)了一些水土不服的現(xiàn)象。

1教學(xué)理念的改變

相對于傳統(tǒng)學(xué)科,智能科學(xué)與技術(shù)從業(yè)人員平均年齡顯現(xiàn)出年輕化的特點,且由于從業(yè)人員及學(xué)生普遍年齡較輕,在他們的成長過程中,外在環(huán)境相對寬松,自由、平等的理念在他們的成長過程中不斷被提及和強(qiáng)化。傳統(tǒng)“教師講、學(xué)生聽”的演講式講授方式雖然能夠在一定時間內(nèi)讓學(xué)生了解大量信息,但學(xué)生接收到的大部分信息只停留在記憶層面,很難上升到理解層面,導(dǎo)致學(xué)生只是被動的“填鴨式”接受。

在科技發(fā)達(dá)、網(wǎng)絡(luò)互聯(lián)的今天,人們不是自投羅網(wǎng)就是被網(wǎng)羅其中,知識獲取的渠道不再局限于紙質(zhì)媒介和言傳身教,更多來自于電子資源及網(wǎng)絡(luò)媒介,教師和學(xué)生獲取知識的途徑及資源差異越來越小,在知識量、閱歷等方面縮小了師生間的差距,師生之間傳統(tǒng)的信息不對稱差距逐步縮小,導(dǎo)致教師在知識積淀上沒有了絕對優(yōu)勢。

與此同時,逐步深入青年學(xué)生內(nèi)心的自由、平等觀念對中國傳統(tǒng)的尊師重道思想帶來了不小的沖擊。在當(dāng)今開放的網(wǎng)絡(luò)環(huán)境下,針對新興時代的學(xué)生,傳統(tǒng)習(xí)俗中的師長觀念由于知識獲取渠道的平等化而缺乏強(qiáng)有力的現(xiàn)實支撐,教師的身份權(quán)威性和知識權(quán)威性都受到了不同程度的質(zhì)疑,繼續(xù)使用“填鴨式”“訓(xùn)導(dǎo)式”教學(xué)方式,將會事倍功半。

因此,針對新興學(xué)科,一線教師需要進(jìn)行教學(xué)理念上的修正,特別是教師應(yīng)順應(yīng)培養(yǎng)對象的整體特點,基于自由和平等的觀念進(jìn)行自我定位,以交流討論式代替居高臨下布施式的教學(xué)觀念,充分與學(xué)生打成一片,以便更好地調(diào)動學(xué)生的思維,引導(dǎo)學(xué)生進(jìn)行主動思考和主動學(xué)習(xí)。

2教學(xué)素材的改進(jìn)與提高

當(dāng)今時代是知識爆炸的時代,科學(xué)技術(shù)日新月異,新知識、新成果層出不窮,特別是智能科學(xué)與技術(shù)這一前沿學(xué)科,正在向理論創(chuàng)新和大規(guī)模實際應(yīng)用發(fā)展,新理論、新方法不斷被提出并驗證,新模型、新實例、新應(yīng)用不斷產(chǎn)出。

“教學(xué)素材對教育理念的滲透發(fā)揮著重要作用,它已經(jīng)成為促進(jìn)或阻礙教學(xué)模式轉(zhuǎn)變的活躍而關(guān)鍵的要素。隨著新時代知識的快速更新?lián)Q代和知識面的不斷拓寬,教學(xué)素材是否優(yōu)秀的標(biāo)準(zhǔn)不僅僅是包含多少知識,更重要的是包含多少最新的知識;不僅僅是傳遞解決問題的方法,更重要的是傳遞超前、新穎的解決問題的方法。

當(dāng)今學(xué)生知識涉獵面廣,現(xiàn)有的網(wǎng)絡(luò)環(huán)境也為他們提供了很好的平臺,如果他們已經(jīng)獲取的知識及應(yīng)用的先進(jìn)程度遠(yuǎn)遠(yuǎn)超過課本素材羅列的知識,將會極大地削弱他們對本學(xué)科的興趣,進(jìn)而影響課堂教學(xué)效果。

此外,作為智能科學(xué)與技術(shù)這一前沿學(xué)科的教學(xué)素材,必須體現(xiàn)出時代性、開放性、多元性與全面性。因此,教學(xué)過程中所采用素材的改進(jìn)和提高,應(yīng)該向著不斷更新、與時俱進(jìn)的方向靠攏,教師應(yīng)該不斷將最新理論、最新方法、最新應(yīng)用融合于一線基礎(chǔ)教學(xué)過程中,使學(xué)生在學(xué)習(xí)過程中始終緊跟前沿技術(shù)的發(fā)展,在未來工作中能更快、更好地融入行業(yè)中。

3教學(xué)方式的轉(zhuǎn)變

目前,學(xué)生群體主要為90后,高校即將迎來00后,他們成長過程中的家庭環(huán)境和社會環(huán)境與早期學(xué)生相比更為平等和寬松,他們的學(xué)習(xí)需求也由目標(biāo)導(dǎo)向型逐步演化為興趣導(dǎo)向型。因此,如何激發(fā)學(xué)生的興趣,進(jìn)而以興趣為基礎(chǔ)激發(fā)學(xué)生自主學(xué)習(xí)的動力,將是教學(xué)效果事半功倍的途徑。

青年學(xué)生正處于思維高度活躍的階段,他們往往對新興成果和前沿?zé)狳c有著超過常人的關(guān)注,如何巧妙而有效地將這種關(guān)注轉(zhuǎn)化為針對本學(xué)科的興趣,進(jìn)而反向推導(dǎo)出基礎(chǔ)理論并讓學(xué)生消化、吸收,就成為一線教師面臨的重要問題。

從1997年國際象棋大師卡斯帕羅夫和電腦“深藍(lán)”第一次人機(jī)大戰(zhàn)開始,智能科學(xué)與技術(shù)迅速躋身科技前沿?zé)狳c,且經(jīng)久不衰。2016年3月,Alpha Go再次燃起人工智能之火,經(jīng)過媒體的推波助瀾,成為社會關(guān)注的焦點,大大增強(qiáng)了智能科學(xué)與技術(shù)的關(guān)注度。而青年學(xué)生作為最容易追趕潮流的群體,自然對此類熱點趨之若鶩。

作為智能科學(xué)與技術(shù)學(xué)科的一線教師,應(yīng)把握和利用社會輿論的潮流以及學(xué)生心理的律動,及時以此熱點為突破口,吸引學(xué)生的興趣,引起共鳴,進(jìn)而進(jìn)行反向推導(dǎo)相關(guān)基礎(chǔ)理論并加以詳解。

例如,教師以Alpha Go為課堂開篇討論,引導(dǎo)學(xué)生思考,并說明Alpha Go的核心原理是深度學(xué)習(xí)。在這個實例中,Alpha Go模擬人類下棋的推理與思考過程,其中推理過程通過搜索樹來搜索可能的棋局,思考過程通過兩個深度神經(jīng)網(wǎng)絡(luò)確定可能的搜索方向和評估棋局,這兩個神經(jīng)網(wǎng)絡(luò)包括:

(1)落子選擇器(policy network),這是一種深度卷積神經(jīng)網(wǎng)絡(luò),主要通過當(dāng)前棋盤布局預(yù)測下一步走棋位置的概率。

(2)棋局評估器(value network),與落子選擇器具有相似的結(jié)構(gòu),主要在給定棋子位置的情況下,輸出雙方棋手獲勝的可能性,從而對棋局進(jìn)行評估。

如此,教師可以帶領(lǐng)學(xué)生了解搜索樹及搜索算法,也可以從深度卷積神經(jīng)網(wǎng)絡(luò)到普通神經(jīng)網(wǎng)絡(luò),講解神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,分析神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)的發(fā)展過程。這樣就可以將學(xué)生對Alpha Go本身的興趣,巧妙地引導(dǎo)到對神經(jīng)網(wǎng)絡(luò)等基礎(chǔ)概念和原理方面,以此強(qiáng)化學(xué)生對基礎(chǔ)知識的掌握。

同時,開放式的考核方式也是促進(jìn)學(xué)生創(chuàng)新、使教學(xué)方法適應(yīng)新時代的一種有效途徑。對于本學(xué)科感興趣的話題,教師應(yīng)鼓勵學(xué)生多談自己的思路和想法;對于開放式課題,應(yīng)給學(xué)生提供展示的舞臺,鼓勵學(xué)生分享自己在查找資料、解決難點、編程過程中的心得體會,充分調(diào)動學(xué)生的積極性和主動性;將這些考核成績按比例計入學(xué)生課業(yè)總成績中,充分肯定學(xué)生的創(chuàng)新能力。

4結(jié)語

教學(xué)成效是設(shè)計和構(gòu)建教學(xué)方式的基本出發(fā)點,教師應(yīng)該結(jié)合學(xué)生需求從學(xué)習(xí)成效、教學(xué)技巧、教學(xué)內(nèi)容上總體把握教學(xué)方式閣,采用不同于傳統(tǒng)講授方式的逆向教學(xué)(如圖1所示),使其滿足和順應(yīng)新一代青年學(xué)生的心理認(rèn)同需求和學(xué)習(xí)需求,將新理論、新應(yīng)用不斷融入基礎(chǔ)教學(xué)中,達(dá)到更好的教學(xué)效果。