前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇計(jì)算機(jī)視覺(jué)范疇范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。
【關(guān)鍵詞】MFCVisual C++圖像顯示
盡管圖像處理學(xué)屬于綜合性的邊緣性學(xué)科,但是在研究范疇方面,它和模式識(shí)別、計(jì)算機(jī)圖形學(xué)以及計(jì)算機(jī)視覺(jué)等存在著一定的差異,但也有一定的聯(lián)系。
傳統(tǒng)意義上的圖形學(xué)指的是通過(guò)圖表、圖形、繪圖等諸多形式對(duì)數(shù)據(jù)信息進(jìn)行反應(yīng)、闡述的一種學(xué)科。但是計(jì)算機(jī)圖形學(xué)則與之不同,它研究的對(duì)象是如何借助計(jì)算機(jī)技術(shù)來(lái)創(chuàng)造此類形式。實(shí)際上,從輸出結(jié)果與處理對(duì)象上看,它與圖像分析恰恰相反。計(jì)算機(jī)圖形學(xué)正在嘗試著利用非圖像形式的數(shù)據(jù)描述促使圖像形成,而圖像分析和模式識(shí)別較為類似,二者間的輸出是不一致的,但其轉(zhuǎn)換比較方便。計(jì)算機(jī)視覺(jué)突出強(qiáng)調(diào)的是計(jì)算機(jī)在實(shí)現(xiàn)人的視覺(jué)功能方面的重要性,其牽扯到了大量與圖形處理相關(guān)的技術(shù),然而當(dāng)下研究?jī)?nèi)容大多是和圖像理解相結(jié)合的內(nèi)容。
雖然如今在處理大數(shù)據(jù)量的圖像方面,計(jì)算機(jī)處理的速度比不上光學(xué)法,但計(jì)算機(jī)處理的精確度高,可十分便捷、靈活地求解出極其復(fù)雜、功能多樣化的運(yùn)算。在這么短的發(fā)展歷史過(guò)程當(dāng)中,它可以在幾乎和成像相關(guān)的所有領(lǐng)域得到成功推廣與運(yùn)用,并起著非常重要的影響。
1 MFC和VC++
Microsoft Foundation Class Library(MFC),為了能夠方便的建設(shè)Windows下的應(yīng)用程序,可以把MFC中的所有類別結(jié)合起來(lái),創(chuàng)建應(yīng)用程序框架,這也是一種相對(duì)SDK來(lái)說(shuō)更為簡(jiǎn)單的方法。此時(shí)程序員的工作內(nèi)容是,借助預(yù)定義的接口,在此輪廓中填進(jìn)詳細(xì)的應(yīng)用程序中獨(dú)有的東西。
Microsoft Visual C++有與之相對(duì)應(yīng)的工具去做好該項(xiàng)工作:資源編輯器能有利于對(duì)用戶接口進(jìn)行直觀地設(shè)計(jì);AppWizard可在初步的框架文件的生成過(guò)程中進(jìn)行使用;Class Wizard有利于把代碼添加至框架文件中;類庫(kù)可以有助于應(yīng)用程序特定的邏輯的實(shí)現(xiàn)。
2 圖像顯示形式
2.1 圖像縮放
圖像的縮放操作能使圖像的大小發(fā)生變化,形成的圖像的像素也許在原圖內(nèi)找不出與之相對(duì)應(yīng)的像素點(diǎn),如此一定要實(shí)施近似處理。通常情況下,我們可以采用與之最接近的像素值進(jìn)行賦值,當(dāng)然利用插值算法進(jìn)行計(jì)算也可。
比方說(shuō),如fx、fy的值都是0.5,那么圖像將會(huì)變成以前的一半大,所得圖像的(0,0)像素和原圖內(nèi)的(0,0)像素相對(duì)應(yīng);(0,1)像素與原圖內(nèi)的(0,2)像素相對(duì)應(yīng);(1,0)像素與原圖內(nèi)的(2,0)像素相對(duì)應(yīng),依此類推。在原圖的基礎(chǔ)上,每行間隔一個(gè)間距設(shè)置點(diǎn),每相距一行實(shí)施操作。
2.2 圖像旋轉(zhuǎn)
一般圖像是以圖像的中心為原點(diǎn)進(jìn)行旋轉(zhuǎn)的,在旋轉(zhuǎn)過(guò)后,圖像通常會(huì)出現(xiàn)一些變化。與圖像平移相同的是,一方面,圖像旋轉(zhuǎn)為了顯示全部圖像可支持拓展圖像范疇,另一方面,可去除掉轉(zhuǎn)出顯示區(qū)域的圖像。
3 圖像顯示設(shè)計(jì)
系統(tǒng)通過(guò)在功能模塊內(nèi)使用了函數(shù)void Invalidate( BOOL bErase = TRUE ),實(shí)現(xiàn)圖形的旋轉(zhuǎn)與縮放功能,該函數(shù)具有讓整個(gè)窗口客戶區(qū)無(wú)法發(fā)揮出作用的功能,這就說(shuō)明要重新進(jìn)行繪制。比方說(shuō),若一個(gè)被其它窗口遮蔽的窗口轉(zhuǎn)變成前臺(tái)窗口,則以往被遮擋的部分就喪失了作用,需重新繪制。此時(shí)在應(yīng)用程序的消息隊(duì)列中,Windows會(huì)WM_PAINT消息。MFC為窗口類出具了WM_PAINT的消息處理函數(shù)OnPaint,該函數(shù)承擔(dān)著對(duì)窗口進(jìn)行重新繪制的工作。
3.1 圖像放大與縮小
圖像放大是指圖像依據(jù)一定比例進(jìn)行縮小或者擴(kuò)大,能使位圖空間的大小發(fā)生變化。得到位圖的空間尺寸,在不使位圖的大小發(fā)生改變的情況下,讓位圖依據(jù)以往大小只改變相框的大小,但不改變相片的大小。
3.2 圖像翻轉(zhuǎn)
水平翻轉(zhuǎn)是將圖像水平方向的像素點(diǎn)沿著中間線進(jìn)行翻轉(zhuǎn),處理過(guò)程為:獲得當(dāng)前設(shè)備指針,指向當(dāng)前設(shè)備,定義三個(gè)無(wú)符號(hào)的的指針,為翻轉(zhuǎn)圖像申請(qǐng)一段內(nèi)存空間,大小為圖像內(nèi)存大小。內(nèi)層循環(huán)將每一行的像素點(diǎn)進(jìn)行翻轉(zhuǎn),左側(cè)的像素移到右側(cè),右側(cè)的像素點(diǎn)移到左側(cè)外層循環(huán)將所有行的像素進(jìn)行翻轉(zhuǎn)將左側(cè)的像素點(diǎn)移到右側(cè),Invalidate()函數(shù)進(jìn)行窗體的重繪。
4 結(jié)論
本文說(shuō)明了運(yùn)用VC++平臺(tái)和MFC技術(shù)來(lái)實(shí)現(xiàn)本次設(shè)計(jì)的優(yōu)點(diǎn),主要討論了如何構(gòu)建一個(gè)簡(jiǎn)單的圖像顯示系統(tǒng),如何簡(jiǎn)單處理圖像,從而能夠在MFC平臺(tái)下成功實(shí)現(xiàn)圖像的翻轉(zhuǎn)、縮小以及放大的功能。
參考文獻(xiàn)
[1]胡新宸.基于OpenGL的醫(yī)學(xué)圖像三維可視化平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門大學(xué),2013.
[2]秦練,趙秀萍,楊文杰.計(jì)算機(jī)圖形學(xué)編程實(shí)踐研究[J].北京印刷學(xué)院學(xué)報(bào),2014(04).
[3]黃琛.基于MFC的繪圖軟件設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2013(10).
關(guān)鍵詞 Kinect;細(xì)化算法;Otsu算法;溫室番茄盆栽;莖干分割
中圖分類號(hào) TP391.41 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1007-5739(2014)03-0336-03
溫室作物生長(zhǎng)過(guò)程的數(shù)字化和可視化,是溫室環(huán)境調(diào)控技術(shù)的重要基礎(chǔ)和條件,對(duì)提高設(shè)施農(nóng)業(yè)產(chǎn)業(yè)的經(jīng)濟(jì)效益具有重大意義。數(shù)字農(nóng)業(yè)是集農(nóng)業(yè)科學(xué)、環(huán)境科學(xué)、計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)等眾多技術(shù)于一體的高新技術(shù)系統(tǒng),也是現(xiàn)代農(nóng)業(yè)發(fā)展的新模式[1-2]。伴隨著計(jì)算機(jī)軟硬件和圖形圖像處理技術(shù)的快速發(fā)展,計(jì)算機(jī)視覺(jué)技術(shù)在數(shù)字農(nóng)業(yè)中的應(yīng)用越來(lái)越廣,從而使得用計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)農(nóng)作物的數(shù)字化成像與可視化成為可能。數(shù)字化就是采用圖像傳感器對(duì)目標(biāo)進(jìn)行成像與采集,可視化則把所采集到的圖像信息在設(shè)備上進(jìn)行直觀的呈現(xiàn)[3-4]。然而現(xiàn)在對(duì)溫室作物信息的采集主要是通過(guò)采用昂貴的圖像采集設(shè)備來(lái)完成的,比如CCD攝像機(jī)、激光掃描儀、雙目設(shè)備等,而且有些設(shè)備得到的圖像信息容易受到光線的影響。為此,本文以溫室番茄盆栽作物為研究對(duì)象,提出了一種基于Kinect立體視覺(jué)系統(tǒng)的作物莖干特征提取與分析算法。最后基于分割得到的莖干,在OpenGL圖形平臺(tái)中繪制番茄植株莖干的三維形態(tài),然后再加上一些葉片、果實(shí)從而形成番茄植株的拓?fù)浣Y(jié)構(gòu),最終實(shí)現(xiàn)番茄植株的可視化。
1 圖像采集與預(yù)處理
1.1 Kinect簡(jiǎn)介
Kinect是微軟公司研制的一款體感外設(shè),它是一種3D體感攝影機(jī)。其主要特點(diǎn)及功能:Kinect底部為多點(diǎn)陣列麥克風(fēng),可以輸入聲音并能夠過(guò)濾環(huán)境噪聲;RGB攝像頭,可以進(jìn)行圖像捕獲;2個(gè)深度傳感器,由紅外線投影機(jī)加單色CMOS傳感器組成,使得設(shè)備能識(shí)別3D空間;底座有機(jī)械轉(zhuǎn)動(dòng)功能,可以讓攝像頭拍攝到的范圍更廣[1,5]。
Kinect能夠處理30幀/s的深度信息,每幀有640×480像素,每個(gè)像素16位,而實(shí)際有效位只有13位,縱向角度范圍43°,橫向57°,深度探測(cè)范圍在1.2~3.8 m為最佳[1]。
1.2 圖像采集和預(yù)處理
圖像采集與預(yù)處理的硬件系統(tǒng)由運(yùn)行Windows 7的PC、Kinect、支架、供電和傳輸線組成。軟件平臺(tái)是Microsoft Visual Studio 2010和OpenCV庫(kù)與PrimeSense公司開(kāi)發(fā)的OpenNI庫(kù)。通過(guò)Kinect的彩色感應(yīng)鏡頭與深度感應(yīng)鏡頭,能夠同時(shí)獲得溫室盆栽的彩色圖像與深度圖像。圖1a是Kinect彩色感應(yīng)鏡頭獲得的溫室番茄盆栽的彩色圖像。
圖1a是從Kinect得到的植株彩色圖像,雖然清晰但是圖像中同時(shí)也含有許多雜亂的背景。Kinect可以獲得物體到鏡頭的距離(深度),可以利用這一特點(diǎn)對(duì)彩色圖像和深度圖像進(jìn)行合并處理。圖1b是Kinect得到的深度圖像,其中橙色表示距離攝像頭0.8~1.5 m的部分。將彩色圖像中位于深度圖像除橙色外的區(qū)域去除,就得到了圖1c,這樣就可以消除目標(biāo)盆栽植株以外的大部分干擾。但是Kinect的精度限制造成了圖1c中的植株存在一些不連續(xù)的地方。
2 溫室盆栽的莖干檢測(cè)
2.1 深度圖像細(xì)化
為了檢測(cè)出盆栽的莖干,首先對(duì)深度圖像進(jìn)行細(xì)化。細(xì)化就是求取圖像骨架,以骨架代替該圖像。本文采用的細(xì)化方法是Zhang并行細(xì)化算法,它是一種比較實(shí)用的算法,具有速度快和保持細(xì)化后曲線的連通性等優(yōu)點(diǎn)[6]。
對(duì)圖1b進(jìn)行Zhang并行細(xì)化算法后得到的二值圖像如圖1d所示,其中有效像素為白色,背景為黑色像素。
2.2 Hough變換檢測(cè)莖干
在圖1d中的二值圖像可以看出盆栽的莖干被細(xì)化成1條線段,因此要想檢測(cè)出莖干,只需要對(duì)線段進(jìn)行檢測(cè)。本文中采用概率型Hough變換算法來(lái)檢測(cè)線段[7]。
在細(xì)化以后的二值圖像中,采用概率型Hough變換算法檢測(cè)盆栽莖干。為了使結(jié)果更清晰易見(jiàn),將檢測(cè)到的線段在深度圖像中標(biāo)記出來(lái),線段顏色為淺藍(lán)色,線段的端點(diǎn)用黃色標(biāo)記(圖1e)。注意到Hough算子在花盆處檢測(cè)到了大量的線段,這些線段屬于誤檢測(cè),不應(yīng)該納入到莖干的范疇中,在本小節(jié)剩下的部分中將主要介紹如何去除這些不符合需要的線段,并保留真正的莖干線段。
2.3 消除誤檢測(cè)莖干
如果以鉛垂線為軸,盆栽的冠層和花盆的橫截面積要比主莖干處的大,因此盆栽的寬度從上到下呈現(xiàn)由大到小再到大的特點(diǎn)。這個(gè)“大―小―大”的特征與雙峰直方圖的“峰―谷―峰”特征類似。因此,考慮利用Otsu算法來(lái)定位莖干較多的“谷底”區(qū)域,從而濾除不符合要求的線段。具體步驟如下:①找出盆栽植物的中軸線(圖1f)。②以盆栽植物中軸線為分界線建立網(wǎng)格系統(tǒng)(圖1f),如果有一定數(shù)量的橙色像素落入某個(gè)格子,則認(rèn)為格子有效。③以網(wǎng)格列號(hào)為橫坐標(biāo),中軸線處為坐標(biāo)原點(diǎn),確定網(wǎng)格系統(tǒng)中每行的左右兩端到盆栽中軸線最遠(yuǎn)的有效格子的坐標(biāo),并取絕對(duì)值。記錄每行的這個(gè)值,建立以鉛垂線為橫軸的直方圖(圖2)。
關(guān)鍵詞:ICA-HMAX模型;視覺(jué)相似度;卷積核;語(yǔ)義相似度
中圖分類號(hào):TP317 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)08-0177-05
Abstract: This paper firstly introduces a multi-level convolutional ICA-HMAX model; then propose visualization methods of the convolution kernel convolution kernel to achieve different levels of understanding. Proposed using S3 layer feature of the ICA-HMAX model to achieve visual similarity calculation of different categories. By implementing different categories of visual similarity between calculated on Caltech 101 datasets, and compared with the semantic similarity between categories and further explore the relationship between semantic similarity and visual similarity between.
Key words: ICA-HMAX model ;visual similarity; kernel convolution kernel; semantic similarity
1 概述
21世紀(jì)以來(lái),數(shù)字成像技術(shù)和存儲(chǔ)技術(shù)得到了空前的發(fā)展;使得每天有數(shù)量巨大的數(shù)字圖像進(jìn)入人們的生活,成為人類生活、工作、娛樂(lè)中的組成部分。另一方面,互聯(lián)網(wǎng)技術(shù)的發(fā)展給圖像的迅速傳播提供了有利的條件。此外,圖像是視覺(jué)信息的重要來(lái)源之一,蘊(yùn)含豐富的語(yǔ)義信息。圖像理解是人工智能領(lǐng)域中的一個(gè)新的方向,其核心問(wèn)題是研究如何使計(jì)算機(jī)能夠像人腦一樣有效正確理解圖像中所表達(dá)的高層語(yǔ)義信息。
仿生多層模型在計(jì)算機(jī)視覺(jué)和人工智能鄰域取得了顯著的成果。20世紀(jì)末,Poggio和Riesenhuber根據(jù)IT皮層的生理學(xué)數(shù)據(jù)提出了標(biāo)準(zhǔn)HMAX模型[1],該模型模擬視皮層中腹側(cè)通路中簡(jiǎn)單細(xì)胞(Simple Cell)和復(fù)雜細(xì)胞(Complex Cell)的交替處理的功能,實(shí)現(xiàn)多層次特征提取。在此基礎(chǔ)上,Serre等人提出一種具有隨著層次的增加復(fù)雜度和不變性逐漸增強(qiáng)的圖像特征表達(dá)[2],并將其應(yīng)用到真實(shí)場(chǎng)景的目標(biāo)識(shí)別中,其識(shí)別性能明顯優(yōu)于傳統(tǒng)的特征表達(dá)(如SIFT特征[3]);Hu等人根據(jù)大腦神經(jīng)元響應(yīng)的稀疏特性進(jìn)一步擴(kuò)展HMAX模型,提出了Sparse-HMAX模型[4],在分類性能上遠(yuǎn)遠(yuǎn)優(yōu)于HMAX模型,同時(shí)較好模擬和解釋神經(jīng)元對(duì)視覺(jué)信號(hào)的稀疏響應(yīng)。
本文內(nèi)容章節(jié)安排如下:第2節(jié)首先簡(jiǎn)要描述了本文的ICA-HMAX模型;然后介紹卷積核的可視化方法;第3節(jié)介紹基于WordNet的語(yǔ)義相似度計(jì)算和基于ICA-HMAX的視覺(jué)相似度計(jì)算方法。第4節(jié)實(shí)驗(yàn)結(jié)果和分析。第5節(jié)總結(jié)與展望。
2 ICA-HMAX模型與卷積核可視化
2.1 ICA-HMAX模型簡(jiǎn)介
前饋ICA-HMAX模型由五層構(gòu)成如圖1所示。自底向上依次為S1C1S2C2S3五層,其中S1層卷積核(W1、V1)由獨(dú)立成分析(Independent Component Analysis,ICA)方法從彩色圖像的數(shù)據(jù)塊中學(xué)習(xí)獲得,為了使得C1層具有局部空間平移不變性,在S1層的每個(gè)二維平面響應(yīng)圖上進(jìn)行局部最大值匯聚(max pooling)操作;同理,S2層卷積核(W2、V2)也是采用ICA方法從C1層采樣塊中學(xué)習(xí)獲得;同樣,為了使得C2層也具有局部空間平移不變性,在S2層的每個(gè)二維平面響應(yīng)圖上進(jìn)行最大值匯聚(max pooling)操作;同理可以獲得S3層的卷積核(W3、V3)以及S3層的特征表達(dá)。值得注意的是該前饋模型的卷積核均為單尺度。
2.2 卷積核的可視化
若要實(shí)現(xiàn)對(duì)多層模型ICA-HMAX的深入的了解,需要知道不同層次的卷積核編碼的圖像信息。由于S1層特征卷積核是在彩色圖像的原始像素層上學(xué)習(xí),可以在像素空間上直接觀察S1層卷積核編碼的圖像信息。而S2、S3層的卷積核是在圖像C1、C2層的響應(yīng)圖上經(jīng)過(guò)ICA學(xué)習(xí)獲得高維數(shù)據(jù),因此不能直接觀察其卷積核編碼的圖像信息。為了觀察S2、S3層的卷積核所編碼的圖像信息,當(dāng)給定一個(gè)某個(gè)類別的卷積核的條件下,本文提出在該類別的圖像上找出使得該卷積核的刺激最大的前50個(gè)感受野區(qū)域,并將這些區(qū)域與其刺激的響應(yīng)值進(jìn)行加權(quán)求和,然后取平均;所得結(jié)果具有表示S2、S3層卷積核所編碼的圖像信息從而作為S2、S3層的卷積核可視化。
3 相似度計(jì)算
3.1 基于WordNet的語(yǔ)義相似度計(jì)算
WordNet是由普林斯頓大學(xué)心理學(xué)家,語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。一般來(lái)講,國(guó)內(nèi)外的研究學(xué)者將經(jīng)典的基于語(yǔ)義的相似度的計(jì)算方法分為三個(gè)類型[6,7]:基于距離的相似度計(jì)算(Path Counting Measures)、基于信息內(nèi)容的相似度計(jì)算(Information Content Measures)和基于特性的相似度計(jì)算(Feature-based Measures)。本文主要介紹基于距離的相似度計(jì)算方法――Shortest Path算法和Leacock and Chodorow算法。
3.2 基于視覺(jué)的類別相似度
眾所周知,不同類別之間存在部分外觀相似性,比如山貓和豹、狼和哈士奇、浣熊和果子貍等等??梢?jiàn),分別在兩個(gè)類別的訓(xùn)練集上訓(xùn)練ICA-HMAX模型,若兩個(gè)類別視覺(jué)相似度越高,則這兩個(gè)類別的S3層卷積核相似的基元個(gè)數(shù)越多;反之,兩類別的S3層卷積核中的相似的基元個(gè)數(shù)越多,兩個(gè)類別的視覺(jué)相似度越高。
我們知道兩個(gè)類別的相似度越高,則兩個(gè)類別的ICA-HMAX模型越能較好地實(shí)現(xiàn)對(duì)異類圖像的相互表達(dá)。因此采用配對(duì)字典的方法[10]實(shí)現(xiàn)對(duì)S3特征表達(dá)的重構(gòu)。然后,將重構(gòu)圖像與輸入圖的結(jié)構(gòu)相似度[11](SSIM)作為衡量S3層特征對(duì)輸入圖像描述的好壞。若重構(gòu)圖像與輸入圖的結(jié)構(gòu)相似度越高,則兩個(gè)類別的視覺(jué)語(yǔ)義相似度越高,反之亦然?;谀繕?biāo)類別的視覺(jué)語(yǔ)義相似度算法流程如表1所示:
4 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)設(shè)置:實(shí)驗(yàn)所使用的PC機(jī)配置為Intel(R) Core(TM) i7-4770、CPU 3.4GHz × 8 cores、RAM 16 GB、Windows 7操作系統(tǒng)。為了探索不同類別之間的語(yǔ)義相似度和基于ICA-HMAX模型S3層的特征描述子的視覺(jué)語(yǔ)義相似度之間的關(guān)系,本文選擇了Caltech 101數(shù)據(jù)集[12]進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集以彩色自然場(chǎng)景圖像為主(包含一定數(shù)量的人造圖像)。包括動(dòng)物、花、人臉等101個(gè)目標(biāo)類別以及一個(gè)背景類別。除背景類別之外,每個(gè)類別中的每張圖片只包括一個(gè)類別中的一個(gè)實(shí)例,這有利于本實(shí)驗(yàn)進(jìn)行。在進(jìn)行實(shí)驗(yàn)之前,首先對(duì)數(shù)據(jù)集中每張圖像做如下預(yù)測(cè)處理:統(tǒng)一圖像高度為140個(gè)像素,保持圖像的長(zhǎng)寬比不變,采用雙三次插值對(duì)其進(jìn)行縮放。將每個(gè)類別中的圖片按照4:1的比例分成訓(xùn)練集和測(cè)試集,在訓(xùn)練上訓(xùn)練各個(gè)類別的ICA-HMAX模型,采用3.2節(jié)介紹的視覺(jué)語(yǔ)義相似度方法在測(cè)試集上測(cè)試不同類別之間的視覺(jué)相似度。
4.1卷積核的可視化
圖3(b)、(c)、(d)分別給出了S1、S2和S3層卷積核的可視化結(jié)果。結(jié)果表明,不同層次的卷積核編碼了圖像不同類型的特征。圖3(b)中的S1層卷積核均編碼了圖像底層特征(如彩色邊緣、彩色表面、拐角等結(jié)構(gòu)信息等),并且不同類別的底層特征具有相似的結(jié)構(gòu)特征;值得注意的是,通過(guò)ICA在彩色圖像上的學(xué)習(xí),獲得了重要的顏色信息如彩色邊緣、彩色表面等。S2層卷積核編碼了各類別的中層部件特征,例如face_easy類別的S2層編碼了人臉的眼睛、嘴巴、鼻子等信息,如圖3(c)所示。由圖3(d)可以看出,由于S3層卷積核的感受野比S2層大,編碼信息更趨于類別信息。研究表明:這符合圖像理解的層次特性[13]。
4.2 相似度
數(shù)據(jù)集Caltech101圖像部分類別之間的基于路徑的Shortest Path算法和Leacock and Chodorow的相似度矩陣分別如圖4和圖5所示。由圖4和圖5可以看出這兩個(gè)矩陣都是對(duì)稱矩陣。與一個(gè)類別最相似的類別有的不止一個(gè),如與ant類別最相近的類別是butterfly、dragonfly、mayfly。值得注意的是圖5中基于路徑的Leacock and Chodorow算法的類別相似度數(shù)據(jù)是經(jīng)過(guò)歸一化處理后的數(shù)據(jù)。
本文采用基于ICA-HMAX模型的S3層的特征計(jì)算視覺(jué)相似,其視覺(jué)相似度矩陣的結(jié)果如圖6所示。在該相似度矩陣中,把同一類別之間的視覺(jué)相似度設(shè)置為1作參考,來(lái)衡量不同類別之間的視覺(jué)相對(duì)度。在圖6中橫軸表示ICA-HMAX模型的類別??v軸表示測(cè)試圖像的類別。由圖6可見(jiàn),不同類別之間的視覺(jué)相似度矩陣不是對(duì)稱。比如用airplane的ICA-HMAX模型對(duì)helicopter類別的圖像進(jìn)行表達(dá),并計(jì)算其視覺(jué)相似度其值為0.506;而當(dāng)用helicopter的ICA-HMAX模型對(duì)airplane類別的圖像進(jìn)行表達(dá),并計(jì)算其視覺(jué)相似度其值為0.253。且與一個(gè)類別最相似的類別只有一個(gè)。在Caltech101數(shù)據(jù)集中helicopter類別的直升機(jī)的實(shí)例圖片上都存在較為明顯的螺旋槳。在airplane類別的飛機(jī)圖像沒(méi)有明顯的螺旋槳。而在忽略helicopter類別的直升機(jī)螺旋槳后,直升機(jī)的機(jī)體形狀與airplane類別的機(jī)體在視覺(jué)上存在相似?;谡Z(yǔ)義和視覺(jué)的相似度統(tǒng)計(jì)如表2所示。
兩種相似度之間的差異性分析:由表2可知,基于語(yǔ)言的語(yǔ)義的相似度與基于視覺(jué)的相似度之間存在一致性和差異性。一致性:由表2可知,20個(gè)類別中基于語(yǔ)義和視覺(jué)的相似度一致有5對(duì),分別sunflower和bonsai、rhino和llama、airplane和helicopter、ant和mayfly、hedgehog和llama。比如airplane和helicopter這兩個(gè)類別的實(shí)例如圖7所示。由圖可見(jiàn),不同類別之間存在視覺(jué)相似,兩個(gè)類別實(shí)例在的某些局部形狀、顏色、紋理等方面具有視覺(jué)上的相似性。差異性:由表2可知:20個(gè)類別中基于語(yǔ)義和視覺(jué)的相似度不一致的較多。如圖8所示,ant、butterfly和dragonfly這三個(gè)類別的語(yǔ)義相對(duì)度很高但是它們的視覺(jué)相似度相差較大。原因在于:語(yǔ)義即語(yǔ)言意義,是人腦對(duì)客觀上事物的認(rèn)識(shí)和理解,它具有高度的概括性和抽象性。類別之間的語(yǔ)義往往根據(jù)類別所屬范疇、關(guān)系、屬性、功能等綜合特性來(lái)進(jìn)行劃分。而僅僅從事物的視覺(jué)外觀上無(wú)法體現(xiàn)出上述種種關(guān)系。
5 結(jié)論與展望
通過(guò)ICA-HMAX不同層次卷積核的可視化分析可知:自底層到高層不同層次的卷積編碼規(guī)律如下:不同層次的卷積核編碼了圖像不同類型的特征。模型的層次越高,卷積核編碼的信息越趨向于反映目標(biāo)類別的特性,S1層卷積核編碼體現(xiàn)底層共享特征(如拐角、 彩色邊緣、彩色表面等)。S2層卷積核編碼中層部件特征,比如face_easy類別的S2層編碼了人臉的眼睛、嘴巴、鼻子等局部信息。S3層編碼信息更趨于類別的全局信息。研究表明:這符合圖像理解的層次特性。
通過(guò)視覺(jué)的相似和語(yǔ)義的相似度分析可知,基于ICA-HMAX模型的S3層特性的視覺(jué)相似度與語(yǔ)義相似之間存在一致性和差異性。這種一致性和差異性在計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域具有互補(bǔ)性。比如對(duì)于那些語(yǔ)義和視覺(jué)的相似度一致的類別,尤其是視覺(jué)相似度較高的類別之間可以進(jìn)行遷移學(xué)習(xí),使得計(jì)算機(jī)實(shí)現(xiàn)人類的類比學(xué)習(xí)能力。對(duì)于語(yǔ)義和視覺(jué)的相似度差異性在圖像的檢索和圖像理解等方面可以實(shí)現(xiàn)互補(bǔ)。通過(guò)語(yǔ)義的相似度我們可以檢索到較多的相似類別,如與ant語(yǔ)義相似的有ant、dragonfly、butterfly。這樣我們可以實(shí)現(xiàn)大范圍的查找。然后在通過(guò)視覺(jué)的相似度進(jìn)一步篩選正確的類別圖片。反之,通過(guò)語(yǔ)義可以指導(dǎo)基于視覺(jué)的機(jī)器學(xué)習(xí)。
參考文獻(xiàn):
[1] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex [J]. Nature neuroscience, 1999, 2(11): 1019-1025.
[2] Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007, 29(3): 411-426.
[3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91-110.
[4] Hu X, Zhang J, Li J, et al. Sparsity-regularized HMAX for visual recognition [J]. PloS one, 2013, 9(1): e81813-e81813
[5] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C] //Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 807-814.
[6] Hliaoutakis A. Semantic Similarity Measures in MeSH Ontology and their application to Information Retrieval on Medline [J]. 2005.
[7] Raftopoulou P, Petrakis E. Semantic similarity measures: A comparison study [J]. Technical University of Crete, Department of Electronic and Computer Engineering, Tech. Rep. TR-TUC-ISL-04-2005, 2005.
[8] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and Application of a Metric on Semantic Nets”, IEEE Transactions on Systems, Man and Cybernetics, vol. 19, Issue 1, (1989) January-February, pp. 17 - 30.
[9] H. Bulskov, R. Knappe and T. Andreasen, “On Measuring Similarity for Conceptual Querying”, Proceedings of the 5th International Conference on Flexible Query Answering Systems, (2002) October 27-29, Copenhagen, Denmark.
[10] Vondrick C, Khosla A, Malisiewicz T, et al. HOGgles: Visualizing Object Detection Features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1-8.
[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
關(guān)鍵詞:圖像情感;情感計(jì)算;情感表示
中圖分類號(hào):TP391.4
1 引言
隨著社交網(wǎng)絡(luò)的快速發(fā)展和廣泛使用,例如Twitter(https://),F(xiàn)lickr(https://),YouTube(https://)和新浪微博(http://),人們傾向于將自己的所見(jiàn)所聞、興趣愛(ài)好等以文本、圖像和視頻等多媒體的形式上傳至網(wǎng)絡(luò)來(lái)呈現(xiàn)和分享其觀點(diǎn)和情感。因此,即會(huì)導(dǎo)致文本、圖像和視頻等多媒體內(nèi)容的規(guī)模正以顯示指數(shù)級(jí)態(tài)勢(shì)發(fā)生著爆炸式增長(zhǎng),而針對(duì)這些多媒體內(nèi)容的處理及理解需求則日趨顯著與突出。相對(duì)于底層視覺(jué)特征層,人們只能夠感知和理解圖像、視頻的高層語(yǔ)義層,包括認(rèn)知層和情感層。以往對(duì)視覺(jué)內(nèi)容分析的工作主要集中在理解圖像、視頻的感知層,即描述圖像、視頻的真實(shí)內(nèi)容,如物體檢測(cè)與識(shí)別。然而,公眾對(duì)數(shù)字?jǐn)z影技術(shù)的關(guān)注熱衷及對(duì)視覺(jué)內(nèi)容情感表達(dá)的強(qiáng)烈需求,使得對(duì)圖像、視頻最高語(yǔ)義層―情感層的分析已然具有高度重要的研究和應(yīng)用價(jià)值。
對(duì)多媒體內(nèi)容情感層的分析屬于情感計(jì)算的一部分。情感計(jì)算的概念是由麻省理工學(xué)院媒體實(shí)驗(yàn)室的Picard教授于1995年首次提出的,而于1997年專著《Affective Computing》則正式出版問(wèn)世[1]。書(shū)中給出了情感計(jì)算的定義,即情感計(jì)算是指與情感相關(guān)、來(lái)源于情感或能夠?qū)η楦惺┘佑绊懙挠?jì)算,包含3個(gè)部分:情感識(shí)別、情感發(fā)生和情感表達(dá)[1]。
基于此,根據(jù)需要處理的多媒體數(shù)據(jù)類型,對(duì)多媒體情感層的分析可以分為4種:基于文本的情感分析[2]、基于音頻的情感分析[3-5、基于圖像的情感分析[6-7]以及基于視頻的情感分析[8-11]。其中,基于文本和音頻的情感分析比較成熟,圖像情感分析中人臉表情識(shí)別的研究也相對(duì)成熟,而關(guān)于普通圖像和視頻情感分析的研究相對(duì)來(lái)說(shuō),卻仍顯不足。對(duì)圖像情感識(shí)別的研究最初源始于人臉表情R別,因?yàn)槿四槞z測(cè)和人臉識(shí)別的研究相對(duì)成熟,心理學(xué)對(duì)人臉表情的分類也已建立有清晰脈絡(luò),此外更有大量的研究機(jī)構(gòu)也成功建立了表情識(shí)別的數(shù)據(jù)庫(kù)[12-14]。
受到情感鴻溝和人類情感感知與評(píng)估的主觀性等基礎(chǔ)現(xiàn)實(shí)的制約,普通圖像的情感分析進(jìn)展緩慢。不僅如此,圖像情感計(jì)算的發(fā)展還將需要心理學(xué)、藝術(shù)學(xué)、計(jì)算機(jī)視覺(jué)、模式識(shí)別、圖像處理、人工智能等領(lǐng)域的共同支持,眾多領(lǐng)域?qū)W科的交叉使得圖像情感計(jì)算成為一個(gè)富有挑戰(zhàn)性的研究課題。本文對(duì)圖像情感計(jì)算的發(fā)展研究現(xiàn)狀進(jìn)行了全面論述和分析。
1 情感的定義與描述
人類具有很強(qiáng)的情感感知和表達(dá)的能力,但是由于情感的復(fù)雜性和抽象性,人們很難將情感從概念上實(shí)現(xiàn)具體化和清晰化。心理學(xué)、生理學(xué)領(lǐng)域的科學(xué)家們?cè)缭?8世紀(jì)就開(kāi)啟了專門情感研究,并且推出了諸多情感理論來(lái)解釋情感是如何源起于產(chǎn)生的,如1872年的Darwin三原則理論[15]、1884年的James-Lange理論[16]、1927年的Cannon-Bard 理論[17]和1991年的Lazarus理論[18]。但是迄今為止,科學(xué)家們也仍未提出一個(gè)準(zhǔn)確、全面且可得到一致認(rèn)可的情感定義。
心理學(xué)中與情感相關(guān)的詞匯有emotion、affect、sentiment、mood、affective、emotional等,類似的中文詞匯有情感、感情、情緒、情感的、感情的等。心理學(xué)上認(rèn)為情感、情緒與感情是3個(gè)嚴(yán)格不同的概念[1,19-20],但計(jì)算機(jī)學(xué)科對(duì)此區(qū)分并不嚴(yán)格區(qū)分,一般只是籠統(tǒng)將其稱為情感。wikipedia上給出了一種情感的模糊定義,“情感是對(duì)一系列主觀認(rèn)知經(jīng)驗(yàn)的通稱,是多種感覺(jué)、思想和行為綜合產(chǎn)生的心理和生理狀態(tài)”。心理學(xué)領(lǐng)域主要有2種方式來(lái)描述情感:離散情感狀態(tài)(CES)和維度情感空間(DES),或稱為范疇觀和維度觀[1,19-20] 。
1.1 離散情感狀態(tài)
持范疇觀的心理學(xué)家將情感分成相互獨(dú)立的范疇,而且在外部表現(xiàn)、生理喚醒模式上都存在一定的差異。近年來(lái),持范疇觀的研究人員根據(jù)生物進(jìn)化理論把情感分為基本情感和復(fù)合情感。不同的心理學(xué)家對(duì)基本情感的分類差異很大,從2類到幾十類也各有不等,具體的分類方法可以參照文獻(xiàn)[1,19-20]。研究中更具代表性的成果主要有:Ekman把情感分為6類,即高興、憤怒、厭惡、恐懼、悲傷、驚奇[21];Izzard 用因素分析方法,提出11種基本情緒,即興趣、驚奇、痛苦、厭惡、愉快、憤怒、恐懼、悲傷、害羞、輕蔑和自罪感[22];Mikels 通過(guò)嚴(yán)格的心理學(xué)實(shí)驗(yàn),把情感分為8 類,即表示積極情感的娛樂(lè)、敬畏、滿意、刺激,表示消極情感的生氣、厭惡、害怕和悲傷[23];Plutchik提出了一套情感的演化理論,認(rèn)為情感有8種基本類型,但是每種情感又有3種不同的愉悅度(valence),即把情感分為24類[24]。還有一種模型是將情感分成積極和消極2類,或者積極、消極和中性三類。目前對(duì)表情識(shí)別的分類多是基于Ekman 的分類,而對(duì)圖像情感分類則以Mikels 的分類為主。
復(fù)合情感是由基本情感的不同組合派生出來(lái)的,可隨著個(gè)體認(rèn)知的成熟而煙花發(fā)展,并隨著文化的不同而發(fā)生變化。Izzard認(rèn)為復(fù)合情感有3類:基本情感的混合、基本情感和內(nèi)驅(qū)力的集合、基本情感與認(rèn)知的結(jié)合[22]。
用CES來(lái)描述和測(cè)量情感的優(yōu)勢(shì)可分述為:
1)符合人們的直覺(jué)和常識(shí),容易被人們理解和標(biāo)注,有利于情感計(jì)算的成果在現(xiàn)實(shí)生活中推廣和應(yīng)用;
2)有利于智能系統(tǒng)在識(shí)別情感后,進(jìn)一步推理與之相聯(lián)系的特定心理功能和可能的原因,而后做出適當(dāng)?shù)姆从场?/p>
但也需明確認(rèn)識(shí)到CES的缺點(diǎn),具體表述為:
1)哪些情感狀態(tài)或基本情感是必要的,目前研究者對(duì)此沒(méi)有統(tǒng)一的認(rèn)識(shí);
2)CES是對(duì)情感的定性描述,無(wú)法用量化的數(shù)字表達(dá)主觀的情感體驗(yàn),且其對(duì)情感的描述能力也比較有限。
1.2 維度情感空間
持維度觀的研究人員認(rèn)為情感具有基本維度和兩極性,所有的維度構(gòu)成一個(gè)笛卡爾空間,DES就將情感描述為該空間中的點(diǎn),理論上該空間的情感描述能力是無(wú)限的,即能夠涵蓋所有的情感狀態(tài)。各種不同的維度情感空間可以參照[1][19][20]。常見(jiàn)的維度情感空間大多是3D的,如natural-temporal-energetic[25]、valence-arousal-control[26]、activity-weight-heat[27]等。比較典型的是愉悅度-激活度-優(yōu)勢(shì)度空間(valence-arousal-control space,VAC,有些時(shí)候也稱為pleasure-arousal-dominance space,PAD)[26]。其中,愉悅度表示個(gè)體情感狀態(tài)的正負(fù)特性,激活度表示個(gè)體的神經(jīng)生理激活水平,優(yōu)勢(shì)度表示個(gè)體對(duì)情景和他人的控制狀態(tài)。具體的VAC三維情感空間如圖1 (a)所示[28],從圖中不難看出,優(yōu)勢(shì)度維度的取值范圍很小,而且只有當(dāng)愉悅度呈現(xiàn)高峰值時(shí)才會(huì)有用。因此可以說(shuō),優(yōu)勢(shì)度在描述情感過(guò)程中僅能發(fā)揮有限的的作用。大多數(shù)計(jì)算機(jī)學(xué)者用DES 描述情感時(shí)都不曾考慮優(yōu)勢(shì)度,以愉悅度-激活度空間為主。但也并非所有的愉悅度和激活度的組合都能構(gòu)成情感,能構(gòu)成人們常見(jiàn)的情感狀態(tài)的愉悅度和激活度的組合范圍如圖1 (b)所示[28]。
用DES來(lái)描述和測(cè)量情感具有鮮明優(yōu)勢(shì),具體可論述為:
1)描述能力強(qiáng),理論上能描述所有的情感類別;
2)易于對(duì)情感進(jìn)行量化,以精確的數(shù)值來(lái)描述情感,解決了CES 情感標(biāo)簽的模糊性問(wèn)題,也一并消除了自感的描述問(wèn)題。
但DES也存在一定的缺陷,分析可得如下結(jié)論:
1)不易于人們直觀的理解,給定DES的維度值,普通人無(wú)法識(shí)別出應(yīng)該歸屬為哪種情感;
2)測(cè)試人員對(duì)DES的打分有一定的難度,由此導(dǎo)致較大的偏差。
2 圖像情感計(jì)算的問(wèn)題描述
所謂圖像情感計(jì)算,是指計(jì)算機(jī)從圖像中分析并提取情感特征,使用模式識(shí)別與機(jī)器學(xué)習(xí)的方法對(duì)其執(zhí)行計(jì)算,進(jìn)而理解人的情感。根據(jù)情感的描述方式,圖像情感計(jì)算可以分為三大任務(wù):情感分類、情感回歸和情感圖像檢索。
一個(gè)圖像情感計(jì)算系統(tǒng)通常包括如下3部分:
1)圖像預(yù)處理。 由于輸入圖像在尺寸、光照、顏色空間等方面存在很大的差異,在進(jìn)行特征提取之前往往需要進(jìn)行預(yù)處理。比如,把圖像尺寸調(diào)整到統(tǒng)一大小,把顏色空間轉(zhuǎn)換到同一空間等。在圖像情感計(jì)算過(guò)程中,預(yù)處理雖然不是一個(gè)專門的研究熱點(diǎn),但卻會(huì)對(duì)算法的性能產(chǎn)生很大的影響。
2)情感特征提取/選擇。 特征提取與選擇是圖像情感計(jì)算過(guò)程中的重要組成部分,直接決定了算法最終的性能。該步驟的主要任務(wù)是提取或者選擇一些特征,并且使得其在類內(nèi)具有很大的相似性而在類間具有很大的差異性。一般而言,用于圖像情感計(jì)算的特征可以分為底層特征、中層特征和高層特征。
3)模型設(shè)計(jì)。 模型設(shè)計(jì)是指根據(jù)圖像情感計(jì)算的任務(wù)來(lái)設(shè)計(jì)合適的模型,并以提取的特征作為輸入,通過(guò)W習(xí)的方法來(lái)獲得相應(yīng)的輸出。情感分類是一個(gè)多類分類問(wèn)題,可以直接采用多類分類器,或者轉(zhuǎn)換成多個(gè)二值分類。情感回歸是一個(gè)回歸問(wèn)題,研究針對(duì)的是維度情感模型。情感圖像檢索對(duì)應(yīng)的是如下檢索問(wèn)題,即給定輸入圖像,查找與之表達(dá)相似情感的圖像。針對(duì)不同問(wèn)題,可以采用的學(xué)習(xí)模型也將各有不同。
3 圖像情感計(jì)算的研究現(xiàn)狀與分析
本節(jié)對(duì)圖像情感計(jì)算的研究現(xiàn)狀進(jìn)行總結(jié)與分析。首先從不同的分類角度綜合歸納了當(dāng)前可高效用于圖像情感計(jì)算的技術(shù)特征,然后簡(jiǎn)要介紹常用的機(jī)器學(xué)習(xí)方法,最后對(duì)已有方法存在的主要問(wèn)題進(jìn)行分析并給出可能的解決方案。
3.1 用于圖像情感計(jì)算的特征
如何提取與情感緊密相關(guān)的特征是情感識(shí)別的關(guān)鍵問(wèn)題。根據(jù)所提特征的通用性(generality),可將已有的特征分為2類:通用特征和專用特征。根據(jù)所提特征的層次(level),可將已有的特征分為3類:底層特征、中層特征和高層特征。
進(jìn)一步地,所謂通用特征是指計(jì)算機(jī)視覺(jué)里普遍適用的特征,設(shè)計(jì)這些特征的目的并不是為了用于情感識(shí)別,而是其他的視覺(jué)任務(wù),如物體檢測(cè)。Yanulevskaya所使用的Wiccest特征和Gabor特征就是典型的通用特征[29]。而專用特征則是針對(duì)情感識(shí)別這一特定任務(wù)而設(shè)計(jì)的能夠表達(dá)不同情感的特征,比如常見(jiàn)的顏色、紋理等底層特征。
目前,絕大多數(shù)的情感特征提取工作都是基于藝術(shù)元素的,如顏色、紋理、形狀、線條等。針對(duì)每一種類的藝術(shù)元素,研究者們又設(shè)計(jì)了為數(shù)可觀的不同描述方法。關(guān)于藝術(shù)元素及常用特征的典型描述可見(jiàn)于如下:
1)顏色(color)有3個(gè)基本的屬性:色調(diào)、強(qiáng)度和飽和度。常用于描述顏色的特征除了這3個(gè)基本屬性的平均值,還有colorfulness、area statistics[30-31]等。
2)灰度值(value)描述顏色的亮度或暗度。常用的特征有l(wèi)ightness、darkness[30-31]等。
3)線條(line)是在某物體表面的連續(xù)的標(biāo)記。主要有2種:強(qiáng)調(diào)線和非強(qiáng)調(diào)線。強(qiáng)調(diào)線,又稱輪廓線,勾勒出了一個(gè)物體的輪廓或邊緣,而非強(qiáng)調(diào)線則用于描述那些輪廓和邊緣未可堪稱重要的作品。不同的線條給人不同的感覺(jué),如水平線代表平靜,給人輕松的感覺(jué),垂直線代表強(qiáng)度與穩(wěn)定,對(duì)角線代表緊張,曲線則表示運(yùn)動(dòng)。通常用于描述線條的特征有通過(guò)霍夫變換計(jì)算的靜止和動(dòng)態(tài)線條的數(shù)量和長(zhǎng)度[30]。
4)紋理(texture)用于描述物體的表面質(zhì)量(surface quality),有的藝術(shù)家使用平滑的紋理,也有的人喜歡用粗糙的紋理。常用的有基于小波的特征、Tamura特征、灰度共生矩陣[30]以及LBP特征。
5)形狀(shape)是平的,具有2個(gè)維度:高度和寬度。Lu等人使用圓度(roundness)、角度(angularity)、簡(jiǎn)單性(simplicity)和復(fù)雜性(complexity)來(lái)描述形狀[32]。
(6)形式(form)具有3個(gè)維度,即高度、寬度和深度,因此形式具有體積。
(7)空間(space)指物體之間、上面、下面或物體內(nèi)部的距離或面積。
除了目前常規(guī)通用的底層表達(dá),也有部分工作開(kāi)始提取中層或高層的特征。Machajdik和Hanbury[30]提取了包括Level of Detail、Low Depth of Field、Dynamics和Rule of Thirds在內(nèi)的構(gòu)圖(composition)作為中層特征,同時(shí)也發(fā)掘包括人臉、皮膚在內(nèi)的圖像內(nèi)容(content)作為高層特征。Solli和Lenz使用每個(gè)興趣點(diǎn)周圍的情感直方圖特征和情感包(bag-of-emotion)特征來(lái)對(duì)圖像進(jìn)行分類[27]。Irie等人提取基于情感的音頻-視覺(jué)詞組包(bag of affective audio-visual words) 的中層特征以及隱主題驅(qū)動(dòng)模型來(lái)對(duì)視頻進(jìn)行分類[33]。
3.2 常用的機(jī)器學(xué)習(xí)方法
圖像情感分類一般可建模為標(biāo)準(zhǔn)的模式分類問(wèn)題,常用的分類器都可以用來(lái)解決此問(wèn)題。根據(jù)建模過(guò)程,其中的有監(jiān)督學(xué)習(xí)即可以分為生成式學(xué)習(xí)和判別式學(xué)習(xí)。相應(yīng)地,判別式學(xué)習(xí)就是直接對(duì)給定特征條件下標(biāo)簽的條件概率進(jìn)行建模,或者直接學(xué)習(xí)一個(gè)從特征到標(biāo)簽的映射,如Logistic回歸和支持向量機(jī)(SVM)等。生成式學(xué)習(xí)則分別對(duì)類別先驗(yàn)和似然進(jìn)行建模,而后再利用Bayes法則來(lái)計(jì)算后驗(yàn)概率,如高斯判別分析和Naive Bayes。當(dāng)處理多類分類時(shí)不僅可以直接采用多類分類器,也可以轉(zhuǎn)換成多個(gè)二值分類問(wèn)題,常規(guī)策略有“一對(duì)一”分類和“一對(duì)多”分類。多種分類器可用來(lái)實(shí)施圖像情感的分類,其中進(jìn)入使用流行的主要有Naive Bayes[30]、Logistic回歸[34]、 SVM[32,35-36]和稀疏表示等。
一般情況下,圖像情感回歸建模為標(biāo)準(zhǔn)的回歸預(yù)測(cè)問(wèn)題,即使用回歸器對(duì)維度情感模型中各個(gè)維度的情感值進(jìn)行估計(jì)。常用的回歸模型有線性回歸、支持向量回歸(SVR)和流形核回歸(manifold kernel regression)等。當(dāng)前有關(guān)圖像情感回歸的研究仍屬少見(jiàn),已知的只有使用SVR對(duì)VA模型所表示的情感嘗試,并實(shí)現(xiàn)了回歸[32,35]。
目前,已知的用于圖像情感檢索的方法主要有SVM[36]和多圖學(xué)習(xí)[37]等。
3.3 現(xiàn)有方法存在的主要問(wèn)題及可能的解決方案
3.3.1 所提取的底層特征與圖像情感之間存在語(yǔ)義鴻溝
目前的圖像情感識(shí)別方法主要仍是基于學(xué)習(xí)的方法,因此學(xué)習(xí)時(shí)所使用的特征決定了最終學(xué)習(xí)的分類器或回歸預(yù)測(cè)器性能的優(yōu)劣。而時(shí)下絕大多數(shù)工作所提取的特征主要是基于藝術(shù)元素的底層特征,這就使得“情感鴻溝”極為顯著,學(xué)習(xí)所得的分類器的分類準(zhǔn)確率較為低下,回歸預(yù)測(cè)器的預(yù)測(cè)結(jié)果誤差較大?;诖?,如何進(jìn)一步縮小這一鴻溝,即改進(jìn)特征與情感類別或情感得分之間的映射關(guān)系,即已成為氣候工作的研究重點(diǎn)。
3.3.2 ]有從腦科學(xué)、心理學(xué)及藝術(shù)學(xué)等學(xué)科的研究成果中得到啟發(fā)
情感表達(dá)是一個(gè)多學(xué)科交叉的研究方向,現(xiàn)有的從計(jì)算機(jī)的角度進(jìn)行情感表達(dá)的工作大多都未曾引入腦科學(xué)、心理學(xué)及藝術(shù)學(xué)等產(chǎn)生的豐碩研究成果,這極大地限制了圖像情感表達(dá)領(lǐng)域的發(fā)展、推進(jìn)和完善。
在進(jìn)行藝術(shù)作品創(chuàng)作時(shí),藝術(shù)家不僅僅需要使用藝術(shù)元素,而且還要研究藝術(shù)原理,即把藝術(shù)元素進(jìn)行組織與排列以產(chǎn)生特定語(yǔ)義與情感的各類規(guī)則。因此,使用藝術(shù)原理作為描述情感的中層特征,可能會(huì)對(duì)情感識(shí)別產(chǎn)生一定的幫助。
3.3.3 沒(méi)有考慮個(gè)性化的情感識(shí)別
目前絕大多數(shù)的情感識(shí)別工作對(duì)情感的處理都是基于期望情感的[38-39],即圖像拍攝者或電影制作者創(chuàng)作作品時(shí)希望讀者產(chǎn)生怎樣的情感,或者基于大眾化情感,即大多數(shù)人所產(chǎn)生的類同式情感。這樣做雖然便于研究,但卻不符合實(shí)際情況,因?yàn)槿说那楦芯哂袑挿旱闹饔^性,例如喜歡看恐怖片的人可能覺(jué)得這部影片并不恐怖。也就是說(shuō),不同人對(duì)同一圖像的情感反應(yīng)是不同的,即情感評(píng)價(jià)是因人而異的,而且同一個(gè)人在不同時(shí)刻對(duì)同一圖像的情感反應(yīng)也有可能出現(xiàn)不同,即情感評(píng)價(jià)是因時(shí)而異的。因此,課題重點(diǎn)就是需要研究每個(gè)人的真實(shí)情感。
要想解決上述問(wèn)題,就需要為每個(gè)人都建立一個(gè)數(shù)據(jù)庫(kù)。人工標(biāo)記顯然費(fèi)時(shí)、費(fèi)力,不過(guò),把社交媒體中人們對(duì)圖像的評(píng)價(jià)作為對(duì)圖像情感的理解將不失為是一種近便且準(zhǔn)確的方法。同時(shí),還可以進(jìn)一步考慮對(duì)社交媒體中情感的傳播和影響進(jìn)行建模,即人們某時(shí)刻對(duì)圖像情感的理解可能受當(dāng)時(shí)朋友情感的影響。
如果說(shuō)只考慮期望情感將太過(guò)泛化,那么個(gè)性化的情感識(shí)別卻可能過(guò)于特殊,并且為之產(chǎn)生的計(jì)算復(fù)雜度還會(huì)很高。因此,介于期望情感和個(gè)性化情感之間的群體情感就可能會(huì)是一個(gè)合理的適用性解決方案。所謂群體情感,是指具有相同教育背景、生活環(huán)境和社會(huì)文化的人對(duì)同一幅圖像所產(chǎn)生的情感是相似的。
3.3.4 高層語(yǔ)義和情感的理解相互制約
人們產(chǎn)生情感,是由特定的知識(shí)背景與特定的語(yǔ)義所共同決定的。那么,考慮基于語(yǔ)義的圖像情感識(shí)別就應(yīng)該更具備克星的真實(shí)性。但是,對(duì)圖像語(yǔ)義的研究本身即是一個(gè)尚未解決的疑難課題,這將使得運(yùn)用語(yǔ)義進(jìn)行情感識(shí)別還存在很大的困難。如果圖像語(yǔ)義分析技術(shù)達(dá)到了一定的技術(shù)水平后,圖像情感識(shí)別也必將獲得根本性解決。
3.3.5 目前用于情感表_測(cè)試的數(shù)據(jù)庫(kù)規(guī)模很小
現(xiàn)有已公布的圖像情感數(shù)據(jù)庫(kù)規(guī)模很小,大型的僅在2 000左右,小型的僅有200,這也限制了圖像情感表達(dá)的迅速發(fā)展,首要就是無(wú)法運(yùn)用統(tǒng)計(jì)的思想和理論來(lái)發(fā)現(xiàn)其中的一些規(guī)則。而與此同時(shí),社交網(wǎng)絡(luò)即給出了一種可能的應(yīng)對(duì)方案,如何利用社交網(wǎng)絡(luò)上的大規(guī)模數(shù)據(jù)提高圖像情感的識(shí)別率,挖掘圖像情感之間的相互關(guān)系則需要研究學(xué)界的更大關(guān)注與投入。
3.3.6 沒(méi)有適用于圖像情感識(shí)別的理想學(xué)習(xí)策略
語(yǔ)音情感識(shí)別之所以發(fā)展得比較迅速,即是因?yàn)榈玫搅伺c語(yǔ)音表達(dá)的機(jī)制相關(guān)的混合高斯模型和人工神經(jīng)網(wǎng)絡(luò)的有效技術(shù)支撐。但是目前適用于圖像情感識(shí)別的學(xué)習(xí)策略或分類方法卻仍顯匱乏,而這又需要腦科學(xué)和機(jī)器學(xué)習(xí)等交叉領(lǐng)域研究的進(jìn)化、提升與發(fā)展。
4 結(jié)束語(yǔ)
研究圖像情感計(jì)算,實(shí)現(xiàn)對(duì)圖像情感語(yǔ)義的分析對(duì)認(rèn)知心理學(xué)、行為科學(xué)、計(jì)算機(jī)視覺(jué)、多媒體技術(shù)和人工智能領(lǐng)域的理論和技術(shù)發(fā)展均有促進(jìn)作用。在過(guò)去的十幾年內(nèi),已有較多的相關(guān)工作獲得發(fā)表、并進(jìn)入實(shí)踐。但是,圖像情感計(jì)算的研究仍然處在初級(jí)階段,仍有眾多問(wèn)題未獲解決。本文在分析研究現(xiàn)狀的基礎(chǔ)上,總結(jié)出了現(xiàn)有方法存在的問(wèn)題以及可能的解決方案,為后續(xù)研究提供了參考。
參 考 文 獻(xiàn)
[1] Picard R W. Affective computing[M]. London, England: MIT Press, 1997.
[2] PANG B, LEE L. Opinion mining and sentiment analysis[J]. Information Retrieval, 2008, 2 (1/2): 1-135.
[3] YANG Y H, CHEN H H. Machine recognition of music emotion: A review[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3 (3): 40.
[4] RODA A, CANAZZA S, De POLI G. Clustering affective qualities of classical music: beyond the valence-arousal plane[J]. IEEE Transactions on Affective Computing, 2014, 5 (4): 364-376.
[5] ZHAO S, YAO H, WANG F, et al. Emotion based image musicalization[C] //Proceedings of IEEE International Conference on Multimedia and Expo Workshops. Chengdu, China: IEEE, 2014: 1-6.
[6] WANG W, HE Q. A survey on emotional semantic image retrieval[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008:117-120.
[7] JOSHI D, DATTA R, FEDOROVSKAYA E, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28 (5): 94-115.
[8] WANG S, JI Q. Video affective content analysis: a survey of state of the art methods[J]. IEEE Transactions on Affective Computing, 2015, 6 (4): 410-430.
[9] ZHAO S, YAO H, SUN X, et al. Flexible presentation of videos based on affective content analysis[C] //Proceedings of International Conference on Multimedia Modeling. Huangshan, China: Springer, 2013: 368-379.
[10] ZHAO S, YAO H, SUN X, et al. Video Indexing and Recommendation Based on Affective Analysis of Viewers[C] //Proceedings of ACM International Conference on Multimedia. Scottsdale, AZ, USA: ACM, 2011: 1473-1476.
[11] ZHAO S, YAO H, SUN X. Video classification and recommendation based on affective analysis of viewers[J]. Neurocomputing 119: 101-110, 2013.
[12] WANG S, LIU Z, LV S, et al. A natural visible and infrared facial expression database for expression recognition and emotion inference[J]. IEEE Transactions on Multimedia, 2010, 12 (7): 682-691.
[13] LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression[C] //Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. San Francisco, CA, USA: IEEE, 2010: 94-101.
[14] YIN L, WEI X, SUN Y, et al. A 3D facial expression database for facial behavior research[C] //Proceedings of IEEE International Conference on Automatic face and gesture recognition. Southampton, UK: IEEE, 2006: 211-216.
[15] DARWIN C, EKMAN P, PRODGER P. The expression of the emotions in man and animals[M]. New York, USA: Oxford University Press, 1872/1998.
[16] JAMES W. What is an emotion?[J] Mind, 1884(34):188-205.
[17] CANNON W B. The James-Lange theory of emotions: A critical examination and analternative theory[J]. The American Journal of Psychology, 1927, 39 (1/4): 106-124.
[18] LAZARUS R S. Progress on a cognitive-motivational-relational theory of emotion[J]. American psychologist, 1991, 46 (8): 819.
[19] 王志良. 人工情感[M]. 北京: C械工業(yè)出版社, 2009.
[20] 陳俊杰. 圖像情感語(yǔ)義分析技術(shù)[M]. 北京: 電子工業(yè)出版社, 2011.
[21] EKMAN P. An argument for basic emotions[J]. Cognition & emotion, 1992, 6 (3/4): 169-200.
[22] IZARD C E. Basic emotions, relations among emotions, and emotion-cognition relations[J]. Psychology Review, 1992, 99: 561-565.
[23] MIKELS J A, FREDRICKSON B L, LARKIN G R, et al. Emotional category data on images from the International Affective Picture System[J]. Behavior research methods, 2005, 37 (4): 626-630.
[24] PLUTCHIK R. Emotion: A psychoevolutionary synthesis[M]. New York, USA: Harpercollins College Division, 1980.
[25] BENINI S, CANINI L, LEONARDI R. A connotative space for supporting movie affective recommendation[J]. IEEE Transactions on Multimedia, 2011, 13 (6): 1356-1370.
[26] RUSSELL J A, MEHRABIAN A. Evidence for a three-factor theory of emotions[J]. Journal of research in Personality, 1977, 11 (3): 273-294.
[27] SOLLI M, LENZ R. Color based bags-of-emotions[C] //Proceedings of International Conference on Computer Analysis of Images and Patterns. M¨unster, Germany:Springer, 2009: 573-580.
[28] Dietz R, Lang A. Affective agents: Effects of agent affect on arousal, attention, liking and learning[C]//Proceedings of International Cognitive Technology Conference. San Francisco, CA, USA: Springer, 1999.
[29] YANULEVSKAYA V, Van GEMERT J, ROTH K, et al. Emotional valence categorization using holistic image feature[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008: 101-104.
[30] MACHAJDIK J, HANBURY A. Affective image classi?cation using features inspired by psychology and art theory[C] //Proceedings of ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 83-92.
[31] WANG W N, YU Y L, JIANG S M. Image retrieval by emotional semantics: A study of emotional space and feature extraction[C] //Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Taipei, Taiwan: IEEE, 2006: 3534-3539.
[32] LU X, SURYANARAYAN P, ADAMS J R B, et al. On Shape and the Computability of Emotions[C] //Proceedings of ACM International Conference on Multimedia. Nara, Japan: ACM, 2012:229-238.
[33] IRIE G, SATOU T, KOJIMA A, et al. Affective audio-visual words and latent topic driving model for realizing movie affective scene classification[J]. IEEE Transactions on Multimedia, 2010, 12 (6): 523-535.
[34] BORTH D, JI R, CHEN T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C] //Proceedings of ACM International Conference on Multimedia. Barcelona, Spain: ACM, 2013: 223-232.
[35] ZHAO S, GAO Y, JIANG X, et al. Exploring Principles-of-Art Features for Image Emotion Recognition[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 47-56.
[36] WU Q, ZHOU C,WANG C. Content-based affective image classification and retrieval using support vector machines[C] //Proceedings of International Conference on Affective Computing and Intelligent Interaction, Beijing, China: Springer, 2005:239-247.
[37] ZHAO S, YAO H, YANG Y, Zhang Y. Affective Image Retrieval via Multi-Graph Learning[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 1025-1028.
[38] HANJALIC A. Extracting moods from pictures and sounds: Towards truly personalized TV[J]. IEEE Signal Processing Magazine, 2006, 23 (2): 90-100.
[39] HANJALIC A, XU L Q. Affective video content representation and modeling[J]. IEEE Transactions on Multimedia, 2005, 7 (1): 143-154.
[40] ZHAO S, YAO H, JIANG X, et al. Predicting discrete probability distribution of image emotions[C] //Proceedings of IEEE International Conference on Image Processing. Quebec, QC, Canada: IEEE, 2015: 2459-2463.
關(guān)鍵詞:車牌識(shí)別 模板匹配 漢字識(shí)別
1.引言
車輛牌照識(shí)別(LPR)系統(tǒng)作為一個(gè)綜合的計(jì)算機(jī)視覺(jué)系統(tǒng)主要分為車流量、車型檢測(cè)子系統(tǒng)和車輛牌照識(shí)別子系統(tǒng)兩部分,而車牌字符識(shí)別是系統(tǒng)的核心。車輛牌照識(shí)別子系統(tǒng)又可分為車牌定位、車牌字符識(shí)別兩部分。LPR系統(tǒng)主要需要進(jìn)行的是圖像的實(shí)時(shí)采集、處理、分析和識(shí)別,屬于圖像工程的范疇。
現(xiàn)代社會(huì)已進(jìn)入信息時(shí)代,隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,自動(dòng)化的信息處理能力和水平不斷提高,并在人們社會(huì)活動(dòng)和生活的各個(gè)領(lǐng)域得到廣泛應(yīng)用,在這種情況下,作為信息來(lái)源的自動(dòng)檢測(cè)、圖像識(shí)別技術(shù)越來(lái)越受到人們的重視。
2.兩種模板匹配法
2.1 傳統(tǒng)模板匹配法識(shí)別
傳統(tǒng)模板匹配法是實(shí)現(xiàn)離散輸入模式分類的有效途徑之一,其實(shí)質(zhì)是通過(guò)度量輸人模式與模板之間的相似性,取相似性最大的作為輸人模式所屬類別。該方法通過(guò)對(duì)字符的直觀形象進(jìn)行特征抽取,使用相關(guān)匹配原理確定的匹配函數(shù)進(jìn)行判決,也就是通過(guò)一個(gè)分類器將輸入的字符與標(biāo)準(zhǔn)模板字符進(jìn)行匹配。
2.2 改進(jìn)的模板匹配法識(shí)別
傳統(tǒng)模板匹配方法的缺點(diǎn)是抗干擾能力差。模板匹配法根據(jù)建模時(shí)所取特征的不同,分為圖形匹配、筆畫(huà)分析、幾何特征抽取等幾種形式。圖形匹配法在建模和匹配比較時(shí),都是基于字符的圖形塊本身進(jìn)行匹配,并根據(jù)其相似程度得出識(shí)別結(jié)果,本文采用了該方法對(duì)漢字進(jìn)行識(shí)別。
通過(guò)圖形匹配的方法識(shí)別漢字字符的時(shí),首先,要對(duì)輸入的漢字字符進(jìn)行二值化和歸一化處理,若背景用0表示,漢字字符用1表示,對(duì)每一個(gè)漢字字符均建立一個(gè)標(biāo)準(zhǔn)的模板Ti,令待識(shí)別的圖像為Y,它們的大小均為A×B,將Y與每一個(gè)模板進(jìn)行匹配,分別求出它們的相似度Si:
其中,Ti和Y均為像素的二值點(diǎn)陣,Y×Ti表示矩陣和矩陣的點(diǎn)乘,即矩陣中對(duì)應(yīng)位置元素的相乘。觀察上式可以知道,上式即表示標(biāo)準(zhǔn)模板與待識(shí)圖像上對(duì)應(yīng)點(diǎn)均為“1”像素的數(shù)目與標(biāo)準(zhǔn)模板上“1”像素的數(shù)目之比。
在實(shí)際調(diào)查中,我們可以發(fā)現(xiàn),汽車牌照中所使用的漢字字符大概有50多個(gè),那么我們就只需要建立50多個(gè)模板。如果直接對(duì)漢字字符進(jìn)行匹配運(yùn)算,對(duì)每個(gè)漢字的進(jìn)行識(shí)別時(shí),都計(jì)算該漢字與所有模板的相似度,這樣會(huì)導(dǎo)致大量的計(jì)算,從而降低了識(shí)別速度,不僅不能滿足車牌識(shí)別的實(shí)時(shí)性需求,而且由于大量計(jì)算,增加了識(shí)別的錯(cuò)誤率,因此我們通過(guò)先對(duì)漢字的模板進(jìn)行粗分類,也就是根據(jù)車牌中漢字字符的某種特征對(duì)字符模板先進(jìn)行大致的分類,比如可以依照字體結(jié)構(gòu)進(jìn)行分類等。當(dāng)需要識(shí)別的漢字出現(xiàn)時(shí),首先提取出該字符的這種特征,再計(jì)算與各個(gè)組之間的相似度,進(jìn)而在相似度最大的組模板里進(jìn)行特征的匹配,最終得出識(shí)別的結(jié)果。
根據(jù)以上的分析,選取的特征應(yīng)該具有分類效果好、提取比較簡(jiǎn)單、易于識(shí)別的特性,所以我們最后選取了漢字模板圖像的字符區(qū)域密度R和復(fù)雜指數(shù)F來(lái)對(duì)模板進(jìn)行粗分類。
漢字模板圖像的字符區(qū)域密度R指的是在漢字的模板圖像中字符所包含的像素?cái)?shù)和整個(gè)模板包含像素?cái)?shù)的比值,這個(gè)比值能夠比較好的反映字符的基本特征,它的數(shù)學(xué)表達(dá)式如2-2:
復(fù)雜指數(shù)F是字符的統(tǒng)計(jì)特征,它反映的是X方向和Y方向上字符筆畫(huà)的復(fù)雜程度,該特征有一個(gè)突出特點(diǎn)就是它對(duì)字符的位置和大小不是很敏感,魯棒性較好,它的具體計(jì)算公式如2-3:
字符在X與 Y方向上的復(fù)雜指數(shù)Fx和Fy別為:
其中,Lx和Ly別為X方向和Y方向上字符像素的總數(shù),σx和σy分別為X方向和Y方向上質(zhì)心二次矩的平方根,σx和σy的表達(dá)式如2-4:
其中,xc和yc分別為字符質(zhì)心的X和Y方向上的坐標(biāo)。圖2.1為漢字識(shí)別的流程:
我們所使用的匹配判定原則為式(2-1),如果Sx等于Si的最大值,且Sx大于λ,那么認(rèn)為圖像X和模板Tx匹配,否則拒絕識(shí)別,其中λ為拒絕識(shí)別的閾值,通過(guò)多次實(shí)驗(yàn),通過(guò)結(jié)果可以表明λ=0.68時(shí)有較好的識(shí)別效果。
4.總結(jié)
本文廣泛查閱了國(guó)內(nèi)外現(xiàn)有的關(guān)于車牌識(shí)別的文獻(xiàn)后,對(duì)車牌識(shí)別系統(tǒng)中車牌字符識(shí)別的相關(guān)技術(shù)進(jìn)行了綜述。通過(guò)對(duì)傳統(tǒng)模板匹配車牌字符識(shí)別方法進(jìn)行研究,提出了一種改進(jìn)的模板匹配車牌字符識(shí)別方法,解決了傳統(tǒng)模板匹配法識(shí)別的不足,通過(guò)多次實(shí)驗(yàn),表明該改進(jìn)的模板匹配法識(shí)別能夠達(dá)到較好的識(shí)別效果。
參考文獻(xiàn):
[1]張忻中.漢字識(shí)別技術(shù)的新動(dòng)向.第四屆全國(guó)漢字及漢語(yǔ)語(yǔ)音識(shí)別學(xué)術(shù)會(huì)議論文集,杭州,1992.5.
[2]邢向華,顧國(guó)華.基于模板匹配和特征點(diǎn)匹配相結(jié)合的快速車牌識(shí)別方法[J] .光電子技術(shù),2003(12):268-270.
計(jì)算機(jī)技術(shù) 計(jì)算機(jī)維護(hù) 計(jì)算機(jī)安全 計(jì)算機(jī)畢業(yè)論 計(jì)算機(jī)理論 計(jì)算機(jī)軟件 計(jì)算機(jī)英語(yǔ) 計(jì)算機(jī)畢業(yè) 計(jì)算機(jī)網(wǎng)絡(luò) 計(jì)算機(jī)病毒 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀