99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 語音識別技術(shù)

語音識別技術(shù)

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇語音識別技術(shù)范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

語音識別技術(shù)

語音識別技術(shù)范文第1篇

1.概況

語音識別技術(shù)成為21世紀(jì)“數(shù)字時代”的重要開發(fā)領(lǐng)域,在計算機的多媒體技術(shù)應(yīng)用和工業(yè)自動化控制應(yīng)用等方面,成果令人屬目。語音識別技術(shù)是指用電子裝置來識別某些人的某些特征語音,語音識別的手段一般分為二大類,一類利用在計算機上開發(fā)語音識別系統(tǒng),通過編程軟件達(dá)到對語音的識別,另一類采用專門的語音識別芯片來進行簡單的語音識別。利用專門的語音識別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡單、使用方便,并且語音識別器有較高的可靠性、穩(wěn)定性的特點,是簡單語音識別在自動控制應(yīng)用上的一種優(yōu)先方案。

目前上海地鐵

一、

二、

三、

五、

六、八號線在車輛信息顯示系統(tǒng)的設(shè)計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個車門的上方安裝車站站名動態(tài)顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點站,良好的工業(yè)設(shè)計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計以上地鐵列車時,受科技發(fā)展的限制?,F(xiàn)在上海地鐵4號線在車輛信息顯示系統(tǒng)的設(shè)計上滿足了廣大的乘客的需求,

增加了車站站名動態(tài)顯示地圖。

如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對于應(yīng)用在某條線路上的聲音識別系統(tǒng),不僅要修改原語音文件,而且聲音識別器不容易操縱,

對使用者來講仍然存在比較多的問題。對于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機帶來了任務(wù),每站需要手動操作二次,同時顯示的相關(guān)內(nèi)容沒有實時性,總之乘客信息顯示系統(tǒng)比較落后。

設(shè)計一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。

2.設(shè)計

地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計,采用CMOS語音識別大規(guī)模集成電路,識別響應(yīng)時間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。

針對目前上海地鐵列車在車廂內(nèi)外無LED動態(tài)站名顯示而設(shè)計,通過將列車車廂廣播的模擬信號轉(zhuǎn)換成數(shù)字信號,自動控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達(dá)到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國外的地鐵列車上應(yīng)用已相當(dāng)普遍。

語音識別顯示器①的輸入端與車載廣播功放器相連接,實現(xiàn)廣播模擬信號發(fā)出的語音進行車站名的自動識別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計。整個系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。

(1)輸入控制部分:

通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉(zhuǎn)變成數(shù)字方波信號,對語音輸入進行開關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語音字長。

(2)語音識別部分:

利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經(jīng)固化了語音語法技術(shù))對語音的存儲及語音語法算法進行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說明書。

(3)噪音濾波部分:

濾波功能是自動識別(阻擋)我們在設(shè)計階段設(shè)計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。

(4)執(zhí)行顯示部分:

將車廂廣播喇叭的模擬信息通過語音識別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個LED顯示面板,如圖6。

(5)錄音功能部分:

在進行廣播內(nèi)容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進行按動相關(guān)按鈕,選擇地址然后自動錄入內(nèi)容,如圖6。

3.結(jié)論

語音識別器及LED顯示面板的設(shè)計,能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內(nèi)任何電器為特點,僅提供110VDC電源和音頻輸入接口。

本項目的開發(fā)具有一定社會效益,得到國內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。

參考文獻(xiàn):

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成電路實用大全上??萍计占俺霭嫔?/p>

3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎”

4.①編入《中國科技發(fā)展精典文庫》第四輯

語音識別技術(shù)范文第2篇

[關(guān)鍵詞]語音識別系統(tǒng);差異性;指標(biāo)需求

一、引言

語音作為語言的聲學(xué)體現(xiàn),也是人類進行信息交流最自然、和諧的手段。與機械設(shè)各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術(shù),也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

二、語音信號分析與特征提取

1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵聲道便會產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時便會產(chǎn)生湍流,會得到一種相似噪聲的激勵,對應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預(yù)測倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測技術(shù)進而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號通過z進行變換以后再取其對數(shù),求反z變換所得到的譜。線性預(yù)測分析方法其實就是一種譜的估計方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵和信號的譜包絡(luò),對IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。

2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對于聲音頻率高低和聲波實際的頻率高低不是線性的關(guān)系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因為另外的身影的出現(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對頻率群進行劃分會出現(xiàn)許多的很小的部分,每一個部分都會對應(yīng)一個頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進行相應(yīng)的聲學(xué)測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計算過程:

一是對語音信號進行相應(yīng)的預(yù)加重,從而確定了每一幀的語音采樣的長度,語音信號通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個三角形濾波器的兩個底點頻率和相鄰的兩個濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。

語音識別技術(shù)范文第3篇

關(guān)鍵詞:語音識別;HMM;俄語聲學(xué)模型;俄語語言模型

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)29-0155-04

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

(PLA University of Foreign Languages, Luoyang 471003, China)

Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

Key words: speech recognition; hmm;russian acoustic models; russian language models

俄語(Русскийязык)[1]是俄羅斯和聯(lián)合國的官方語言,也是我國少數(shù)民族正式語言。在前蘇聯(lián)和俄羅斯使用,俄語在蘇聯(lián)時期具有很重要的地位,直到現(xiàn)在仍然有些獨聯(lián)體國家在廣泛使用,雖然這些國家已經(jīng)開始強調(diào)本地語言的重要性,但在這些國家之間依然使用俄語進行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國俄羅斯族使用俄語進行交流,聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內(nèi)蒙古呼倫貝爾市的額爾古納、滿洲里等地,

語音識別(Speech Recognition)[2]是指在各種情況下,識別出語音的內(nèi)容,讓機器聽懂人說的話,根據(jù)其信息而執(zhí)行人的不同意圖。它是一門交叉學(xué)科,涉及與計算機、語音語言學(xué)、通信、信號處理、數(shù)理統(tǒng)計、神經(jīng)心理學(xué)人工智能、和神經(jīng)生理學(xué)等學(xué)科。能夠能滿足不同需要的語音識別系統(tǒng)的實現(xiàn)已經(jīng)成為可能,它的前提是模式識別、信號處理技術(shù)、計算機技術(shù)和聲學(xué)技術(shù)等的發(fā)展。近年來,軍事、交通等領(lǐng)域,尤其在計算機、人工智能等領(lǐng)域得到廣泛應(yīng)用。

俄語語音識別是一個有巨大潛力的研究方向,不僅能夠為人們的生產(chǎn)生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經(jīng)濟等各個領(lǐng)域都有著重要的研究價值和應(yīng)用前景。本文著重介紹語音識別發(fā)展歷程、闡述俄語語音識別關(guān)鍵技術(shù)、分析俄語語音識別未來的發(fā)展趨勢。

1 俄語語音識別的現(xiàn)狀

俄語連續(xù)語音識別取得快速發(fā)展,利益于技術(shù)的進步。隨著語音識別在技術(shù)層面的不斷突破與創(chuàng)新,對英語的識別慢慢成熟,然后逐漸擴展到其他語種如漢語、俄語等。

1.1語音識別技術(shù)的發(fā)展

20世紀(jì)50年代,語音識別的研究開始借助機器來實現(xiàn)。1952年,一個特定人獨立數(shù)字識別系統(tǒng)[3]由貝爾(Bell)實驗室的Davis、Diddulph和Balashelk首次研制,該系統(tǒng)成功識別10個英語數(shù)字。1959年,英格蘭的Fry和Denes利用譜分析技術(shù)和模板匹配技術(shù),提高了音素的識別精度,建立了一個能夠識別9個輔音和4個元音的識別系統(tǒng)。20世紀(jì)60年代,經(jīng)過Faut和Stevens的努力,語音生成理論初步形成。動態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出,并實現(xiàn)了對兩段語音進行對齊。70年代取得一系列重大突破,基本實現(xiàn)孤立詞識別。俄羅斯推進了模板匹配思想在語音識別中的應(yīng)用;利用動態(tài)規(guī)劃方法實現(xiàn)語音識別也由日本的科學(xué)家實驗成功。20世紀(jì)80年代,語音識別研究的一個主要特點是由模板匹配方法向統(tǒng)計建模方法的轉(zhuǎn)變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀(jì)80年代中期HMM模型才廣泛被世界各地的語音識別實驗室熟悉和采納。另一個新方向是利用神經(jīng)網(wǎng)絡(luò)解決語音識別問題,促進了該技術(shù)在語音識別領(lǐng)域的應(yīng)用[7-9]。20世紀(jì)80年代后期,在DAPRA的支持下,對大詞匯連續(xù)語音識別系統(tǒng)的研制也取得了顯著的成果,研究機構(gòu)主要有CMU、BBN、林肯實驗室、MIT、AT&T貝爾實驗室。

20世紀(jì)90年代以來,語音識別開始實用化研究,并取得了突破性的進展。其中算法的研究取得了非常明顯的效果,并提升了系統(tǒng)的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗概率準(zhǔn)則估計(MaximumA-Posteriori Estimation, MAP),以及用于模型參數(shù)綁定的決策樹狀態(tài)聚類等算法,這些算法的不斷優(yōu)化,也使得應(yīng)用于實際的語音識別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國國家標(biāo)準(zhǔn)和技術(shù)研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動下,各個研究機構(gòu)不斷嘗試語音識別任務(wù),目的是不斷提高識別的性能。進入21世紀(jì),在向廣度和深度兩方面,自動語音識別得到了更為廣泛的研究。魯棒性語音識別,進行了了細(xì)致的調(diào)研,特別是在置信度和句子確認(rèn)方面非常有效,尤其對處理病句。在21世紀(jì)的前10年,信息技術(shù)領(lǐng)域最重要的十大科技發(fā)展技術(shù)之一就有語音識別技術(shù)的一席之地,人機接口關(guān)鍵的語音識別技術(shù),已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè),它的實用化研究將成為未來的方向。

1.2俄語語音識別技術(shù)的發(fā)展

語音技術(shù)的研究主要集中在幾個主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區(qū)對俄語語音技術(shù)的研究活動正在穩(wěn)步上升。

俄羅斯科學(xué)院緊跟世界語音識別技術(shù)的發(fā)展,結(jié)合俄語自身的獨有發(fā)音特點進行了卓有成效的研究并取得了一系列的成果。在開發(fā)聲學(xué),詞匯和語言模型時采取特別重視俄語的細(xì)節(jié),對于聲學(xué)模型,采用知識和基于統(tǒng)計的方法來創(chuàng)建幾個不同的音素集10。對于語言模型(LM),從不同網(wǎng)站自動收集新聞文本語料,用統(tǒng)計分析的方法將訓(xùn)練文本數(shù)據(jù)和語法相結(jié)合,計算不同情況下n-gram中單詞的頻率,優(yōu)化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識別單元的問題上采用距離最小信息不匹配的原則,建立語素級單元,顯著減少誤差概率[12]。

語料庫是語音識別最基本的支撐,文本語料和口語語料都是一個語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎(chǔ)上進行大詞匯、非特定人連續(xù)俄語語音識別的研究[13]。俄羅斯對語料庫的研究起步比較晚,在20世紀(jì)一直落后于世界語料庫的發(fā)展,缺乏系統(tǒng)的理論研究和先進的實踐成果。但近十年來,隨著俄羅斯國家語料庫建立和不斷完善,俄語語音技術(shù)的研究正在慢慢興起并取得了一些矚目的成就。

國內(nèi)對俄語語音的研究主要集中在教學(xué)方面。使用統(tǒng)計的方法,基于HMM對俄語語音進行建模和識別研究,目前還沒有發(fā)現(xiàn)相關(guān)的文獻(xiàn)記錄。

2 語音識別技術(shù)

語音識別系統(tǒng)根據(jù)角度、范圍、性能等差別,有以下的分類。

根據(jù)詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據(jù)發(fā)音方式可分為孤立詞(isolated word)識別、連接詞(connected word)識別、連續(xù)語音(continuous word)識別等。根據(jù)說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據(jù)語音識別的方法不同進行了模板匹配、隨機模型和概率語法分析等分類方法。

2.1 語音識別基本原理

通過計算機的輔助功能把輸入的語音信號變換為對應(yīng)的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識別技術(shù)研究的根本目的。語音識別系統(tǒng)核心是一套語音取樣、識別、匹配的模式匹配系統(tǒng)[2],基本原理如圖1所示。

語音識別系統(tǒng)由三個基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識別系統(tǒng),但它的結(jié)構(gòu)要比普通的模式識別系統(tǒng)要復(fù)雜,因為語音所包含的信息是復(fù)雜多樣的語言信息,結(jié)構(gòu)也是多變的。首先對輸入的語音信號進行預(yù)處理,預(yù)處理包括適當(dāng)放大信號功率并對增益進行有效控制,之后進行反混疊濾波以消除信號的干擾;然后將模擬信號轉(zhuǎn)化為數(shù)字信號即數(shù)字化處理,便于存儲和處理;然后進行特征提取,并使用一些參數(shù)來表示的語音信號的特性;最后對其進行識別。語音識別又分為兩階段:訓(xùn)練和識別。在訓(xùn)練階段,利用特征參數(shù)表示語音信號的相應(yīng)特征,得到標(biāo)準(zhǔn)數(shù)據(jù)即模板,將模板構(gòu)建成一個數(shù)據(jù)庫即模板庫;在識別階段,將語音特征與模板庫中的每一個模板進行比較,找到了最相似的參考模板,這就是識別的結(jié)果。

2.2 HMM模型技術(shù)

語音識別早期采用的有矢量量化(Vector quantization, VQ)技術(shù)、動態(tài)時間規(guī)整(dynamic time warping, DTW)技術(shù)等,從處理難度上看,最簡單的是小詞匯量、特定人、孤立詞的語音識別,最難解決的是大詞匯量、非特定人、連續(xù)語音識別。當(dāng)今語音識別系統(tǒng)采用的主流算法是HMM模型技術(shù)。

HMM模型的狀態(tài)不能被直接觀察到,但可以通過觀測向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現(xiàn)為各種狀態(tài)的,每個觀測向量都是由一個狀態(tài)序列產(chǎn)生的,這些狀態(tài)序列具有相應(yīng)的概率密度分布。HMM是一個雙重隨機過程:具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機函數(shù)集。HMM的基本問題及解決算法6-9

1)評估問題(前向算法)。

現(xiàn)有觀測序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何計算觀測序列的概率,進一步可對該HMM做出相關(guān)評估。利用forward算法分別以每個HMM產(chǎn)生給定觀測序列O的概率進行計算,然后從其中選出最優(yōu)秀的HMM模型。

經(jīng)典應(yīng)用例子就是語音識別。在HMM的語音識別描述中,每個單詞對應(yīng)一個HMM,每個觀測序列全部由一個單詞的語音來構(gòu)成,單詞的識別可以通過評估而選出最可能的HMM,此HMM由產(chǎn)生觀測序列所代表的讀音實現(xiàn)。

2)解碼問題(Viterbi算法)

現(xiàn)有觀測序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何尋找最優(yōu)的隱含狀態(tài)序列。此類問題比較關(guān)注馬爾科夫模型中的隱含狀態(tài),在這些狀態(tài)中雖然不能直接觀測,但價值更大,可以利用Viterbi算法來解決。

實際例子是進行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個隱式的狀態(tài),而這句話可以被視為一個給定的條件,從而找出基于HMM的可能正確的分割方法。

3)訓(xùn)練問題(Baum-Welch算法即前向后向算法)

此時HMM的模型參數(shù)λ=(π,A,B)未知,對這些參數(shù)進行調(diào)整,使得觀測序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

2.3 大詞匯量連續(xù)語言識別

在語音識別研究中難度和挑戰(zhàn)性最大為課題應(yīng)該是基于大詞匯量的、非特定人的連續(xù)語音識別[13]。在詞匯量大于1000詞的時候,比較容易混淆的詞數(shù)量增加,誤識率約為基于小詞匯量的、特定人的孤立詞識別系統(tǒng)的50倍左右。而且還帶來兩個重要的、不易解決的問題:語流的切分和連續(xù)語音的發(fā)音變化。此時采用統(tǒng)一框架可以有效解決這個問題。大詞匯量連續(xù)語音識別總體框架[14]如圖2所示。

俄語語音信號分析后,形成特征向量,并通過字典識別模型,然后,根據(jù)語言模型的語法,將輸入的語音與模板匹配,在句子層面進行組合。從俄語聲學(xué)模型、俄語語言模型敘述大詞匯量連續(xù)語音識別的過程。

2.3.1聲學(xué)模型

設(shè)計俄語語音識別系統(tǒng)底層相應(yīng)的HMM子詞單元模型,需要充分考慮俄語聲學(xué)和語音學(xué)的特征。俄語基本聲學(xué)單元的選擇是聲學(xué)建模過程中一個基本而重要的問題。在俄語連續(xù)語音識別中,可供選擇的基本單元包括詞、音節(jié)、元輔音等。識別基本單元的選擇一般基于語音學(xué)知識。

俄語字母是語音的書面形式,每個俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個字母如表1所示。

根據(jù)俄語詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征,選擇音素作為子詞單元,然后就可以進行HMM訓(xùn)練,首先用一種很粗糙的方法進行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動收斂到一個最佳的模型,并實現(xiàn)了一個合理的子詞分割。這樣就可以初步完成俄語的聲學(xué)建模,建設(shè)一個俄語語音參考模式庫。

2.3.2 統(tǒng)計語言模型

自然語言處理問題必然要乃至統(tǒng)計語言模型[17],如語音識別、機器翻譯、分詞、詞性標(biāo)注等等。統(tǒng)計語言模型是計算概率的模型,即。使用語言模型,可以確定一個單詞序列的概率,或給定一個單詞的數(shù)目,它可以預(yù)測下一個最有可能的單詞。

那么如何計算一個句子的概率呢?給定句子(詞語序列),它的概率可以表示為:

由于上式中的參數(shù)過多,因此需要近似的計算方法。下面介紹適用于俄語的n-gram統(tǒng)計語言模型。

n-gram模型即n-1階馬爾科夫模型,首先假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個詞相關(guān)。因此(1)式可以近似為:

當(dāng)n值為1、2、3時,n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數(shù)就是條件概率。N取值越大,模型越準(zhǔn)確但計算越復(fù)雜計算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。

2.3.3 連續(xù)語音識別系統(tǒng)的性能評測

評定連續(xù)語音識別系統(tǒng)的優(yōu)劣,觀測系統(tǒng)的性能,一般都是針對不同的識別任務(wù),不同的任務(wù)單詞庫和任務(wù)語句庫,需要不同的評價標(biāo)準(zhǔn)。如果要想粗略地評估某個系統(tǒng),可以從兩個方面去考慮,一是系統(tǒng)識別任務(wù)的難易程度即復(fù)雜性;另一個是采用該系統(tǒng)的識別系統(tǒng)的識別方法對該難度的識別任務(wù)的識別效果即識別率。在連續(xù)語音識別系統(tǒng)中,通過對音素、音節(jié)或詞的識別率進行識別性能評價,常用的系統(tǒng)參數(shù)是正確率(正確率),錯誤率和識別準(zhǔn)確率。

其中的正確數(shù)、轉(zhuǎn)換數(shù)、插入數(shù)和脫落數(shù),采用主觀的方法來目測,馬可以通過統(tǒng)計的方法來得到。

2.4 HTK工具

語音識別過程涉及的算法復(fù)雜,其中最為著名的HTK由劍橋大學(xué)研發(fā),主要用來建立基于HMM的大規(guī)模連續(xù)語音識別系統(tǒng)。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環(huán)境下運行。HTK提供了一系列命令函數(shù)用于語音識別,包括一系列的運行庫和工具,使用基于ASNIC模塊化設(shè)計,可以實現(xiàn)語音錄制、分析、標(biāo)示、HMM的訓(xùn)練、測試和結(jié)果分析。整個HTK的工作過程包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和識別過程。

3 語音識別的應(yīng)用

隨著計算機技術(shù)的進步、算法的不斷優(yōu)化、信息處理技術(shù)的智能化,俄語語音識別技術(shù)的發(fā)展會越來越光明。應(yīng)用的范圍也會越來越廣,可能會出現(xiàn)一些新的應(yīng)用。

1)俄語語音信息檢索

網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,數(shù)據(jù)量急劇增多,如何在海量數(shù)據(jù)中挑選出有用的信息,并進行相應(yīng)的分類和檢索,對合理地利用信息資源具有重要的意義。多媒體檢索技術(shù)應(yīng)運而生。

2)俄語發(fā)音自學(xué)技術(shù)

非母語語言學(xué)習(xí)成為目前教育領(lǐng)域的一個熱點,而自學(xué)是語言學(xué)習(xí)的一個有效途徑,它具有不受時間和空間限制、靈活方便的特點,一種稱為計算機輔助語言學(xué)習(xí)的技術(shù)誕生了。有幾個普通問題和關(guān)鍵技術(shù)是必須要考慮和解決的:標(biāo)準(zhǔn)發(fā)音語料庫和非標(biāo)準(zhǔn)發(fā)音語料庫、學(xué)習(xí)者發(fā)音的分級標(biāo)準(zhǔn)、語音對齊、衡量發(fā)音質(zhì)量的評判標(biāo)準(zhǔn)和發(fā)音矯正。

3)基于俄語語音情感處理

人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號中的情感因素[18],也反映了信息的一個方面。情感的分析和識別也是一個非常困難的研究方向。

4)嵌入式俄語語音識別技術(shù)

后PC時代智能終端的飛速發(fā)展,為人機之間的自然、快捷交互提供了可能。當(dāng)前嵌入式語音識別的應(yīng)用領(lǐng)域還比較有限,未來應(yīng)用可能會更加廣泛。

4 總結(jié)

語音識別技術(shù)的實用研究是一項極具挑戰(zhàn)性的工作,雖然經(jīng)歷了近半個世紀(jì)的發(fā)展,取得了一些突破性的進展。語音識別技術(shù)在俄語方面的應(yīng)用更是如此,不僅要解決語音識別技術(shù)本身的問題,還要解決高質(zhì)量的俄語語音語料庫和文本語料庫的問題,同時還要解決各種算法與俄語適應(yīng)和匹配等其他問題,如俄語自然語言的識別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發(fā)展與科技的不斷進步,相信這些問題會在不久的將來逐一得到解決,展現(xiàn)在人們面前的是更加流暢、更加智能的人機交互界面。

參考文獻(xiàn)

[1] 趙力.語音信號處理 [M].北京:機械工業(yè)出版社,2011:191-215.

[2] 韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2013:241-255.

[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.

語音識別技術(shù)范文第4篇

【關(guān)鍵詞】最佳基;匹配追蹤;HMM;語音識別

1.引言

語音識別的研究工作始于20世紀(jì)50年代,1952年Bell實驗室開發(fā)的Audry系統(tǒng)是第一個可以識別10個英文數(shù)字的語音識別系統(tǒng)。隱馬爾可夫模型是20世紀(jì)70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。目前大多數(shù)連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。[1]

一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。語音識別一個根本的問題是合理的選用特征。特征參數(shù)提取的目的是對語音信號進行分析處理,去掉與語音識別無關(guān)的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時,盡量也包含說話人的個人信息。

而隨著時頻技術(shù)的研究發(fā)展,使人們在進行信號處理時,可以將語音信號分解在一組完備的正交基上。從而,語音信號的能量在分解以后將分散分布在不同的基上。但是,語音信號是一種典型的非平穩(wěn)信號,其性質(zhì)隨時間快速變化,在兩個不同的時間瞬間,在同一個頻率鄰域內(nèi),信號可以有完全不同的能量分布。因此,有必要找到一種精確表示語音信號時頻結(jié)構(gòu),便于特征提取的方法。[2]

立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數(shù),構(gòu)造出局部余弦基,分離不同時間區(qū)間,很適合于逼近語音信號。本文使用這種具有活動窗口特性的局部余弦基表示語音信號。為了減少計算量,并進一步提高局部余弦基原子時頻分布的分辨率,采用匹配追蹤(MP)算法分解信號,并結(jié)合時頻分析技術(shù)得到最優(yōu)局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號精確的時頻結(jié)構(gòu)[3],進行特征提取。此外,結(jié)合語音信號的美爾頻率倒譜系數(shù)(MFCC)一起作為該信號的特征向量,通過隱馬爾科夫(HMM)模型進行識別。實驗證明。這種多參數(shù)語音識別算法提高了識別的準(zhǔn)確度和速度。

2.局部余弦基建模

通過光滑地劃分時間序列為任意長度的子區(qū)間(如圖1),可使每一個時間段分別由重疊正交基表示,而整個時間序列的基函數(shù)又構(gòu)成時頻平面的正交鋪疊,因此局部余弦變換對在不同時間段有不同的波形的語音信號有很強的針對性。

圖1 重疊窗口劃分時間軸

Figure1 lapped window divides time axis

圖1中為重疊窗口函數(shù)[3]:

(1)

式中為單調(diào)遞增的輪廓函數(shù),定義為[3]:

(2)

局部余弦函數(shù)族構(gòu)成了實數(shù)軸上平方可積函數(shù)空間的規(guī)范正交基:

(3)

式中為窗口支集伸縮參數(shù);為第P段時間起點;n()表示正交基序列號。

語音信號可表示為:

(4)

是余弦基原子,。其中是窗口支集邊界參數(shù),為窗口支集伸縮參數(shù),是輪廓函數(shù)的尺度參數(shù),這保證了窗口支集只與相鄰的具有適當(dāng)對稱性的窗口重合,達(dá)到局部余弦基精確覆蓋整個時頻平面的目的。

3.匹配追蹤法選取最佳基

由Mallat和Zhang引入的匹配追蹤算法運用貪婪技巧減少了計算的復(fù)雜性。它從局部余弦基構(gòu)成的冗余字典中一個一個挑選向量,每一步都使信號的逼近更為優(yōu)化。

MP算法將信號分解成一簇時頻原子的線性表達(dá),這些原子選自高冗余度的函數(shù)字典中,且最好地符合內(nèi)在結(jié)構(gòu)。假設(shè)函數(shù)集是Hilbert空間中一個完備字典,滿足,最優(yōu)的M階近似為:

(5)

設(shè)由M個時頻函數(shù)近似的信號與的誤差最小,表達(dá)式如下:

(6)

其中代表所選函數(shù)的索引。

首先按照某個選擇函數(shù)(與的內(nèi)積最大)逐個挑選出時頻函數(shù),分解為:,設(shè)初始輸入信號為初始?xì)埐钚盘?,表示f(t)在方向上近似后的冗余部分。

假設(shè)已有表示經(jīng)過前M-1次迭代后,中未表達(dá)部分:選定為最匹配的時頻函數(shù),按如下公式分解為:

(7)

由于每步中與正交,如果字典是完備的,則迭代收斂于f,滿足:

(8)

這樣,可估算出(4)式中局部余弦基原子的參數(shù)。

文獻(xiàn)[4]中提出,選出最匹配信號的基,對每一個基求出其WVD分布,信號的WVD分布就表示其最優(yōu)基的WVD的線性組合,這樣就消除了交叉項的影響。由此得到的WVD分布:

(9)

是局部余弦基字典中被選中的最優(yōu)基的WVD分布。將等式左邊第二項交叉項組合去除,這樣在時頻面上就得到了干凈的時頻表示:

(10)

在語音信號稀疏分解過程中,每步分解都要從過完備原子庫中選出與待分解語音信號或語音信號分解殘余最為匹配的原子,原子是由參數(shù)公式(4)決定的。因此語音信號稀疏分解所得原子的參數(shù)可作為語音信號的特征。此外,根據(jù)公式(10),使用匹配追蹤法選取的最佳基的WVD分布,含有該語音信號重要且獨特的信息,也可作為該語音信號的特征。

4.基于HMM的語音識別算法

特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩(wěn)性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長1/2。本文為了方便做MP,采用的幀長為512點(32ms),幀移為256點(16ms)。特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。通常的語音識別系統(tǒng)使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數(shù)語音識別算法,在此基礎(chǔ)上增加了原子參數(shù)公式(4)和最佳基的WVD分布公式(10),這兩維特征,構(gòu)成26維特征矢量。對MFCC和語音信號能量的WVD分布分別使用了倒譜均值減CMS(Ceps-trum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性[5]。

在HMM模型中,首先定義了一系列有限的狀態(tài)S1,…,SN,系統(tǒng)在每一個離散時刻n只能處在這些狀態(tài)當(dāng)中的某一個Xn。在時間起點n=0時刻,系統(tǒng)依初始概率矢量π處在某一個狀態(tài)中,即:

(11)

以后的每一個時刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

(12)

且滿足:

(13)

系統(tǒng)在任何時刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個Rq空間隨機觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態(tài):

(14)

因為該系統(tǒng)的狀態(tài)不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡稱HMM。在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數(shù)一般使用混合高斯分布擬合。

(15)

其中,M為使用的混合高斯分布的階數(shù);Cm為各階高斯分布的加權(quán)系數(shù)。此時的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡稱CHMM模型[6]。在本識別系統(tǒng)中,采用孤立詞模型,每個詞條7個狀態(tài),同時包括首尾各一個靜音狀態(tài);每個狀態(tài)使用3階混合高斯分布擬合。

5.仿真實驗

5.1 提取最佳基的WVD分布特征矢量

構(gòu)建局部余弦基字典,使用MP算法選取語音信號“A”的最佳基。如圖2所示。得到的時頻圖既保留了余弦基原子高時頻聚集性的優(yōu)點,又削弱了WVD作為二次型時頻表示所固有的交叉項的影響,得到了干凈的時頻面。其結(jié)果更精確的反映出語音信號在頻率、音強方面的特征,具有良好的時頻聚集性。

圖2 “A“信號的WVD分布

Figure2 WVD of“A”

5.2 孤立詞識別

在語音識別實驗中,采用信號長度為1024的200個實際語音信號樣本,其中100個用于訓(xùn)練,100個用于測試。該實驗用以識別出語音信號”A”。實驗利用WaveCN2.0錄音系統(tǒng)進行樣本采集,采樣率為8kHz。得到語音信號的有效部分后,提取樣本信號的MFCC參數(shù)作為語音信號的特征參數(shù)之一。Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8kHz。MFCC的相關(guān)波形見圖3。

圖3 “A“信號的MFCC波形

Figure3 MFCC Waveform of“A”

然后利用MP算法將樣本信號分解為300個原子,將所得原子的參數(shù)和最佳基的WVD分布,作為該語音信號的特征參數(shù)之二。見圖2。通過HMM進行識別。

在實驗中,設(shè)語音”A”類值為1,其他的語音類值為-1。HMM模型的狀態(tài)數(shù)為7,高斯混合數(shù)為3。由第4節(jié)HMM訓(xùn)練的定義可知,重估過程中的輸出概率是隨著重估次數(shù)的遞增而增加的,圖4列出了“A”模型訓(xùn)練期間重估次數(shù)與總和輸出概率的log值之間的關(guān)系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數(shù)成正比趨勢。

圖4 重估次數(shù)與總和輸出概率

Figure4 Iterations of EM and output like lihood

對語音進行上述HMM訓(xùn)練之后,將其模型參數(shù)存貯,獲得了識別的HMM模型庫。在識別階段,對100個測試用數(shù)據(jù)進行語音識別,以檢驗本文系統(tǒng)的識別效果。如表1所示識別精度為89%,平均識別時間約為1.313秒,實驗結(jié)果表明,系統(tǒng)識別率和運算速度都比較理想。

表1 識別結(jié)果

語音類型 識別次數(shù) 識別結(jié)果 識別精度

A 其它

A 100 92 8 92%

增加了局部余弦基原子的參數(shù)和最佳基的WVD分布作為特征參數(shù),較單純的使用MFCC作為特征參數(shù)進行HMM模型訓(xùn)練,識別率有一定提高,見表2。

表2 結(jié)果比較

特征參數(shù) 識別率%

MFCC、和特征參數(shù) 92

MFCC 89.5

6.結(jié)語

本文在傳統(tǒng)基于HMM模型的語音識別基礎(chǔ)上,通過匹配追蹤算法,提取出最佳基的原子參數(shù)和WVD分布。二者與MFCC一起,作為本文提出的多參數(shù)語音識別算法的特征向量。然后選擇了大量孤立詞樣本進行仿真實驗,針對非特定人孤立詞進行語音識別。結(jié)果表明,基于HMM和匹配追蹤的多參數(shù)語音識別算法,可提高語音識別的速度和準(zhǔn)確度,有一定的實用性。但是,由于算法的復(fù)雜性增加,運算量相應(yīng)增大,簡化算法運算量仍是需要深入研究的課題。

參考文獻(xiàn)

[1]何方偉,青木由直.DP動態(tài)匹配算法實現(xiàn)語音的實時識別[J].數(shù)據(jù)采集與處理,vol.4,no.1,Mar,1989.

[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.

[4]R Gribonval.Fast matching pursuit with a multiscale dictionary of Gaussian Chirps[J].IEEE Trans.Signal Processing,2001,49(5):994-1001.

語音識別技術(shù)范文第5篇

關(guān)鍵詞:爆破;個別飛石;預(yù)防措施

中圖分類號:TU 文獻(xiàn)標(biāo)識碼:A文章編號:16723198(2012)10017502

爆破個別飛石是爆破時從巖體脫離并從表面射出飛越很遠(yuǎn)的部分巖塊。個別飛石是因為炸藥爆炸能破碎土石后,剩余的氣體能量繼續(xù)作用于碎石,使其獲得很大的初速和動能,遇到巖體薄弱面,強大的氣體能量即從該處集中沖出,使碎石以極高的初速向外飛出而形成的。常造成人員傷亡、建筑物及設(shè)備的損壞。

1 個別飛石產(chǎn)生的原因

1.1 勘察環(huán)節(jié)

閔國清、穆大耀、廟延鋼、楊溢等學(xué)者在文獻(xiàn)中認(rèn)為地形測量誤差、地質(zhì)構(gòu)造調(diào)查不詳是飛石產(chǎn)生的重要原因之一。

爆破作業(yè)環(huán)境條件一般比較差,給地形和藥室測量帶來困難,不易測量準(zhǔn)確。測量誤差過大,設(shè)計的最小抵抗線可能會過大或過小。不能正確反映最小抵抗線方向、大小,就給爆破產(chǎn)生個別飛石提供了條件。

爆破是炸藥對被爆客體的作用過程,被爆客體的地質(zhì)條件直接影響爆破效果和爆破安全。地質(zhì)條件主要包括地形、巖性、地層產(chǎn)狀、構(gòu)造、巖石礦物成分、水文地質(zhì)條件等。斷層、褶皺、解理、裂隙、破碎帶、軟弱夾層等對爆破效果和安全影響很大,特別是當(dāng)藥包位于斷層、破碎帶或軟弱夾層附近時最容易產(chǎn)生飛石。

1.2 設(shè)計環(huán)節(jié)原因

爆破參數(shù)選擇和設(shè)計是爆破質(zhì)量好壞的關(guān)鍵,孔位設(shè)計、網(wǎng)路設(shè)計、微差時間、爆破安全設(shè)計參數(shù)不準(zhǔn)等也極為重要;最小抵抗線方向、單位炸藥消耗量、裝藥結(jié)構(gòu)形式、藥室間距和起爆時間間隔、孔位密集系數(shù)確定的不合理,就很可能導(dǎo)致爆破飛石的產(chǎn)生。

1.3 施工環(huán)節(jié)原因

孔位、孔距、孔深、堵塞長度、網(wǎng)路連接、起爆順序、裝藥量、裝藥結(jié)構(gòu)形式等都必須按設(shè)計進行施工,鉆孔偏位、網(wǎng)路連接不當(dāng)、裝藥量控制的不精確都可能引起遠(yuǎn)距離的飛石。

藥室內(nèi)炸藥傳爆能力如果過低,爆破在巖體中未形成鼓包前,炸藥產(chǎn)生的高溫、高壓氣體會直接作用于堵塞物,堵塞物長度未按設(shè)計嚴(yán)格施工而過短的話,就會造成個別飛石大量出現(xiàn)。

2 硐室爆破防止個別飛石措施

2.1 準(zhǔn)確測量

準(zhǔn)確的勘察測量是爆破取得成功的基礎(chǔ)。設(shè)計和施工才有可靠的依據(jù)。測量技術(shù)人員在觀念上必須認(rèn)真重視,態(tài)度上必須一絲不茍,方法上必須講求科學(xué),采用先進合理的測量方案,工作中可以采用多次測量、重復(fù)抽檢測量等方法保證測量的準(zhǔn)確與可靠。設(shè)計人員對測量數(shù)據(jù)結(jié)果應(yīng)該進行必要的復(fù)核檢驗,避免數(shù)據(jù)不準(zhǔn)確而導(dǎo)致設(shè)計上的失誤。此外建立事故責(zé)任倒查追究制度也是不可或缺,它可以督促爆破作業(yè)參與人員繃緊安全這根弦。

2.2 弄清構(gòu)造

勘測資料是爆破初步設(shè)計的依據(jù),認(rèn)真做好地質(zhì)條件的勘察作業(yè),在爆破區(qū)域內(nèi),不僅要仔細(xì)踏勘地表情況還要對特殊區(qū)域進行詳盡的地質(zhì)調(diào)查,開挖導(dǎo)洞、藥室時,對巖土的構(gòu)造要進行調(diào)查,尤其要搞清區(qū)域內(nèi)的墳洞、溶洞、斷層、褶皺、節(jié)理、裂隙、破碎帶、軟弱夾層和不穩(wěn)定巖體的分布、形狀等。

袁政文在文獻(xiàn)中提出了認(rèn)真搞好地質(zhì)勘查,針對地質(zhì)缺陷采取相應(yīng)措施。爆破作業(yè)地處環(huán)境復(fù)雜地域,爆破質(zhì)量要求高的工程,還要弄清爆破區(qū)巖土的巖性、性質(zhì)、成分、地層產(chǎn)狀、構(gòu)造、巖石礦物成分、物理力學(xué)指標(biāo)、水文地質(zhì)條件等情況。導(dǎo)洞開挖以后應(yīng)根據(jù)現(xiàn)場勘察到的地質(zhì)和巖性資料,適當(dāng)修改爆破設(shè)計參數(shù)。如調(diào)整最小抵抗線方向、大小,藥包間距大小對斷層、裂隙、溶洞可將條形藥包改為分集藥包或集中藥包,將薄弱部位裝藥段改為填塞段等辦法來避開薄弱部位。

2.3 正確設(shè)計

爆破設(shè)計是爆破作業(yè)取得成功的關(guān)鍵因素。爆破參數(shù)的選取是設(shè)計的核心。

使用不耦合炸藥,低爆速炸藥,擠壓爆破,毫秒起爆等措施可以起到控制飛石的作用。多排爆破時要選擇合理的延期時間,防止因前排帶炮(后沖),造成后排最小抵抗線大小和方向失控,應(yīng)等到前排藥包起爆形成爆破漏斗后,后排藥包再起爆,以保證最小抵抗線的方向、大小以及藥包的自由面與設(shè)計相符。

萬希嶺、李紅杰、許永勝等人在文獻(xiàn)中認(rèn)為爆破參數(shù)中,最小抵抗線、爆破作用指數(shù)和單耗是產(chǎn)生飛石的主要的影響因素,正確選取這三個參數(shù)不僅能預(yù)防飛石等爆破危害,也會取得理想的爆破效果。

合理確定最小抵抗線是減少飛石飛散距離的關(guān)鍵。最小抵抗線是爆破設(shè)計的重要參數(shù),要通過爆破試驗科學(xué)地確定符合現(xiàn)場地質(zhì)和施工條件的最小抵抗線,才能獲得最優(yōu)的爆破設(shè)計方案,以準(zhǔn)確地進行布孔和裝藥。集中藥包內(nèi)部爆破的個別飛石距離公式:

R=20K?n2?W

式中:R-個別飛石的安全距離,m;n-最大一個裝藥的爆破作用指數(shù);W-最大一個裝藥的最小抵抗線,m;K-安全系數(shù),一般取1.0-1.5。

炸藥消耗量的選取要符合爆破對象的實際要求。查表法、計算法、類比法等都是可以用于選取炸藥單位消耗量的方法。對爆破質(zhì)量要求比較高的爆破,須依據(jù)爆破漏斗試驗選取炸藥單位消耗量,實際使用時依據(jù)被爆巖體地形地質(zhì)、爆破質(zhì)量和環(huán)保要求等情況適度微調(diào)。

確定爆破作用指數(shù)值要依據(jù)爆破目的、拋距、環(huán)境條件、經(jīng)濟效益等因素。爆破作用指數(shù)值過大,易產(chǎn)生飛石且也不經(jīng)濟;爆破作用指數(shù)值過小,易發(fā)生沖炮且爆破的大塊率也較高。

2.4 嚴(yán)格施工

施工環(huán)節(jié)是實現(xiàn)工程爆破的決定性環(huán)節(jié)。再符合實際的設(shè)計,都需要通過施工去實現(xiàn),因此通過提高施工質(zhì)量控制飛石是非常有效也十分可能的途徑。

操作失誤在爆破中應(yīng)該杜絕,加強管理,精心施工,要嚴(yán)格按照《爆破安全規(guī)程》等有關(guān)規(guī)范進行。

藥室、炮孔位置的測量必須驗收合格。

裝藥前應(yīng)認(rèn)真校核各藥包的最小抵抗線,如有變化必須修正裝藥量。要嚴(yán)格保證裝藥質(zhì)量,裝藥量要經(jīng)過專門清點和計量,不能裝多和裝少而要嚴(yán)格依據(jù)設(shè)計方案。

裝藥后的堵塞,控制要嚴(yán)格,杜絕偷工減料。堵塞長度要依據(jù)爆破設(shè)計的要求,精心施工,絕不能圖快而降低堵塞參數(shù)。堵塞要密實,堵塞物中要避免夾雜碎石。堵塞質(zhì)量要經(jīng)過專門檢查和驗收。施工中,對爆破體采取覆蓋或設(shè)置防護,是有效控制飛石的手段。覆蓋爆破區(qū)的材料要便于固定、不易拋散和拆散且能防止細(xì)小碎塊的穿透。

施工時要在最小抵抗線方向創(chuàng)造好自由面,確保最小抵抗線方向和大小符合設(shè)計要求。

如果炸藥爆速高,爆炸產(chǎn)生的瞬間能量就高,相應(yīng)的炸藥利用率就越高。在炸藥單位消耗量較低的情況下,就需要提高炸藥利用率以避免從導(dǎo)洞等薄弱處首先突破,生成飛石。萬希嶺、李紅杰、許永勝等人在文獻(xiàn)中認(rèn)為保證藥室內(nèi)炸藥穩(wěn)定傳爆的措施,除選用質(zhì)量好、爆速高的炸藥外,在施工時還有保證炸藥堆放密度適中;選用防水炸藥或做好防水處理;適當(dāng)增加起爆藥包數(shù)量;用導(dǎo)爆索聯(lián)接藥室內(nèi)同段起爆的藥包,并在導(dǎo)爆索上間隔一定距離捆扎一個質(zhì)量好、爆速高的藥包等措施可以選用。

3 展望

學(xué)者們對于爆破個別飛石危害的論述,可以概括為勘察、設(shè)計和施工三個維度。依托當(dāng)前的爆破理論成果,對爆破飛石危害的治理取得了很大成果。但不時出現(xiàn)的飛石傷亡事故,說明對爆破飛石產(chǎn)生機理的研究仍需隨著爆破理論的發(fā)展而走向深入。尤其要指出的是爆破飛石事故的產(chǎn)生幾乎全部都與人的因素有關(guān),而不僅僅是技術(shù)原因。提高相關(guān)人員的職業(yè)安全責(zé)任意識和安全防護技能,健全制度和安全管理措施,甚屬必要。這方面的研究亟待加強。

參考文獻(xiàn)

[1]王德勝,龔敏.露天礦山臺階中深孔爆破開采技術(shù)[M].北京:冶金工業(yè)出版社,2007.

[2]閔國清,穆大耀,廟延鋼,楊溢.硐室爆破個別飛石產(chǎn)生原因及預(yù)防措施[J].云南冶金,2003,32(3):13.

[3]萬希嶺,李紅杰,許永勝.控制硐室爆破飛石安全問題措施探討[J].爆破,2003,20(4):101103.