前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇神經網絡文本分類范文,相信會為您的寫作帶來幫助,發(fā)現更多的寫作思路和靈感。
法,并介紹了在TMS320C540
>> 一種新的基于改進的ADALINE神經網絡的DTHF解碼器方案 AVS解碼器流水線控制機制的一種改進設計 一種SoC架構的AVS硬件解碼器設計方案 一種基于BP神經網絡整定的PID控制器的算法改進 一種基于改進的BP神經網絡的入侵檢測方法 基于一種改進BP神經網絡算法的教學質量評價研究 一種基于ART2神經網絡的算法改進 一種基于改進BP神經網絡預測T/R組件溫度的方法 一種基于改進神經網絡的高效模糊聚類算法 一種基于模糊神經網絡的印刷品字符識別器 一種基于遺傳神經網絡文本分類器的研究 一種新的基于灰色關聯分析的BP神經網絡剪枝算法 一種新的基于神經網絡的IRT項目參數估計模型 一種基于短語統(tǒng)計機器翻譯的高效柱搜索解碼器 一種基于SOM神經網絡的污水處理工藝方案比選方法 一種基于BP神經網絡的數控機床伺服系統(tǒng)控制器 一種改進的BP神經網絡算法在入侵檢測中的應用 一種改進的BP神經網絡車牌識別算法的研究 一種改進的BP神經網絡算法分析 一種ART2神經網絡的改進算法 常見問題解答 當前所在位置:中國 > 科技 > 一種新的基于改進的ADALINE神經網絡的DTHF解碼器方案 一種新的基于改進的ADALINE神經網絡的DTHF解碼器方案 雜志之家、寫作服務和雜志訂閱支持對公帳戶付款!安全又可靠! document.write("作者:未知 如您是作者,請告知我們")
申明:本網站內容僅用于學術交流,如有侵犯您的權益,請及時告知我們,本站將立即刪除有關內容。 摘 要:本文提出了一種新的基于改進的AD址INE神經網絡DTMF信號檢測算
法,并介紹了在TMS320C5402和TLV320AICl0上采用此算法的DTMF
關鍵詞:模糊神經網絡;蔬菜;病害;診斷
中圖分類號:TP182;S435 文獻標識碼:A 文章編號:0439-8114(2013)17-4224-04
Research on vegetables Disease Diagnosis Model Based on Fuzzy Neural Network
WEI Qing-feng,LUO Chang-shou,CAO Cheng-zhong,GUO Qiang
(Institute of Agriculture Science and Technology Information, Beijing Academy of Agriculture and Forestry Sciences, Beijing, 100097)
Abstract: To explore the effective method for the diagnosis of vegetables diseases, through reasonable division of symptoms, using input vector construction method which contained characteristics of symptoms and membership grade, a vegetables disease diagnosis of fuzzy neural network model was constructed. The experimental results showed that the input vector construction method had effectively expressed the disease diagnosis rule, the model had strong fault tolerant ability, and the average diagnostic accuracy was 85.5%.
Key words: fuzzy neural network; vegetable; disease; diagnosis
收稿日期:2013-01-30
基金項目:國家現代農業(yè)科技城綜合信息“三農”服務平臺建設項目(PT01);北京市自然科學基金項目(9093019);北京農業(yè)科學院信息所
創(chuàng)新基金項目(SJJ201203)
作者簡介:魏清鳳(1983-),女,湖北武漢人,助理研究員,碩士,主要從事農業(yè)信息技術的研究工作,(電話)13439026360(電子信箱)
;通訊作者,羅長壽,副研究員,(電話)010-51503387(電子信箱)。
病害是影響蔬菜優(yōu)質生產的重要制約因素之一。我國農村基層還相對缺乏有經驗的病害診斷專家,對蔬菜病害不能正確判斷,不但延誤了防治最佳時機,還嚴重降低了蔬菜品質。
當前農業(yè)病害診斷技術方法主要有圖像分析診斷[1-4]、專家系統(tǒng)診斷[5-7]以及人工神經網絡診斷[8]等?;趫D像分析的病害診斷方法其圖像的獲取受環(huán)境光照的影響較大,且需要專業(yè)人員在室內進行數據分析和識別,時效性差,無法實時滿足具體生產實踐的要求。基于專家系統(tǒng)的診斷方法,采用 IF-THEN產生式推理,存在診斷知識獲取有瓶頸、推理規(guī)則更新難、容錯能力差、串行搜索運行效率低等不足。近年基于人工神經網絡的方法無需建立推理規(guī)則,具有自學習及并行處理能力,較引人注目,但存在對病害癥狀的典型性、非典型性模糊特點無法區(qū)分度量,樣本診斷規(guī)律學習不充分等問題。模糊神經網絡可以將不確定的癥狀信息通過模糊隸屬集來表示,能解決診斷系統(tǒng)中的不確定性知識表示、并行推理等問題,對具有模糊性復雜性的蔬菜病害診斷非常適用。此文利用模糊系統(tǒng)和神經網絡相結合的方法,在對病害特征模糊量化方法研究的基礎上,建立能夠實際應用的蔬菜病害模糊神經網絡診斷模型,為蔬菜病蟲害防治提供依據。
1 蔬菜病害診斷知識整理
一般研究中,將植株的發(fā)病部位劃分為根、莖、葉、花、果5個部分[9]。由于部分蔬菜病害(如猝倒?。┰诿缙诩幢憩F出典型癥狀,因此,為提高診斷的全面性和準確性,將蔬菜植株發(fā)病表現最終劃分為根、莖蔓、葉、花、果、苗6個部分。表示如下:
S={Si | i=1,2,3,4,5,6}
式中,Si表示根、莖蔓、葉、花、果、苗6個部分中的1個。
以“北京農業(yè)數字資源中心”中蔬菜病害數據庫的知識為基礎,結合文獻資料、植保專家咨詢及案例分析,對病害特征知識根據根、莖蔓、葉、花、果、苗6個部分進行分別提取,建立二維知識表。
2 病害癥狀重要性劃分及隸屬函數
不同癥狀對病害診斷的貢獻程度不同,一些特征明顯的癥狀表現往往是確定某種病害的重要依據。通常用模糊的自然語言來描述癥狀對于病害識別的重要程度,這里將其劃分為典型癥狀、主要癥狀、一般癥狀3個層次(表1)。
將癥狀重要性隸屬函數定義為模糊語言值,根據專家經驗法,確定不同層次的隸屬度如下:
L(Si)=1.0 Si∈a0.7 Si∈b0.4 Si∈c i={1,2,3,4,5,6}
L為Si的隸屬度,a、b、c為癥狀類型。
3 基于術語統(tǒng)一描述的病害癥狀向量構建
一般方法中,直接利用診斷資料的原始文本,以癥狀表現部位為單元賦權值(或隸屬度)作為樣本分量構建輸入向量[10],不僅存在向量攜帶信息量少、向量模長短不一、診斷規(guī)律體現不明顯等問題,還容易產生相同的樣本向量對應不同病害種類的錯誤情況,不能較好地對病害原因進行區(qū)分,這也勢必影響到診斷的準確性。對此,本方法將原始資料的自然語言樣本映射到共同語義空間中,統(tǒng)一利用病狀病癥的相關術語對癥狀資料的原始文本進行描述,并根據術語的定義值以及癥狀重要性隸屬度來確定語義樣本的樣本值,從而構建輸入向量,能有效豐富向量信息承載量,充分表達診斷規(guī)律,具體如下。
3.1 自然語言癥狀的術語映射
本環(huán)節(jié)即是對原始自然語言病害癥狀資料在共同語義空間中利用相關術語進行統(tǒng)一描述。根據植物學知識,感病植株的外觀病態(tài)表現可分為病狀和病征兩大類。共同語義空間的病害癥狀術語如表2所示。
根據病害癥狀表,癥狀的自然語言描述轉化為術語描述。如辣椒枯萎病莖蔓部自然語言癥狀={水浸狀腐爛,后全株枯萎,病部白色霉狀物},經語義空間映射后,S2={濕腐,枯死,霉狀物},其樣本定義值D(S2)為{0,0,2,2,0,1}。
3.2 輸入向量的構建
綜合樣本定義值和癥狀重要性隸屬度,形成具有癥狀特征和癥狀重要性信息的向量。為了降低輸入向量維度,對矩陣中同列均為0值的列進行簡約,形成最終輸入向量矩陣。輸入向量表示為:
Xi={D(S1)×L(S1),D(S2)×L(S2),……,D(Si)×L(Si)}
其中,D(Si)為Si癥狀的樣本定義值,L(Si)為Si癥狀的重要性隸屬度。
4 蔬菜病害診斷模型建立
蔬菜病害診斷神經網絡模型采用模糊BP神經網絡構建(圖1)。模糊系統(tǒng)和神經網絡按串聯方式連接,用模糊系統(tǒng)對原始知識進行前處理,用神經網絡進行病害診斷。
第一層為輸入層,其每一個節(jié)點代表一個輸入變量,它將樣本定義值傳遞到模糊層。
第二層為模糊層,基于癥狀樣本定義值和癥狀隸屬度構建輸入向量。
第三層為隱含層,實現輸入變量模糊值到輸出變量模糊值映射。隱含層節(jié)點數確定方法如下:
l=■+a 0
式中,l為隱含層神經元個數,n為輸入層神經元個數,m為輸出層神經元個數,a為取值0~10之間的常數。
第四層為輸出層,輸出向量采用“n中取1”的二進制編碼法。其中n為編碼長度,即病害總數。每組編碼中僅有1位為1,其余n-1位為0,表示某一種病害。診斷過程中,最大向元值對應著可疑病害。該最大值若接近0, 則表示發(fā)生相對應病害的可能性很??;若接近1,則表明發(fā)生相對應病害的可能性極大。
5 診斷測試分析
以番茄白絹病、番茄猝倒病、番茄根霉果腐病、番茄青枯病等19種病害為例,經上文方法構建20維輸入向量(部分輸入如表3),19維輸出向量(部分輸出向量如表4)。設隱層單元15個,目標誤差0.000 1,循環(huán)1 000次,采用Levenberg-Marquardt 算法進行訓練,并開發(fā)系統(tǒng)界面,對訓練好的模型從診斷容錯性和診斷準確性兩個角度進行分析。
5.1 模型診斷容錯性測試
在實際應用過程中,用戶提供的病害癥狀無法與樣本完全一致,病害典型癥狀被選的可能性最大,但部分主要癥狀和一般癥狀存在A-誤選(提供癥狀與樣本癥狀不一致)、B-多選(提供癥狀多于樣本癥狀)、C-少選(提供癥狀少于樣本癥狀)、A+B-多選及誤選、A+C-少選及誤選的情況,據此選取用戶5組具有代表性測試數據(表5),以番茄潰瘍病為例來檢驗模型的容錯性,輸出結果如表6。
樣本輸出向量中第17位為向元最大值,則表明該輸出結果為番茄潰瘍病。在5組具有代表性的用戶測試數據中,輸出向量的向元最大值始終在第17位,說明診斷模型具有較強的容錯能力。同時,當用戶“誤選”、“多選”,以及“多選+誤選”時,輸出向量第17位向元值分別為0.999 9、0.987 6、0.921 6,接近樣本模擬值1;當用戶“少選”以及“少選+誤選”時,輸出向量第17位向元值分別為0.778 6、0.594 6,較之其他組測試數據,較遠離樣本模擬值1,說明用戶提供的病害癥狀信息越多,進行正確診斷的可能性越大。
5.2 模型診斷準確性測試
將本研究與一般方法中直接利用癥狀權值作為輸入向量的一般神經網絡診斷模型進行準確性比較。測試數據包括兩類,即實驗室根據田間數據資料生成的數據,以及涉農用戶根據實際生產情況進行癥狀選擇操作生成的數據。經植保專家驗證,獲得測試結果平均值見表7。
統(tǒng)計結果顯示,室內室外測試中,基于模糊神經網絡的診斷方法較一般神經網絡在正確率方面均有所提高,說明本研究的思路方案是有效的。其中,實驗室所利用的田間數據資料測試結果好于農戶實際應用。其原因在于,實驗室所使用的田間數據資料較接近文獻資料中的診斷知識,且基于模糊神經網絡的蔬菜病害模型具有較好的容錯性,因此診斷正確率較高。外部基層農戶則完全按照自己在生產中見到的癥狀表現進行選擇操作而形成測試數據,更為真實地反映了模型的實際應用情況。由于實際生產中存在多個病害夾雜同時表現的復雜情況,這一定程度上影響了診斷正確率,因此也說明在該方面努力能進一步提高模型的實用性。
6 小結
利用基于術語統(tǒng)一描述的病害癥狀量化方法,能構建既能描述癥狀特征又能反映癥狀重要性的輸入向量,更能有效地體現病害診斷規(guī)律。經過誤選、多選、少選、多選+誤選、少選+誤選的5組測試中,診斷結果仍然能指向正確的病害,模型容錯推理能力較強。將模糊數學方法引入神經網絡中,結合基于術語統(tǒng)一描述的病害癥狀量化方法,建立基于模糊神經網絡的蔬菜病害診斷模型,較之一般基于神經網絡的病害模型,診斷準確性得到了有效提高。
由于農業(yè)生產中病害作用的復雜性,今后將在多個病害同時作用的診斷方面進一步努力探索,以提高模型的生產實用性。同時,隨著移動網絡技術的迅猛發(fā)展以及移動設備終端的日益普及,將進行蔬菜病害診斷系統(tǒng)的研究,以期為蔬菜病蟲害防治咨詢提供更加便捷、靈活、有效的服務。
參考文獻:
[1] LAI J C, MING B, LI S K, et al. An image-based diagnostic expert system for corn diseases[J]. Agricultural Sciences in China,2010(8):1221-1229.
[2] 李 旺,唐少先.基于圖像處理的農作物病害識別研究現狀[J].湖南農機(學術版),2012,39(1):176-178.
[3] 劉連忠,張 武,朱 誠. 基于改進顏色特征的小麥病害圖像識別技術研究[J]. 安徽農業(yè)科學,2010,40(26):12877-12879.
[4] 鄒修國. 基于計算機視覺的農作物病蟲害識別研究現狀[J]. 計算機系統(tǒng)應用,2011,20(6):238-242.
[5] MANSINGH G, REICHGELT H, BRYSON K O. CPEST: An expert system for the management of pests and diseases in the Jamaican coffee industry[J]. Expert Systems with Applications,2007,32(1):184-192.
[6] 林 瀟,李紹穩(wěn),張友華,等.基于本體的水稻病害診斷專家系統(tǒng)研究[J].數字技術與應用,2010(11):109-111.
[7] GHOSH I, SAMANTA R K. Teapest:An expert system for insect pest management in tea[J].Applied Engineering in Agriculture,2003,19(5):619-625.
[8] 王軍英.基于BP神經網絡的葡萄病害診斷方法研究[J].農業(yè)網絡信息,2010(6):21-23,36.
1、首先打開趣頭條APP,切換到“任務”頁面。
2、然后向下滑動屏幕,即可看到“走路賺金幣”選項。用戶點擊該選項后,頁面就會顯示當天的行走步數。一般情況下,50步數等于1金幣,連續(xù)兌換7天就會有500金幣。
“趣頭條”是一款上?;治幕瘋鞑ビ邢薰鹃_發(fā)的APP。團隊致力通過大數據算法和云計算等技術,為用戶提供內容及服務。趣頭條致力于打造一款新形式的資訊閱讀軟件,以平臺、媒體和共贏的方式。以移動應用為載體進行內容創(chuàng)造、資訊閱讀,提供更多有用、有趣、有益的內容給大家。
[關鍵詞]搜索引擎 主題爬行 爬行策略 爬行算法
[分類號]TP391
搜索引擎技術自誕生之日起就成為互聯網中最吸引人的技術之一,各種商業(yè)化的搜索引擎已經成了人們使用互聯網時不可缺少的工具。傳統(tǒng)搜索引擎的工作原理是服務提供商利用網絡爬蟲(Web crawler,也被稱作網絡蜘蛛(Web spider)或網絡機器人(robot),通過一些種子站點按照深度優(yōu)先或者廣度優(yōu)先的搜索策略對可以爬行到的資源進行掃描、下載,并將下載的信息以快照或全文方式存儲在數據庫中,建立相關索引,當用戶在搜索引擎的用戶界面中輸入搜索關鍵字后,搜索引擎訪問數據庫,返回數據庫中與搜索關鍵字匹配的紀錄。隨著互聯網中網頁資源的快速增長,傳統(tǒng)的搜索引擎在某些方面的缺陷也越來越明顯:①搜索結果不夠全面。傳統(tǒng)搜索引擎希望鏡像整個Web世界,搜索引擎追求的是盡量多的處理及存儲網絡爬蟲爬回的網頁,但不同的搜索引擎由于受到服務器位置、網絡帶寬、爬行算法、服務器容量等因素的影響,服務器中存儲的資源是有限的,任何一個搜索引擎不可能存儲并索引網絡上所有的網頁信息。即使是全球最大的搜索引擎Google,其索引的頁面數量也僅占Web總量的40%左右。②搜索周期增加,影響信息的實效性。隨著Web資源的快速增長,傳統(tǒng)搜索引擎網絡爬蟲的爬行周期不斷增加,數據庫更新時間越來越長。每一個網頁都有自己的生命周期,網頁的更新速度可能會快于搜索引擎數據庫的更新速度,當搜索引擎把數據庫中已經過期的信息反饋給用戶時,用戶可能根本無法打開相關鏈接或者打開的是過期的網頁。③搜索結果的針對性不強。用戶輸入一個關鍵字后返回很多結果,但存在大量重復,很多結果并不是用戶需要的。通過對歐洲和美國9個主要的搜索引擎日志的統(tǒng)計分析,認為用戶對于搜索結果的查看呈減少趨勢。普通用戶僅僅會察看搜索引擎返回的前若干條數據,對于其他搜索結果,很多用戶沒有耐性全部看完。不同專業(yè)背景的人,對于同一個關鍵詞的理解可能大相徑庭,同樣的“蘋果”一詞,有人可能理解成為食品,有人可能理解成為蘋果公司或者其IT產品。
鑒于傳統(tǒng)搜索引擎的這些缺陷,一些學者提出了垂直式搜索引擎的概念,即該搜索引擎不以爬行所有的Web頁面為目標,僅僅在互聯網中快速爬行某一部分Web頁面并存儲,這樣的搜索引擎既可以節(jié)約網絡帶寬資源,又可以縮短搜索引擎數據庫的更新周期,使搜索引擎得到實時性更好的網頁。De Bra等最先提出的主題爬行(topic crawling)搜索引擎通過限定爬行主題,提高了搜索精度,成為垂直式搜索引擎的代表。主題爬行技術的核心是爬行策略與算法,本文從主題爬行技術的基本原理出發(fā),對其策略進行分類,沿著爬行策略及算法的改進,分析了主題爬行策略與算法的研究熱點,為主題爬行技術的進一步研究提供參考。
1 主題爬行原理
主題爬行是在傳統(tǒng)網絡爬行技術基礎上,加入文本分類、聚類以及Web挖掘等相關技術用于捕獲特定主題的Web信息。主題爬行技術的應用可以提高搜索精度,降低搜索引擎對網絡資源的占用,縮短搜索引擎數據庫的更新周期?;谥黝}爬行技術的搜索引擎與傳統(tǒng)搜索引擎最大的區(qū)別在于:該搜索引擎的網絡爬蟲是面向主題的。傳統(tǒng)搜索引擎的網絡爬蟲在爬行過程中采用的是“通吃”策略,不分類別、不分內容全部爬行并下載;基于主題的網絡爬蟲在爬行前或者爬行過程中根據已經爬行的結果有選擇性的進行預測下一步爬行并下載。
主題爬行過程通常由三部分構成:①分類器(clas―sifter),主要對已抓取網頁的元素進行計算,判斷其主題相關度,確定是否對該網頁中所包含的超級鏈接進一步抓取;②提取器(distilIer),該模塊存儲待下載隊列,并確定待下載隊列的優(yōu)先級;③爬行器(crawler),該模塊在分類器和提取器的指導下,執(zhí)行網頁抓取工作。主題爬蟲的爬行過程為爬行器根據不同的爬行策略執(zhí)行爬行操作,抓取網頁送人分類器中,分類器對已經抓取的網頁進行處理,根據設定主題及其域值判斷該網頁的主題相關性,結合其他參數,確定是否對該網頁包含的超級鏈接進一步爬行。如果爬行,則送入提取器中的隊列,由提取器根據隊列規(guī)則確定其爬行優(yōu)先極。Chakrabarti等人 1999年正式提出了個性化主題搜索引擎的概念,該搜索引擎不以傳統(tǒng)的關鍵詞作為搜索內容,而是在某一限定范圍內,通過計算Web頁面內容與主題的相關性,決定主題爬蟲是否值得進一步搜索。其中,主題是由一些范例文檔來確定的,該主題爬蟲實時查找與文檔詞典有相關性的網頁,保證了搜索頁面的時效性與針對性。
2 主題爬行基本爬行策略與算法
主題爬行技術的核心是爬行的策略與算法,由于主題爬蟲與傳統(tǒng)網絡爬蟲在爬行目標上有很大差別,因此,除了采用傳統(tǒng)網絡爬蟲的爬行策略之外,主題爬蟲在爬行過程中還要采用有效爬行策略與算法盡快爬到并抓取與主題相關的網頁。Sotiris Batsakis等人將主題爬行策略分成三類:經典主題爬行策略、改進的主題爬行策略、基于語義的主題爬行策略。經典爬行策略主要指主題爬行的“魚群搜索策略”(fish search),改進的主題爬行策略主要指“鯊魚搜索策略”(sharksearch)、“最優(yōu)最先(best first)搜索策略”等。
魚群搜索策略是以“魚群搜索算法”(fish algo―rithm)為基礎的主題爬行策略,魚群搜索算法是一種基于群體動物行為的智能優(yōu)化算法,該算法模仿魚群在覓食和繁殖時的表現,動態(tài)調整種群的個數。在魚群搜索策略中,每個網頁相當于一條魚,如果遇到滿足給定條件的相關網頁,則該魚繁殖小魚,并對該網頁發(fā)出的鏈接進一步探索;否則食物減少,如果一條魚的食物減為零,則該魚將停止尋食并放棄對該鏈接的爬行。魚群搜索策略中某一超級鏈接是否放人提取器中待下載,取決于該鏈接的父鏈接與主題的相關性。關于待下載鏈接與主題的相關性,De Bra L”提出了通過比較已下載網頁內容與主題關鍵字是否匹配,引入二元分類方法(1代表相關,O代表不相關)來計量相關性。
改進的主題爬行策略是基于魚群搜索策略基礎的改進,Hersoviei M”。提出采用向量空間模型(vectorspace model)來計量相關性,向量空間模型不以整數0、1來計量相關性,而是通過多個參數比較,采用O一1之間的實數來計量。該方法除了用已下載網頁內容和主題關鍵詞是否簡單匹配來判斷相關性,還通過計算
錨文本(anchor)等其他參數與主題的相關性來計量。這種改進的搜索策略比魚群搜索策略在爬行的準確率(precision rate)和召回率(recall rate)上有很大的進步,該搜索策略被稱之為“鯊魚搜索策略”(shark search)。在“鯊魚搜索策略”中,已下載網頁中頁面內容、錨文本內容、鏈接內容(URL)及父頁(指向包含鏈接頁面的Web頁)的相關性等都作為主要參數用來計量待下載網頁與主題的相關性,通過計算確定待下載網頁是否進人提取器隊列中。關于參數向量的選擇,Cho J等提出了重要度向量,該重要度向量由幾個部分構成:①已下載頁面逆文獻頻率法(inverse document frequency,IDF)的關鍵詞相關度;②已下載Web頁的重要鏈接指向個數(backlink count);③已下載頁面指向鏈接的重要度值(pagerank);⑧URL位置矩陣(10cation metrics)等四個參數作為衡量相關性的向量。
隨著研究的不斷深入,“鯊魚搜索策略”也不斷完善,該方法中向量空間模型的參數越多,相關性計量越準確,但參數增加使計算量也隨之增加,因此,過多的參數對爬行速度有一定影響。但Zhumin Chen等”。對各種主題爬蟲的運行時間進行了實驗分析比較,該學者認為,相對于網絡中的下載等待時間來說,相關性計算的時間很少,有時甚至不到下載時間的十分之一,因此頁面相關性的計算對爬行速度的影響是可以忽略的。在“鯊魚搜索策略”的基礎上,Menczer F等提出了“最優(yōu)最先”(best first)搜索策略,這一策略通過計算向量空間的相關性,把相關性“最好”的頁面放入最優(yōu)先下載的隊列,另外,“最優(yōu)最先”搜索策略采用了術語頻度(TF)值計算文本相似度,減少了部分計算量。根據文獻,由于只選擇與主題相關性很大的鏈接,而忽略某些當前相關性不高但下級鏈接中包含很高相關性鏈接的網頁,最優(yōu)最先算法具有很大的貪婪性,該算法只能找到局部范圍內的最優(yōu)解,難以得到全局范圍內的最優(yōu)解。因此,該搜索策略只適用于小范圍內的主題爬行,對于大范圍的主題爬行,容易過早地陷入Web空間中局部最優(yōu)子空間的陷阱。
作為一種有效表現概念層次結構和語義的模型,本體論(ontology)被廣泛地應用到計算機科學的眾多領域。美國斯坦福大學的知識系統(tǒng)實驗室學者TomGruber提出了本體是概念化的顯式表示,Studer在Gruber的基礎上擴展了本體的概念,提出本體是共享概念模型的明確形式化規(guī)范說明。本體具有良好的概念層次結構和對邏輯推理的支持,可以解決信息源之間結構和語義的異構,W3C在2004年提出了Web本體語言(Web ontology language,OWL)的標準?;诒倔w的網絡爬蟲認為概念上使用相似術語的頁面應具有一定的相關性。M.Ehrig等學者將本體應用于主題爬蟲的分離器中,首先通過定義術語的相關性,建立本體術語集合,通過對已下載網頁處理并對本體庫的比較分析,計算其相關性,確定是否將待下載鏈接放入分離器,提高了主題爬行的準確度與召回率。Jason J.Jung提出基于語義主題爬行的開放式決策支持系統(tǒng),該開放系統(tǒng)主要包括基于上下文語義的主題爬蟲通過域內鏈接進行區(qū)域內知識發(fā)現及知識的處理,為開放式決策支持系統(tǒng)迅速提供知識?;谡Z義的主題爬行技術中,本體庫的構建及完善是一項復雜的工作,因此應用范圍有限。
3 爬行策略與爬行算法的改進
雖然魚群搜索策略、鯊魚搜索策略、最優(yōu)最先搜索策略是主題爬蟲常用的搜索策略,但由于互聯網中網站結構的多樣性及復雜性,很多學者在主題爬行算法中嘗試采用其他的搜索算法實現較高準確率與召回率。相繼提出了采用模糊算法、人工神經網絡、遺傳算法、粗集理論等方法指導主題爬蟲的爬行過程。
作為最優(yōu)最先搜索策略的改進,李學勇等采用模擬退火算法作為爬行的啟發(fā)式搜索算法,與爬行中的“隧道技術”結合改進主題爬蟲。模擬退火算法從某一較高初溫出發(fā),伴隨溫度參數的不斷下降,結合概率突跳特性在解空間中隨機尋找目標函數的全局最優(yōu)解。該算法在選擇優(yōu)化解方面具有非貪婪性,在爬蟲搜索過程中,每次除了選擇評價值最優(yōu)的鏈接,還以一定概率有限度地接收評價值次優(yōu)的鏈接,確保有一定價值的鏈接有機會被選中?!八淼兰夹g”使爬蟲有機會穿過相關性低的區(qū)域進入相關性高的區(qū)域,當頁面內容的相關度低于設定的閾值時,通過擴大主題范圍,使更多的相關鏈接加入到鏈接優(yōu)先級隊列,提高相關網頁的召回率。模擬退火算法是一種隨機算法,雖然可以比較快地找到問題的近似最優(yōu)解,但不一定能找到全局的最優(yōu)解。因此,將模擬退火算法應用于最優(yōu)最先搜索策略并不能完全保證主題爬行的魯棒性。
遺傳算法(genetic algorithm)是模擬生物進化論與遺傳學結合的計算模型,在最優(yōu)解搜索領域具有一定優(yōu)勢,自從密西根大學的Holland教授提出該算法后,由于其魯棒性、自組織性強等優(yōu)點,在很多方面有廣泛的應用。Jialun Qin等學者采用遺傳算法實現主題爬蟲在特定域內的爬行,通過初始化、內容分析選擇、鏈接分析雜交、變異等幾個步驟實現主題爬蟲在特定域內的爬行。根據文獻,該算法的應用在某些Web頁的主題爬行中具有較好的準確率與召回率。遺傳算法應用于主題爬行技術中存在編碼方式的確定、適應性函數的確定等問題,由于網站結構、網頁類型的不同需要采取不同的標準。遺傳算法也存在局部最優(yōu)陷阱問題,單純使用遺傳算法進行主題爬行時也會存在無法穿越隧道的問題。
隱馬爾柯夫模型(HMM)作為一種統(tǒng)計分析模型,在信號識別等領域有廣泛的應用,隱馬爾柯夫鏈在相關性評估應用中具有一定優(yōu)勢。Hongyu Liu等提出基于隱馬爾柯夫模型的算法來評估待下載頁面與主題之間的相關性。該系統(tǒng)包括三個步驟:①進行數據收集;②依據相關性模式建模;③根據模型對待下載頁面評估并進行主題爬行。該算法的應用可以提高主題爬蟲在分離器中的處理精度,但由于計算量的增加,會降低處理效率。
人工神經網絡近來日益受到人們的關注,因為它特有的非線性、自適應性、自學習性為解決復雜問題提供了一種相對比較有效的簡單方法。Hai-Tao Zhengr提出采用基于本體的人工神經網絡(ANN)實現自學習爬行,系統(tǒng)框架分為三個步驟:①進行數據準備;②通過現有的數據集對人工神經網絡進行訓l練;③將訓練過的主題爬蟲應用于實際爬行,取得較高的準確率與召回率。人工神經網絡存在訓練時間長、學習算法的通用性低等缺點,所以,將人工神經網絡應用于主題爬行中,也存在樣本學習時間長,學習算法不具有通用性等缺點。因此,人工神經網絡僅僅適用于小范圍的主題爬行。
除以上算法的改進,很多學者還嘗試采用其他計
算方法改善主題爬蟲的搜索性能,Suman Saha等。應用粗集理論對未下載的Web頁面進行預測,判斷其與主題相關性,該方法提高了爬行頁面的準確率,降低了噪聲。Huaxiang Zhang等提出利用Q學習及在線半監(jiān)督學習理論在待訪問的URL列表中選擇與主題最相關的URL,相關值的計算基于模糊理論及Q值理論。
雖然很多學者嘗試通過不同的軟計算方法改進主題爬蟲,但由于互聯網中網站結構與網站內容多樣復雜,這些算法往往應用于某些網站時具有較高的準確率與召回率,但是應用于另一些網站時準確率與召回率會下降。主題爬蟲的準確率與召回率除了受網站結構、主題爬蟲的爬行策略與算法等因素的影響,還受爬行入口位置、Web服務器性能等其他相關因素影響。
4 主題爬行策略與算法的研究熱點
鑒于主題爬行技術的不斷發(fā)展,主題爬行策略及算法也在不斷完善。目前關于主題爬行策略與算法的研究主要集中于以下幾個方面:①爬行策略與爬行算法的通用性研究?;ヂ摼W中不同類型網站的網頁間組織形式相差很大,如何從已經下載的網頁中高效、準確地判斷待下載頁面與主題的相關性,并根據相關性修改下載隊列,是主題爬行技術能否成功的關鍵。目前主要通過修改爬行策略及利用各種軟計算方法來實現,但很多時候對于某些網站具有很高的召回率和準確率的方法,對于另一些網站可能并不適用。主題爬行的準確率與召回率有時候與種子URL的起始位置等其他相關因素有很大關系。②“隧道技術”的研究。很多時候主題爬蟲需要穿過若干個與爬行主題相關性很低的頁面后才會發(fā)現一組與主題相關性很高的頁面群,穿越中間相關性很低的頁面需要隧道技術,如何實現隧道穿越、提高主題爬行準確度是目前很多學者研究的內容。③對于深度Web(deep Web)資源爬行策略的研究。許多深度Web資源存放在數據庫中,這些數據庫的訪問需要用戶名、密碼等信息,目前常采用半人工輔助方法使主題爬蟲訪問數據庫,如何快速、自動地發(fā)現這些數據庫并訪問這些深度Web資源,也是當前主題爬行技術的研究熱點。
關鍵詞:文本分類;遺傳算法;適應度函數
中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2011)22-5425-02
The Technology of Text Classification Based on Genetic Algorithm
WU Mou-shuo
(Compute and Experiment Center, South Central University for Nationality, Wuhan 430074, China)
Abstract: For the puzzle of parameter ascertainment in text classification, this paper proposed genetic algorithm. In the period of encoding, we used float encoding. In the period of population initiation, fitness function and stop criterion, we optimized several parameters and strategies to obtain better result. Experiments of three text classifications showed that our method performed the best.
Key words: text classification; genetic algorithm; fitness function
人們需要從海量信息中快速、準確地獲取有用信息。文本分類在自然語言處理與理解、信息組織與管理、內容信息過濾等領域都有廣泛的應用?,F在主流的文本分類方法是基于機器學習的方法, 此方法首先使用訓練樣本進行特征選擇和分類器訓練, 然后把特征形式化,待分類樣本輸人到分類器進行類別判定, 最終得到輸人樣本的類別。文本分類的方法有很多種,如Rocchio 方法[1] 早就提出了、K-近鄰(K-Nearest Neighbours)方法[2] 早就提出了、貝葉斯(Naive Bayes)方法[3] 早就提出了、而且支持向量機(Support Vector Machine, SVM)算法[4]、還有決策樹(Decision Tree)方法[5]和以及神經網絡(Neural Networks)方法[6]等都已經有了。
文本分類中的許多問題,如果進行適當的轉換,可以看作優(yōu)化問題。本文將遺傳算法引入文本分類的過程中,在種群的初始化、適應度函數和遺傳算法的停止標準等方面進行優(yōu)化,得到更好的文本分類結果。
本文第二部分詳細描述了基于遺傳算法的文本分類技術,第三部分是本文的實驗與結果分析部分,第四部分是結論與將來的工作。
1 基于遺傳算法的文本分類算法
文本特征表示時經常是采用向量空間模型方法來表示文本,對文本的特征進行刻畫。文本特征權重計算的前提是進行文本特征抽取。
相似性的計算公式有相關系數法,還有距離函數法等。本文相似度仍然采用向量夾角余弦公式來計算。具體計算公式如下:
(1)
用遺傳算法進行分類時,要考慮遺傳因子、適應度函數和遺傳算法的停止標準等關鍵因素。
在種群初始化的時候,我們并不采用隨機數生成算法,而是通過隨機選擇樣本點,避免了隨機數生成法必須人為確定隨機數上下限的缺點。
如果類中心已經確定,那類的劃分算法可以采用最鄰近算法進行計算。
我們將遺傳算法的適應度函數定義如下:
(2)
選擇策略對遺傳算法的效果有比較重的影響。第i文本Indi可以按照概率Ps(Indi)選擇出來,這樣可以提高種群的適應度。第i文本Ps(Indi)可以用下面的公式進行計算。
(3)
在遺傳算法中,當文本類別劃分不再發(fā)生變化,或者是迭代次數達到最大值時停止。
2 實驗結果與分析
為了使本文提出的文本分類技術得到的結果具有可比性,本文將Naive Bayes分類方法和支持向量機算法引入,進行對比實驗。
Naive Bayes算法可以說是一種有效的分類方法。假設在某種語境環(huán)境里,文檔之間是相互獨立的。令di為文檔標志,該文檔di包含于文檔類別集合C={c1, c2,…, ck}中間的某一個類別cj里面。根據Naive Bayes算法有下面公式:
(4)
(5)
在這種情況下,需要計算在di已經知道的情況下的條件概率,取最后概率值最大的類別作為di所在的類別,也就是:
(6)
采用多項式模型進行計算,則在文檔類別情況已經知道的情況下文檔di的概率計算公式為:
(7)
但是,上面的概率可能會出現0,所以使用+1平滑技術對其進行處理。
幾種常用的文本分類評價指標包括準確率、召回率、F-measure,用這三個參數對系統(tǒng)進行客觀評測,這三個參數具體含義如下:
準確率的定義。對于一個文檔集i和一個分類j, 假設N為在文檔集i中屬于類別j的數目, M為文檔集i中所有文檔的數目,則準確率P定義為:
P = N/M(8)
召回率的定義。對于一個文檔集i和一個分類j, 假設N為在文檔集i中屬于分類j的數目, K為分類j中所有文檔的數目,則召回率R定義為:
R = N/K(9)
準確率P衡量的是所有被分到類別j的文檔中,正確文檔的比率; 召回率R衡量的是所有實際屬于類別j的文檔被分到該類別中的比率。只用其中之一進行評價可能有失偏頗,F-measure指標是上述召回率和準確率的綜合,能正確反映文本分類在召回率和準確率平衡方面的效果,其具體計算公式可以表達成:
(10)
對于中文語料的實驗,我們從新浪、騰訊等網站上下載了2000個網頁,從中提取出2000篇文檔,根據語料主題分為10類:軍事(200篇) 、體育(200篇) 、政治(200篇) 、環(huán)境(200篇) 、交通(200篇) 、藝術( 200篇) 、醫(yī)藥 (200篇) 、經濟(200篇) 、教育(200篇) 、健康(200篇)。實驗結果如表1所示。
3 結論與將來的工作
文本分類是文本挖掘中的一個重要工具,應用非常廣泛,針對常用的文本分類算法參數難以確定的問題,本文引入遺傳算法,在編碼方案、種群的初始化、適應度函數和停止標準等方面進行優(yōu)化,得到更好的文本分類結果。通過三種文本分類算法的對比實驗,本文提出的算法效果最好。
在下一步的工作中,我們將繼續(xù)研究不同環(huán)境下適應度函數的合適表達方式,同時,進一步研究和分析選擇策略,讓遺傳算法的收斂速度更快,效果更好。
參考文獻:
[1] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization.Proc of ICML'97,1997.
[2] Yang Y.Expert network: Effective and efficient learning from human decisions in text categorization and retrieval.Proc of SIGIR'94,1994:13-22.
[3] Baker L D,Mccallum A K.Distributional clustering of words for text categorization.Proc of SIGIR'98,1998:96-103.
[4] Cortes C,Vapnik V.Sup of event models for naive port vector networks.Machine Learning,1995(20):1-25.
[5] Lewis D D,Ringuette parison of two learning algorithms for text categorization.Proc of SDAIR,1994:81-93.