99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇機(jī)器學(xué)習(xí)范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

機(jī)器學(xué)習(xí)范文第1篇

Phase Transitions in

Machine Learning

2011,416pp

Hardback

ISBN9780521763912

學(xué)習(xí)涉及意識在不同層次上的重要功能,從感官刺激到對高級抽象推理復(fù)雜概念的獲取。盡管對學(xué)習(xí)尚缺精確的定義,但是有一個被廣泛接受的由Langley 提出的定義,它把學(xué)習(xí)看作是一組機(jī)理,通過它們,智能能隨著時間的推移而改善它們的行為。但凡采用了有關(guān)的足夠?qū)挿旱挠^點,這個定義似乎是合理的。機(jī)器學(xué)習(xí)根植于好幾個學(xué)科之中,其中值得一提的是統(tǒng)計學(xué)、模式識別、認(rèn)知科學(xué)及控制理論。機(jī)器學(xué)習(xí)的主要目的是為人類學(xué)習(xí)提供計算模型,支持學(xué)習(xí)的認(rèn)知研究。盡管機(jī)器學(xué)習(xí)具有吸引力,它還是遇到了幾個困難,甚至在今天,仍然阻礙著它的全面利用。主要的障礙在于多數(shù)機(jī)器學(xué)習(xí)算法對計算資源有很高的要求,特別是那些較為接近人類學(xué)習(xí)過程的算法。從上世紀(jì)30年代孕育機(jī)器學(xué)習(xí)的時期起,計算機(jī)科學(xué)這個內(nèi)容豐富而又嚴(yán)格的領(lǐng)域就一直關(guān)注進(jìn)行計算時所需要的時間和存儲器資源。核心問題是,無論采用怎樣的輸入方式,一個給定的算法是否能夠在有限的時間內(nèi)結(jié)束計算。如果能夠的話,在它展現(xiàn)的復(fù)雜類中,所給出的控制變量是多項式的,還是指數(shù)的等等。

1991年,Cheseman等三人發(fā)表的題為《實際的難題在那里?》的論文有如晴天霹靂。他們提出盡管分析最壞情況是重要的,尋求計算的典型復(fù)雜性同樣是必須的。本書內(nèi)容的構(gòu)建就是圍繞著學(xué)習(xí)中的計算復(fù)雜性概念這一核心的。本書把計算機(jī)科學(xué)、統(tǒng)計物理及機(jī)器學(xué)習(xí)的基本觀點編織在一起,向讀者提供了足夠的數(shù)學(xué)和物理背景,使得人工智能以及其他計算機(jī)科學(xué)社團(tuán)的研究人員可以理解這個課題。作者還對公開的研究作了討論,并且對進(jìn)一步研究中有希望的方向給出了他們的建議。

本書共有14章,還有2個附錄。1.緒論,對機(jī)器學(xué)習(xí)、計算復(fù)雜性及二者關(guān)系作了簡介;2.統(tǒng)計物理與相轉(zhuǎn)變;3.可滿足性問題;4.約束滿足問題;5.機(jī)器學(xué)習(xí);6.搜尋假設(shè)空間;7.統(tǒng)計物理與機(jī)器學(xué)習(xí);8.學(xué)習(xí)、可滿足性問題(SAT)及約束滿足問題(CSP);9.FOL覆蓋測試中的相轉(zhuǎn)變;10.相轉(zhuǎn)變與關(guān)系學(xué)習(xí);11.語法推理中的相轉(zhuǎn)變;12.復(fù)雜系統(tǒng)中的相轉(zhuǎn)變;13.自然系統(tǒng)中的相轉(zhuǎn)變;14.討論及公開問題。附錄A 在二個實例證中檢測到的相轉(zhuǎn)變。附錄B 一個引起興趣的觀點。

本書的第一、二位作者均為意大利Piemonte Orientale 大學(xué)計算機(jī)科學(xué)系的教授。第三作者是法國巴黎AgroParisTech工程學(xué)校計算機(jī)科學(xué)系的教授。本書可供人工智能以及其他計算機(jī)科學(xué)專業(yè)的從業(yè)人員閱讀。

胡光華,

退休高工

(原中國科學(xué)院物理學(xué)研究所)

機(jī)器學(xué)習(xí)范文第2篇

關(guān)鍵詞:機(jī)器學(xué)習(xí);計算機(jī)科學(xué);學(xué)習(xí)機(jī)理;策略研究

隨著計算機(jī)技術(shù)的飛速發(fā)展,人們嘗試著使計算機(jī)具有和我們一樣或類似的學(xué)習(xí)能力,從而產(chǎn)生了一個新的研究學(xué)科-機(jī)器學(xué)習(xí)??傮w而言,機(jī)器學(xué)習(xí)是指令計算機(jī)通過對目標(biāo)的識別,利用人類提供的現(xiàn)有知識來獲取新知識和新技能,不斷改善性能,實現(xiàn)自我完善。

1 機(jī)器學(xué)習(xí)發(fā)展史

統(tǒng)計學(xué)習(xí)理論創(chuàng)始人之一的Vapnik將機(jī)器學(xué)習(xí)歸結(jié)為如下四個階段。

1.1 學(xué)習(xí)機(jī)器的產(chǎn)生

第一個學(xué)習(xí)機(jī)器的模型是F.Rosenblatt在1962年提出的感知器。它借鑒了神經(jīng)生理學(xué)領(lǐng)域中感知器的思想,將其模型表示為一個計算程序,并通過簡單的實驗說明了這個模型的結(jié)果可以進(jìn)行推廣和泛化。感知器通過給定的樣本構(gòu)造一條判斷準(zhǔn)則來區(qū)分不同類別的數(shù)據(jù),因此可以用來解決模式識別問題。

1.2 學(xué)習(xí)理論基礎(chǔ)的創(chuàng)立

1968年,Vapnik和Chervonenkis提出VC維和VC熵來解決模式識別問題。利用這些概念學(xué)者發(fā)現(xiàn)了大數(shù)定律和關(guān)于收斂速率的非漸近界。1989年,Vapnik和Chervonenkis提出的經(jīng)驗風(fēng)險最小化原則、正則化理論、解決密度估計問題的非參數(shù)方法,以及算法復(fù)雜度思想,都對學(xué)習(xí)理論的發(fā)展產(chǎn)生了深遠(yuǎn)的影響。

1.3 神經(jīng)網(wǎng)絡(luò)的產(chǎn)生

1986年,LeCun和Rumelhart各自獨立地提出了后向傳播方法。該方法采用連續(xù)的Sigmoid逼近函數(shù)代替了感知器神經(jīng)元中的不連續(xù)符號函數(shù),使人們可用任何基于梯度的方法來逼近預(yù)期函數(shù)。它的出現(xiàn)標(biāo)志著學(xué)習(xí)機(jī)器歷史進(jìn)入了一個新紀(jì)元。

1.4 統(tǒng)計學(xué)習(xí)理論的創(chuàng)立

為了根本解決傳統(tǒng)統(tǒng)計學(xué)理論中過學(xué)習(xí)等弊端,Vapnik于20世紀(jì)60-70年代創(chuàng)立了統(tǒng)計學(xué)習(xí)理論。與傳統(tǒng)統(tǒng)計學(xué)相比,它是一種專門研究有限樣本下機(jī)器學(xué)習(xí)規(guī)律的理論,不僅考慮了對漸近性能的要求,并且追求在有限信息下獲得最優(yōu)結(jié)果,在理論研究和實際應(yīng)用中都取得了良好效果。

2 機(jī)器學(xué)習(xí)策略分類

在眾多機(jī)器學(xué)習(xí)策略中,可從不同角度,根據(jù)不同原則對其進(jìn)行分類。本文按照分類原則提出的先后順序以及所用推理策略的繁簡程度將其分為以下兩大類。

2.1 傳統(tǒng)策略

⑴機(jī)械式學(xué)習(xí)。該方法是一種最簡單、原始,也最基本的學(xué)習(xí)策略。它通過記憶和評價外部環(huán)境所提供的信息達(dá)到學(xué)習(xí)的目的。學(xué)習(xí)系統(tǒng)要做的工作就是把經(jīng)過評價所獲取的知識存儲到知識庫中,求解問題時就從知識庫中檢索出相應(yīng)的知識直接用來求解問題。

⑵指導(dǎo)式學(xué)習(xí)。該方法通過由外部環(huán)境向系統(tǒng)提供一般性的指示或建議,把它們具體地轉(zhuǎn)換為細(xì)節(jié)知識并送入知識庫。在學(xué)習(xí)過程中要反復(fù)對形成的知識進(jìn)行評價,使系統(tǒng)的知識庫不斷完善。

⑶歸納學(xué)習(xí)。該方法應(yīng)用歸納推理進(jìn)行學(xué)習(xí)。歸納推理指從足夠多的事例中歸納出一般性的知識,是一種從個別到一般的推理。常用的方法有枚舉歸納、聯(lián)想歸納、類比歸納、逆推理歸納和消除歸納等。

⑷類比學(xué)習(xí)。類比是人類認(rèn)識世界的一種重要方法,也是誘導(dǎo)人們學(xué)習(xí)新事物、進(jìn)行創(chuàng)造性思維的重要手段。類比學(xué)習(xí)就是通過對相似事物進(jìn)行比較所進(jìn)行的一種學(xué)習(xí)。

⑸基于解釋的學(xué)習(xí)。該方法通過運(yùn)用相關(guān)領(lǐng)域知識,對當(dāng)前提供的實例進(jìn)行分析,從而構(gòu)造解釋并產(chǎn)生相應(yīng)知識。

2.2 現(xiàn)代策略

⑴基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)由神經(jīng)元單元及其間帶權(quán)重的連接組成,每個單元的狀態(tài)由與其相連接其他單元的輸入共同決定。該方法使用樣本來訓(xùn)練網(wǎng)絡(luò),產(chǎn)生網(wǎng)絡(luò)的內(nèi)部表示,并用來識別新樣本。

⑵基于統(tǒng)計學(xué)習(xí)理論的學(xué)習(xí)。Vapnik創(chuàng)立的統(tǒng)計學(xué)習(xí)理論針對有限樣本統(tǒng)計問題建立了一套新的理論體系,不僅考慮了對漸近性能的要求,并且追求在有限的信息條件下獲得最優(yōu)的結(jié)果。其典型代表SVM,具有許多傳統(tǒng)統(tǒng)計學(xué)方法不具備的優(yōu)點。

⑶強(qiáng)化學(xué)習(xí)。該理論是在上世紀(jì)80年代,基于試錯方法、動態(tài)規(guī)劃和瞬時誤差方法形成的。

⑷集成學(xué)習(xí)。該方法集成若干單分類器的分類結(jié)果來綜合決定最終分類,可取得比單分類器更好的性能。其主要方法有Bagging、Boosting、Stacking、樸素貝葉斯集成、決策樹集成、人工神經(jīng)網(wǎng)絡(luò)集成、K-近鄰集成、在線集成等等。

⑸主動學(xué)習(xí)。該方法模擬人的學(xué)習(xí)過程,選擇標(biāo)記部分樣例加入訓(xùn)練集,迭代提高分類器的泛化性能。

[參考文獻(xiàn)]

機(jī)器學(xué)習(xí)范文第3篇

關(guān)鍵詞:機(jī)器學(xué)習(xí)

數(shù)據(jù)挖掘

人工智能

中圖分類號:TP181

文獻(xiàn)標(biāo)識碼:A

文章編號:1002-2422(2010)03-0093-02

1機(jī)器學(xué)習(xí)概述及方法分類

1,1機(jī)器學(xué)習(xí)的概念、應(yīng)用及發(fā)展概況

機(jī)器學(xué)習(xí)是一種使獲取知識自動化的計算方法的學(xué)習(xí)。機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。其應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機(jī)視覺、智能機(jī)器人等領(lǐng)域。

對機(jī)器學(xué)習(xí)的研究大致經(jīng)過以下四個階段:

(1)20世紀(jì)50年代的神經(jīng)模擬和決策理論技術(shù),學(xué)習(xí)系統(tǒng)在運(yùn)行時還很少具有結(jié)構(gòu)或知識。主要方法是建造神經(jīng)網(wǎng)絡(luò)和自組織學(xué)習(xí)系統(tǒng),學(xué)習(xí)表現(xiàn)為閾值邏輯單元傳送信號的反饋調(diào)整。

(2)20世紀(jì)60年代早期開始研究面向概念的學(xué)習(xí),即符號學(xué)習(xí)。使用的工具是語義網(wǎng)絡(luò)或謂詞邏輯,不再是數(shù)值或者統(tǒng)計方法。在概念獲取中,學(xué)習(xí)系統(tǒng)通過分析相關(guān)概念的大量正例和反例來構(gòu)造概念的符號表示。

(3)20世紀(jì)70年代中期,研究活動日趨興旺。1980年在卡內(nèi)基?梅隆大學(xué)召開的第一屆機(jī)器學(xué)習(xí)專題研討會,標(biāo)志著機(jī)器學(xué)習(xí)正式成為人工智能的一個獨立研究領(lǐng)域。

(4)20世紀(jì)80年代中后期至今,機(jī)器學(xué)習(xí)研究進(jìn)入一個新階段,已趨向成熟。神經(jīng)網(wǎng)絡(luò)的復(fù)蘇,帶動著各種非符號學(xué)習(xí)方法與符號學(xué)習(xí)并駕齊驅(qū),并且已超越人工智能研究范圍,進(jìn)入到自動化及模式識別等領(lǐng)域,各種學(xué)習(xí)方法開始繼承,多策略學(xué)習(xí)已經(jīng)使學(xué)習(xí)系統(tǒng)愈具應(yīng)用價值,而運(yùn)用機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用則是最好的例子。

1,2機(jī)器學(xué)習(xí)方法的分類

Bose和Mahapatra歸納了數(shù)據(jù)挖掘中使用的機(jī)器學(xué)習(xí)技術(shù)主要有以下五種:

(1)規(guī)則歸納:規(guī)則歸納從訓(xùn)練集中產(chǎn)生一棵決策樹或一組決策規(guī)則來進(jìn)行分類。決策樹可以轉(zhuǎn)化成一組規(guī)則,分類規(guī)則通常用析取范式表示。規(guī)則歸納主要優(yōu)點是處理大數(shù)據(jù)集的能力強(qiáng),適合分類和預(yù)測型的任務(wù),結(jié)果易于解釋,技術(shù)上易于實施。

(2)神經(jīng)網(wǎng)絡(luò):由類似人腦神經(jīng)元的處理單元組成,輸入節(jié)點通過隱藏節(jié)點與輸出節(jié)點相連接從而組成一個多層網(wǎng)絡(luò)結(jié)構(gòu)。節(jié)點的輸入信號等于所有通過其輸入鏈接到達(dá)此節(jié)點的信號的加權(quán)和。神經(jīng)網(wǎng)絡(luò)由相互連接的輸入層、中間層、輸出層組成。中間層由多個節(jié)點組成,完成大部分網(wǎng)絡(luò)工作。輸出層輸出數(shù)據(jù)分析的執(zhí)行結(jié)果。

神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點是能精確地對復(fù)雜問題進(jìn)行預(yù)測。其缺點是處理大數(shù)據(jù)集時效率較低,用戶在使用這種方法的時候需要具備相當(dāng)?shù)慕⒑瓦\(yùn)行該系統(tǒng)的工具知識。

(3)事例推理:每個事例都由問題描述和問題的解決方法兩部分構(gòu)成。提出問題后,系統(tǒng)會尋找匹配事例和解決方法。其優(yōu)點是能夠較好地處理污染數(shù)據(jù)和缺失數(shù)據(jù),非常適用于有大量事例的領(lǐng)域。

(4)遺傳算法:是一種基于生物進(jìn)化過程的組合優(yōu)化方法。其基本思想是適者生存,基本操作包括繁殖、雜交和變異三個過程。繁殖過程是從一個整體中選擇基于某種特定標(biāo)準(zhǔn)的信息并對要求解的問題編碼,產(chǎn)生初始群體,計算個體的適應(yīng)度。雜交過程是把一個信息的某一部分與另一個信息的相關(guān)的部分進(jìn)行交換。變異過程隨機(jī)改變信息的某一部分以得到一個新的個體。重復(fù)這個操作,直到求得最佳或較佳的個體。遺傳算法的優(yōu)點是能夠較好地處理污染數(shù)據(jù)和缺失數(shù)據(jù),易于和其它系統(tǒng)集成。

(5)歸納性邏輯程序:用一級屬性邏輯來定義、描述概念。首先定義正面和負(fù)面的例子,然后對新例子進(jìn)行等級劃分。這一方法具有較強(qiáng)的概念描述機(jī)制,能較好地表達(dá)復(fù)雜關(guān)系,體現(xiàn)專業(yè)領(lǐng)域知識,因而用該方法得出的模型易于理解。

2數(shù)據(jù)挖掘中機(jī)器學(xué)習(xí)技術(shù)的特性

商業(yè)數(shù)據(jù)庫往往含有噪音,體現(xiàn)在存在錯誤和不一致性。如果數(shù)據(jù)驗證過程不夠充分,則可能允許用戶輸入不正確的數(shù)據(jù),而數(shù)據(jù)遷移也可能產(chǎn)生破壞。

商業(yè)數(shù)據(jù)庫的另一個常見問題是數(shù)據(jù)的缺失,尤其是當(dāng)數(shù)據(jù)來自于不同的數(shù)據(jù)源時。由于數(shù)據(jù)編碼標(biāo)準(zhǔn)和聚集策略的不同,有可能將導(dǎo)致無法對所有的屬性進(jìn)行分析。

另外,在商業(yè)數(shù)據(jù)挖掘中,數(shù)據(jù)集的大小從幾吉到幾兆不等,并往往還有大量的屬性,所以可測量性是數(shù)據(jù)挖掘技術(shù)的一個重要方面。商業(yè)數(shù)據(jù)庫含有多種屬性類型,如果機(jī)器學(xué)習(xí)技術(shù)能夠處理不同的數(shù)據(jù)類型,則將對數(shù)據(jù)挖掘產(chǎn)生更大的作用。

數(shù)據(jù)挖掘技術(shù)的預(yù)測精度是評價挖掘效果的一個非常重要的因素。遵循監(jiān)督學(xué)習(xí)過程的機(jī)器學(xué)習(xí)系統(tǒng)首先被訓(xùn)練,但是系統(tǒng)對真實數(shù)據(jù)的預(yù)測精度往往低于對訓(xùn)練數(shù)據(jù)的預(yù)測精度。所以,能對真實數(shù)據(jù)得到較高的預(yù)測精度顯然是一個所需的特性。

結(jié)果的可解釋性是另一個重要的所需特性。在商業(yè)數(shù)據(jù)挖掘應(yīng)用中往往需要使用不同的DSS或DBMS,所以與其他信息系統(tǒng)的易整合性也是一個需要的特性。不同的機(jī)器學(xué)習(xí)技術(shù)需要終端用戶具有一定程度的工具知識和領(lǐng)域知識,一些技術(shù)還需要對數(shù)據(jù)進(jìn)行大量的預(yù)處理工作,因此對于終端用戶來說,易于理解和需要較少預(yù)處理工作的機(jī)器學(xué)習(xí)技術(shù)是比較好的。

3機(jī)器學(xué)習(xí)方法與數(shù)據(jù)挖掘任務(wù)類型

Bose和Mahapatra把運(yùn)用于數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)方法在商業(yè)應(yīng)用時的任務(wù)類型可以歸結(jié)為如下;

(1)分類:利用一個訓(xùn)練集來確定最大可區(qū)分屬性,當(dāng)分類確定好之后,新的實例可以通過分析進(jìn)行合適的分類。

(2)預(yù)測:根據(jù)已觀測到的數(shù)據(jù)來找出可能的將來值和/或?qū)傩缘姆植?。主要的任?wù)之一是確定對要預(yù)測的屬性影響最大的屬性。

(3)關(guān)聯(lián):在尋找實體之間或者實體屬性之間的潛在聯(lián)系規(guī)律的關(guān)聯(lián)分析當(dāng)中,最常見的就是市場菜籃子分析。

(4)偵察:偵察的目的在于尋找異常的現(xiàn)象、離群數(shù)據(jù)、異常模式等等,并且給出支持決策的解釋。

機(jī)器學(xué)習(xí)方法及其所對應(yīng)解決的數(shù)據(jù)挖掘中的任務(wù)類型總結(jié)如表1所示。

機(jī)器學(xué)習(xí)范文第4篇

近期,印第安納大學(xué)與普渡大學(xué)印第安納波利斯聯(lián)合分校的研究人員開發(fā)了一種機(jī)器學(xué)習(xí)算法,可以90%預(yù)測急性骨髓性白血?。ˋML)的復(fù)發(fā),以及100%準(zhǔn)確預(yù)測緩解,當(dāng)患者在初診時,白血病細(xì)胞為1012,經(jīng)過導(dǎo)入療法的化學(xué)治療以后,白血病細(xì)胞減少到大約109以下時,就不能再從血液和骨髓中發(fā)現(xiàn)白血病細(xì)胞,這時候,病人即可以達(dá)到完全緩解的程度。這項小型研究凸顯了機(jī)器學(xué)習(xí)具備取代傳統(tǒng)診斷方法的潛力,研究者使用的是來自AML患者的骨髓細(xì)胞、病史數(shù)據(jù)以及其他健康個體的信息。

傳統(tǒng)診斷方式主要是手動分析來自流式細(xì)胞術(shù)(流式細(xì)胞術(shù)是對懸液中的單細(xì)胞或其他生物粒子,通過檢測標(biāo)記的熒光信號,實現(xiàn)高速、逐一的細(xì)胞定量分析和分選的技術(shù))的數(shù)據(jù),而機(jī)器學(xué)習(xí)方法體現(xiàn)了它的高準(zhǔn)確率和及時性。

普渡大學(xué)生物科學(xué)中心計算生物學(xué)研究助理教授Bindley Bartek Rajwa解釋,他的計算系統(tǒng)采用流式細(xì)胞術(shù)的數(shù)據(jù)作為輸入。流式細(xì)胞術(shù)是一種廣泛使用的技術(shù),可以快速地提供樣本中單個細(xì)胞的特性,如血液或骨髓細(xì)胞。

Rajwa是該研究的第一作者,該論文已經(jīng)被IEEE 生物醫(yī)學(xué)工程學(xué)期刊收錄。

“魍車牧魘較赴術(shù)的結(jié)果是由受過高度培訓(xùn)的人類專家評估,而不是機(jī)器學(xué)習(xí)算法,”他補(bǔ)充說,“但是計算機(jī)通常比人類更擅長從復(fù)雜數(shù)據(jù)中提取知識?!?/p>

斯坦福大學(xué)醫(yī)學(xué)院教授和遺傳學(xué)教授Michael Snyder博士,同意計算機(jī)在復(fù)雜癌癥病例診斷中是關(guān)鍵的輔助工具,也許最終會取代人類醫(yī)生。

在8月份的時候,他使用機(jī)器學(xué)習(xí)來區(qū)分不同類型的肺癌,他認(rèn)為病理學(xué)的觀點非常主觀,“兩個高度熟練的病理學(xué)家評估同一張幻燈片時,只有60%的部分是共同認(rèn)可的。使用機(jī)器學(xué)習(xí)的方法,可以用復(fù)雜、定量的測量結(jié)果來取代主觀性,我們認(rèn)為很有希望改善患者的診斷結(jié)果。

機(jī)器學(xué)習(xí)正在迅速地成為許多疾病類別預(yù)測分析和診斷的流行工具,包括膿毒癥、創(chuàng)傷護(hù)理、心臟病、人群健康管理、視力保健和精神衛(wèi)生保健。

2015年,來自哥倫比亞大學(xué),布宜諾斯艾利斯大學(xué)和IBM計算生物學(xué)中心的一項研究也使用機(jī)器學(xué)習(xí)實現(xiàn)準(zhǔn)確無誤的預(yù)測診斷記錄,他們使用自然語言處理技術(shù)來標(biāo)記可能進(jìn)入精神病發(fā)作的心理健康患者。

隨著開發(fā)人員和研究人員改進(jìn)他們的機(jī)器學(xué)習(xí)方法,以及供應(yīng)商更多工具,從事高級分析的機(jī)構(gòu)可以訪問龐大的計算能力,診斷準(zhǔn)確率會普遍得到顯著提升。

印第安納大學(xué)與普渡大學(xué)印第安納波利斯聯(lián)合分校的病毒進(jìn)展研究的高級作者、計算機(jī)副教授Murat Dundar表示,教會計算機(jī)識別AML是非常簡單的,一旦你開發(fā)了一個強(qiáng)大的魯棒算法,能將以前的工作提升到接近100%的準(zhǔn)確率。

“有挑戰(zhàn)性的是如何超越確診AML工作本身。我們要讓計算機(jī)準(zhǔn)確地預(yù)測AML患者的疾病變化方向,從新的數(shù)據(jù)中理解并預(yù)測未知走向,知道哪些新的AML患者將進(jìn)入緩解狀態(tài),哪些會進(jìn)入復(fù)發(fā)狀態(tài)。

機(jī)器學(xué)習(xí)范文第5篇

作者簡介:靳雪茹(1986-),女,河北邢臺人,碩士研究生,主要研究方向:分類法映射; 齊建東(1976-),男,內(nèi)蒙古赤峰人,副教授,博士,主要研究方向:計算機(jī)網(wǎng)絡(luò)、智能信息處理; 王立臣(1982-),男,吉林敦化人, 碩士研究生, 主要研究方向:虛擬現(xiàn)實、智能信息處理; 周林志(1984-),男,浙江臺州人,碩士研究生,主要研究生方向:計算機(jī)網(wǎng)絡(luò)、智能信息處理。

文章編號:1001-9081(2011)07-1781-04doi:10.3724/SP.J.1087.2011.01781

(1.北京林業(yè)大學(xué) 信息學(xué)院,北京 100083; 2.北京信息科技大學(xué) 自動化學(xué)院,北京 100192;

3.北京航空航天大學(xué) 網(wǎng)絡(luò)信息與計算中心,北京 100191)

()

摘 要:專利和期刊隸屬于不同的知識組織體系,要實現(xiàn)專利與期刊文獻(xiàn)的交叉瀏覽和檢索必須解決兩種分類法(中國圖書館分類法(CLC)和國際專利分類法(IPC))之間的映射問題。在調(diào)研現(xiàn)有分類法類目映射方法的基礎(chǔ)上,討論了基于機(jī)器學(xué)習(xí)實現(xiàn)中國圖書館分類法和國際專利分類法之間類目映射的方法。通過對中圖法某個類目標(biāo)識的語料進(jìn)行訓(xùn)練得到該類目的分類器,然后用其對國際專利分類法標(biāo)識的語料進(jìn)行分類,對分類結(jié)果進(jìn)行分析得出類目間的映射關(guān)系。對比實驗證明了該方法的有效性。

關(guān)鍵詞:類目映射; 國際專利分類法; 中國圖書館分類法; 樸素貝葉斯方法; 決策樹

中圖分類號:TP181;TP391文獻(xiàn)標(biāo)志碼:A

Approach of classification mapping between international patent

classification and chinese library classification based on machine learning

JIN Xue-ru1,QI Jian-dong1,WANG Li-chen2,ZHOU Lin-zhi3

(1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China;

2. School of Automation,Beijing Information Science and Technology University,Beijing 100192,China;

3. Network Center,Beihang University,Beijing 100191,China)

Abstract: Patents and journals belong to different knowledge organization systems. To achieve the cross-browsing and cross-retrieval between journal literature and patents,the mapping problem between two classifications Chinese Library Classification (CLC) and International Patent Classification (IPC), must be addressed. According to the survey of the existing methods of classification mapping, this paper discussed a method to achieve the mapping between CLC and IPC based on machine learning. The learner was got by training the corpus identified by the CLC category, with which to classify the corpus identified by the IPC category. The mapping relations can be found after analyzing the classification results. And the comparison experiment proves the effectiveness of this method.

Key words: classification mapping; International Patent Classification (IPC); Chinese Library Classification(CLC); Nave Bayes (NB) method; decision tree

0 引言

互聯(lián)網(wǎng)的迅猛發(fā)展,信息化的不斷推進(jìn)使得文獻(xiàn)信息處理網(wǎng)絡(luò)化、全球化已成為潮流,這為文獻(xiàn)資源的共享創(chuàng)造了條件;與此同時,由于文獻(xiàn)資源加工、處理方法及檢索語言的多種多樣,又為文獻(xiàn)資源的共享帶來了障礙。交叉瀏覽是指用戶可以通過一種知識組織體系,可以瀏覽另一種體系中的信息,可以將不同體系中相同或相似的信息以某種方式呈現(xiàn)給用戶,為用戶提供一個集成式的服務(wù),實現(xiàn)不同知識組織體系間的互操作。

專利反映了解最新科研動態(tài)、研究課題開發(fā)現(xiàn)狀、技術(shù)水平和法律狀態(tài)。而期刊文獻(xiàn)作為信息傳遞和交換的產(chǎn)物,是科研信息的重要來源。在專利信息越來越受關(guān)注的今天,實現(xiàn)專利與期刊文獻(xiàn)的互操作以獲取更加準(zhǔn)確、詳細(xì)、全面的信息具有重要的意義。專利文獻(xiàn)和期刊文獻(xiàn)是按照不同的組織方式進(jìn)行組織管理的,其中國際專利分類法(International Patent Classification,IPC)是一種國際通用的管理和使用專利文獻(xiàn)的工具,而中文期刊庫以及其他中文文獻(xiàn)信息則更普遍地使用中國圖書館分類法(Chinese Library Classification,CLC)。通過找到IPC與CLC類目間的映射關(guān)系可以實現(xiàn)這兩種分類體系之間的互操作。

國內(nèi)外信息領(lǐng)域都已經(jīng)致力于不同知識組織系統(tǒng)間的互操作研究,并取得一定的研究成果。例如,英國高層敘詞表項目(High-Level Thesaurus Project,HILT),歐盟Renardus項目,我國山西省圖書館等聯(lián)合研制了“計算機(jī)文獻(xiàn)標(biāo)引對照系統(tǒng)”,由戴劍波、侯漢清研制的CLC4和DDC21自動映射系統(tǒng)等[1]。另外,國家“十一五” 科技支持計劃項目研究的知識組織系統(tǒng)是由多個領(lǐng)域詞表構(gòu)成的,每個詞表包含了該領(lǐng)域的詞匯,并且定義、規(guī)范了詞匯間的各種語義關(guān)系,是該實驗以及其他自然語言處理過程中的重要支撐工具。目前,有關(guān)分類法映射的研究中采用的方法主要有以下幾種:

1)基于同現(xiàn)統(tǒng)計[2]。

分類法的實質(zhì)是一系列文獻(xiàn)情報內(nèi)容概念及其相關(guān)關(guān)系的號碼標(biāo)識系統(tǒng),可以用不同分類法的分類號來標(biāo)識同一文獻(xiàn);反之,標(biāo)識同一文獻(xiàn)或圖書的不同分類號之間必定具有一定的關(guān)聯(lián),所以可以基于不同分類法的同現(xiàn)信息來確定類目之間的映射關(guān)系。

2)基于類目相似度[2-3]。

體系分類法一般是通過類目名稱、注釋、上下位類等來表達(dá)各種復(fù)雜概念,在進(jìn)行類目映射時,不僅要考慮類目的表達(dá)形式,還要考慮類目所表達(dá)的概念在外延和內(nèi)涵上的相符程度。通過選擇類目對應(yīng)的類名詞、注釋詞及其上下位類名詞等詞匯作為類目概念詞并進(jìn)行相似度計算,可以確定類目之間的映射關(guān)系。

3)交叉瀏覽[4]。

通過使用一種分類法在一個使用另外一種分類法來組織的語料庫中進(jìn)行檢索,通過對檢索結(jié)果的分析從而建立這兩種分類法之間的映射。

以上三種方法是當(dāng)前分類法類目映射中常用的方法。從其他角度考慮,類目映射的問題實質(zhì)上就是分類的問題[5-6],即能否將兩個類目看做是“同類”的,由此本文提出了基于機(jī)器學(xué)習(xí)中分類算法的類目映射方法。

1 基于機(jī)器學(xué)習(xí)的映射方法

本文提出的基于機(jī)器學(xué)習(xí)的類目映射方法的基本原理是:類目映射可以看做是一個分類的問題,將其中一個分類法(以下稱為“源分類法”)中某個類目(如類目A)標(biāo)識的語料信息作為訓(xùn)練集,訓(xùn)練得到該類目的分類器(如LearnersA),然后用該分類器測試由另一分類法(以下稱為“目標(biāo)分類法”)的類目(如類目Ⅰ)標(biāo)識的語料是否可以歸類到類目A。如果可以,則表明類目A與類目Ⅰ之間存在一定的映射關(guān)系。

圖1 基于機(jī)器學(xué)習(xí)的映射過程

本方法對文檔的標(biāo)題和內(nèi)容分開進(jìn)行處理,首先經(jīng)過預(yù)處理得到文本標(biāo)題和內(nèi)容向量集合,然后由訓(xùn)練得到的標(biāo)題和內(nèi)容分類器對目標(biāo)分類法的文檔(與訓(xùn)練集同一維度空間的向量集合)進(jìn)行分類,最后分析分類結(jié)果得到目標(biāo)分類法的哪些類目可以與源分類法的類目進(jìn)行映射。

1.1 預(yù)處理

由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可由計算機(jī)處理的結(jié)構(gòu)化形式。

1.1.1分詞

詞條是信息表達(dá)的最小單位,是自然語言中重要的知識載體與基本操作單元。所有涉及中文內(nèi)容處理的系統(tǒng),如果沒有一個好的中文詞法分析系統(tǒng)支持,正確率都會受很大影響。本實驗使用中國科學(xué)院計算技術(shù)研究所研制的開源ICTCLAS[7]系統(tǒng)的Java版本ictclas4j來完成文本分詞。

1.1.2 提取特征詞

對文本分詞以后,進(jìn)一步使用中國科學(xué)技術(shù)信息研究所建設(shè)的“汽車領(lǐng)域主題詞”作為詞典篩選出關(guān)鍵詞語,將文本中承載的與分類無關(guān)或關(guān)聯(lián)較少的信息,如停用詞、數(shù)字、標(biāo)點符號等都過濾掉,可以提高特征詞的質(zhì)量、計算的效率和分類的準(zhǔn)確度。

1.2 特征選擇

目前人們通常采用向量空間模型來描述文本信息,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的詞匯來表示文本向量中的各個維,那么這個特征空間的維數(shù)將高達(dá)幾萬,甚至更高。這不僅會降低分類效率也會降低分類精度,因此需要從原始特征空間中選出部分特征,來降低原始特征空間的維數(shù),也就是特征選擇的過程。

特征選擇的常用標(biāo)準(zhǔn)有文本頻度(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Information,MI)、CHI統(tǒng)計及TFIDF(Term Frequency Inverse Document Frequency)等[8]。其中,TFIDF是一種權(quán)重計算方法,因其算法簡單并且準(zhǔn)確率較高,文本分類的特征選擇也常常基于此算法完成。但此算法只反映特征與頁面間的關(guān)系,具有一定的局限性,而MI標(biāo)準(zhǔn)反映了特征與類別間的關(guān)系,在一定程度上彌補(bǔ)了TFIDF的不足,因此本實驗將采用TFIDF和MI兩種標(biāo)準(zhǔn)進(jìn)行特征詞選取。

1)TFIDF標(biāo)準(zhǔn)。

TFIDF用特征的TF×IDF值來評估一個特征。TF指特征頻度,TF值表示一個特征和某個文檔的相關(guān)性,反映了該特征相對于這個頁面的重要程度,默認(rèn)為出現(xiàn)的次數(shù)越多越重要。IDF 因子表示逆文檔頻度,即包含某特征的文檔越多,則該特征越不重要。TFIDF計算公式如下:

TFIDF(termi,documentj)TF(termi,documentj)×

IDF(termi)TF(termi,documentj)×lg(1)

其中,TF(termi,documentj)定義為特征termi在文檔documentj中出現(xiàn)的次數(shù)(1≤i≤|V|, 1≤j≤N,V為所有訓(xùn)練文檔中的特征構(gòu)成的集合,N 為訓(xùn)練文檔總數(shù))。IDF(termi)定義為lg,DF(termi)為含有特征termi的文檔數(shù)。

2)MI標(biāo)準(zhǔn)。

互信息在統(tǒng)計語言模型中被廣泛應(yīng)用,它可以度量特征詞和類別的共現(xiàn)關(guān)系,反映了特征和類別之間的關(guān)聯(lián)程度,MI值為0就代表特征的分布和類別無關(guān)。MI計算公式如下:

MI(term,class)lb

lb(2)

其中:P(term,class)表示特征term在類別class中出現(xiàn)的概率,P(term)表示特征term在整個訓(xùn)練集中出現(xiàn)的概率。

本實驗采用以上兩種標(biāo)準(zhǔn)來對特征詞進(jìn)行選擇。首先,計算每個文檔中所有詞條的TFIDF值以及這些詞條與當(dāng)前類別的MI值,然后選取MI值大于0且TFIDF值大于設(shè)定閾值的詞條作為最終的特征詞將該文檔表示為一個向量。

1.3 訓(xùn)練分類器

用語料信息訓(xùn)練源分類法某個類目的分類器時,選擇由該類目標(biāo)識的文檔作為訓(xùn)練集的正面樣本,其他類目標(biāo)識的文檔作為負(fù)面樣本。從這些樣本集中可以得到兩個分類器:標(biāo)題分類器和內(nèi)容分類器。標(biāo)題分類器就是用文檔的標(biāo)題作為訓(xùn)練集來進(jìn)行訓(xùn)練得到的,采用標(biāo)題作為訓(xùn)練集的理由是:標(biāo)題是一個文檔最簡單、最準(zhǔn)確的概括,在對文檔進(jìn)行分類時,甚至只看到標(biāo)題就知道應(yīng)該將該文檔歸到哪一類。文檔的內(nèi)容可以提供更加詳細(xì)、更加深入的主題思想,但與此同時文檔攜帶的信息也隨之增多,可能會影響文檔的正確分類。因此,在本實驗中將文檔標(biāo)題和文檔內(nèi)容結(jié)合起來考慮,以提高分類的準(zhǔn)確度。

目前,文本分類的經(jīng)典算法有:樸素貝葉斯分類(Nave Bayes,NB)[10]、決策樹方法(Decision Tree,DT)、Rocchio方法、K近鄰算法(K-Nearest Neighbors,KNN)和支持向量機(jī)(Support Vector Machine,SVM)等[9]。其中,樸素貝葉斯和決策樹因其較高的分類性能和簡單性,是當(dāng)前使用最廣泛的兩種分類模型。本實驗也將采用這兩種算法完成分類工作。

樸素貝葉斯以概率統(tǒng)計中的貝葉斯定理為理論基礎(chǔ),基于特征獨立性假設(shè),根據(jù)已知的先驗概率以及條件概率得到后驗概率。文本d屬于某類別C的概率可表述如式(3)。最終文本將分類到概率最大的那個類別中。

P(C|d) (3)

其中:P(d)為常數(shù),可以忽略;P(C)為類別C的先驗概率,由類別C的文本數(shù)與訓(xùn)練集的文本總數(shù)的比值得到。文檔d由特征向量表示后,其條件概率可表述如下:

P(d|C)P((w1,w2,…,wn)|C)∏ni1P(wi|C)(4)

決策樹[11]又稱判定樹,通過構(gòu)造樹,產(chǎn)生一定的規(guī)則來解決分類問題。樹的每個非葉子節(jié)點都是對訓(xùn)練文本向量中的一個非類別屬性的測試或決策,根據(jù)屬性的取值,建立樹的分支。每個葉子節(jié)點表示一個類別或類分布。從根節(jié)點一直向下判定,當(dāng)?shù)竭_(dá)一個葉子節(jié)點時,一個決策或規(guī)則便形成了。目前,決策樹典型算法有:ID3、C4.5、CART、SLIQ、SPRINT等。

1.4 對目標(biāo)分類法的文檔進(jìn)行分類

用訓(xùn)練好的源分類法中類目A的分類器LearnerA和TitleLearnerA對目標(biāo)分類法的語料信息進(jìn)行分類,通過對分類結(jié)果的分析得出源分類法的類目A與目標(biāo)分類法的哪個或哪些類目能確定映射關(guān)系。

2 實驗及結(jié)果分析

2.1 實驗數(shù)據(jù)

IPC和CLC是兩部龐大的分類體系,本實驗選取分類法中和汽車相關(guān)的類目。與CLC類目相關(guān)的數(shù)據(jù)由中國科學(xué)技術(shù)信息研究所提供的中文期刊語料庫選??;和IPC類目相關(guān)的數(shù)據(jù)是從知識產(chǎn)權(quán)專利局網(wǎng)站上獲取的有關(guān)車輛的專利

信息。

本實驗以CLC分類法中的類目U461.91(汽車的安全性)[12]所標(biāo)識的所有文本(共40篇)和從CLC語料隨機(jī)選擇的100篇其他類目的文本作為分類的訓(xùn)練集。由于對分類結(jié)果進(jìn)行的分析是基于統(tǒng)計的,所以選取了IPC語料庫中標(biāo)識文本數(shù)量大于50的類目作為待映射的類目(共118個類目),將這些類目所標(biāo)識的文本作為分類的測試集。

2.2 結(jié)果分析

本實驗采用開源的機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘軟件WEKA[13]完成分類器的訓(xùn)練及分類測試集的工作。首先將U461.91類目標(biāo)識的文檔內(nèi)容和文檔標(biāo)題分別用樸素貝葉斯、決策樹(C4.5算法)分類方法進(jìn)行訓(xùn)練,并進(jìn)行十交叉檢驗,得到分類器的正確率、召回率、F值如表1所示。

表1 采用不同分類方法得到的分類器的對比

通過表1的實驗結(jié)果可以看出,對文檔內(nèi)容進(jìn)行分類時,使用樸素貝葉斯分類方法可以取得更好的效果,而對文檔標(biāo)題分類時,決策樹是更好的選擇。另外,對其他類目的分類實驗也可以得到相同的結(jié)論,如在對U463進(jìn)行分類的實驗中,對文檔內(nèi)容用樸素貝葉斯分類的正確率是0.776,用決策樹分類時為0.757,而對文檔標(biāo)題用樸素貝葉斯分類時正確率為0.712,用決策樹時為0.741。因此,在本實驗中選用樸素貝葉斯分類方法來訓(xùn)練得到文檔內(nèi)容的分類器,標(biāo)題分類器的訓(xùn)練采用決策樹方法。

然后用訓(xùn)練好的U461.91類目分類器對IPC文檔分別按內(nèi)容和標(biāo)題分類以后,可以得到IPC各個類目中分類到U461.91中的文檔的比例。綜合兩個分類器的分類準(zhǔn)確率和分類到該類目文檔的比例得到U461.91與IPC各類目間的映射關(guān)系。

mapping(A,Ι)correct(learnerA)×doc(Ι,learnerA,A)+

correct(TitleLearnerA)×doc(Ι,TitleLearnerA,A)(5)

其中,mapping(A,Ι)是兩個類目A與Ι可以映射的判斷依據(jù);correct(learner)指分類器learner的準(zhǔn)確率,是對該分類器的信任程度;doc(Ι,learner,A)指Ι類目標(biāo)識的文檔通過分類器learner分類到類目A的比例。

最后選擇mapping值最大的n個目標(biāo)分類法的類目作為與源分類法類目進(jìn)行映射的候選類目,由專家進(jìn)行審核得到最終結(jié)果。本實驗中,U461.91的候選映射類目(n6)如表2所示。

表2 CLC類目U461.91與IPC類目映射結(jié)果

用基于交叉瀏覽的類目映射方法得到的結(jié)果[4]如表3所示。

由表2、3可以看出,基于機(jī)器學(xué)習(xí)的類目映射方法找到了與汽車安全相關(guān)的IPC類目信息,當(dāng)然,這些類目很大程度上依賴于實驗中選取的IPC 類目文檔的語料信息。例如,從表3可以看到一些與安全帶相關(guān)的類目信息,由于這些類目所標(biāo)識的文本數(shù)量小于設(shè)定值,所以并不在本實驗的測試集之中,因此,實驗結(jié)果并沒有與之相關(guān)的類目。

表3 基于交叉瀏覽的CLC類目U461.91與IPC類目映射結(jié)果

3 結(jié)語

本文根據(jù)訓(xùn)練集文檔的標(biāo)題和內(nèi)容的特點,將它們分開進(jìn)行訓(xùn)練,并根據(jù)對比實驗結(jié)果分別采用決策樹和樸素貝葉斯分類模型得到各自的分類器。然后利用這兩種分類器對測試集的文檔進(jìn)行分類,最后綜合兩者的分類結(jié)果分析得到類目間的映射關(guān)系。實驗的結(jié)果表明此方法可以找到CLC與IPC這兩種分類法之間相映射的類目,具有一定的可行性。

參考文獻(xiàn):

[1] 劉華梅,侯漢清.近十年情報檢索語言互操作研究進(jìn)展[J].圖書館理論與實踐,2006(4):31-33.

[2] 劉華梅.基于情報檢索語言互操作技術(shù)的集成詞庫構(gòu)建研究[D].南京:南京農(nóng)業(yè)大學(xué),2006.

[3] 戴劍波,侯漢清. 文獻(xiàn)分類法自動映射系統(tǒng)的構(gòu)建――以《中國圖書館分類法》與《杜威十進(jìn)分類法》為例[J].情報學(xué)報,2006,25(5):594-599.

[4] 周林志.國際專利分類法與中圖分類法類目映射研究[D].北京:北京林業(yè)大學(xué),2010.

[5] DOAN A,DOMINGOS P,HALEVY A. Reconciling schemas of disparate data sources: A machine learning approach〖C〗// Proceedings of International Conference on Management of Data. New York: ACM, 2001:509-520.

[6] DOAN A,MADHAVAN J,DOMINGOS P. Ontology matching: A machine learning approach[EB/OL].[2010-10-06].citeseerx.ist.psu.edu/viewdoc/download?doi10.1.1.8.2185&reprep1&typepdf.

[7] 漢語分詞系統(tǒng)〖EB/OL〗.〖2010-09-20〗./

[8] 代六玲,黃河燕,陳肇雄.中文文本分類征抽取方法的比較研究[J].中文信息學(xué)報,2003,18(11):26-32.

[9] 蒲筱哥.自動文本分類方法研究述評[J]. 情報科學(xué),2008,26(3):469-475.

[10] MITCHELL T M. 機(jī)器學(xué)習(xí)[M]. 曾華軍,張銀奎,譯. 北京: 機(jī)械工業(yè)出版社,2003.

[11] 王桂芹,黃道. 決策樹算法研究及應(yīng)用[J]. 電腦應(yīng)用技術(shù),2008(1):1-7.

[12] 中國圖書館分類法[EB/OL].[2010-10-08]./.