99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 數(shù)據(jù)挖掘論文

數(shù)據(jù)挖掘論文

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘論文范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

數(shù)據(jù)挖掘論文

數(shù)據(jù)挖掘論文范文第1篇

數(shù)據(jù)挖掘技術(shù)是延伸和擴展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專利文獻(xiàn)的工作中解放出來,使用計算機代替了人類勞動,這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個專利分析的強有力工具被引入到專利分析中來,并且得到快速的發(fā)展應(yīng)用。專利數(shù)據(jù)挖掘流程應(yīng)考慮的問題:一是用數(shù)據(jù)挖掘解決什么樣的問題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專利數(shù)據(jù)挖掘的一般過程通常按照以下步驟來完成:領(lǐng)會數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問題,解釋算法的結(jié)果。而其一般流程可簡化為三個階段:數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果解釋和評價。本文采用簡化的流程進(jìn)行實證分析。

二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘

本文對石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團公司、石家莊制藥集團有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號是目前權(quán)威的專利技術(shù)主題的標(biāo)識編碼之一,基本包含了各行各業(yè)的專利信息,是一個龐大的專利信息體系。目前國內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號來分析專利技術(shù)主題的,此分析方法有一定的參考價值和科學(xué)性,而且對于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號為分析對象,并且構(gòu)建IPC號之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。

1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數(shù)據(jù)庫中的644條專利進(jìn)行篩選,根據(jù)“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點的專利。由于IPC號在幾乎所有現(xiàn)存數(shù)據(jù)庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業(yè)又研究大量的專利,所以在進(jìn)行專利分析之前,需要對專利IPC號進(jìn)行數(shù)據(jù)整理。由于過于細(xì)致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應(yīng)的多條IPC號進(jìn)行拆分,拆分后的數(shù)據(jù)項有773條,即顯示每個申請人對應(yīng)的一條IPC分類號。

2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號的關(guān)聯(lián)規(guī)則挖掘,然后對專利信息進(jìn)行分析。

3.數(shù)據(jù)挖掘結(jié)果與分析?;陉P(guān)聯(lián)規(guī)則制作依賴關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個IPC號之間的關(guān)聯(lián)和依賴狀態(tài)。

(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術(shù)群。這些專利的IPC分類號是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無環(huán)和碳環(huán)化合物)通過專利相關(guān)知識我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專利主題的相互關(guān)聯(lián)、依賴說明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢,所以說是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。

(2)以B65G、C12M為中心的輔助設(shè)備專利技術(shù)群。藥品的生產(chǎn)離不開設(shè)備的支持,所以設(shè)備方面的專利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來,專利間有著很強的依賴性和關(guān)聯(lián)性,在核心專利周邊有B65G(運輸或貯存裝置,例如裝載或傾斜用輸送機、車間輸送機系統(tǒng)、氣動管道輸送機)、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專利是相互聯(lián)系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴網(wǎng)絡(luò)也已經(jīng)形成,說明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強實力。但與中心主要專利相比,輔助設(shè)備專利技術(shù)還是需要不斷提高的。

三、總結(jié)

數(shù)據(jù)挖掘論文范文第2篇

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進(jìn)行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進(jìn)行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上的,盡量提高學(xué)習(xí)機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

數(shù)據(jù)挖掘論文范文第3篇

數(shù)據(jù)倉庫是管理智能循證醫(yī)學(xué)支持系統(tǒng)的基礎(chǔ),搭建數(shù)據(jù)倉庫后,要充分地調(diào)取數(shù)據(jù)倉庫的有效資源,必須要有強大的工具對數(shù)據(jù)倉庫的資源進(jìn)行規(guī)劃整理。OLAP(On-lineAnalyticalProcessing,在線分析處理或聯(lián)機分析處理)是一個應(yīng)用廣泛的數(shù)據(jù)倉庫調(diào)用方法。它可以根據(jù)應(yīng)用人員的指令,快速準(zhǔn)確地對大量復(fù)雜的數(shù)據(jù)進(jìn)行搜索查詢,并以直觀的容易理解的形式將搜索結(jié)果展示給醫(yī)院決策者,使他們能夠迅速全面地掌握醫(yī)院的運營現(xiàn)狀。

2采用可視化圖形操作分析技術(shù)

可視化分析技術(shù)能夠整合各式不同的數(shù)據(jù)來源或數(shù)據(jù)倉儲系統(tǒng),利用MicrosoftSQLServerAnalysisServices構(gòu)建多維結(jié)構(gòu)數(shù)據(jù)庫(Cube),而后存取、分析商業(yè)數(shù)據(jù),通過鼠標(biāo)的拖、拉、點、選,操作各種維度與量值,迅速產(chǎn)生各式的分析圖表與統(tǒng)計結(jié)果。可視化的圖形操作能為用戶迅速提供決策報表與在線分析處理(OLAP)等重要分析功能。運用專業(yè)工具所提供的報表(Reports)、實時查詢(AD-HocQuery)、聯(lián)機分析處理(OLAP)等重要商業(yè)智能的強大分析功能,使醫(yī)院獲得最全面、迅速的數(shù)據(jù)洞悉能力。具體功能如下:

(1)表定制及報表的整合,在報表靈活性和報表開發(fā)易用性等方面具有突出的優(yōu)勢,其報表是通過圖形界面下的鼠標(biāo)拖拽操作來直觀的完成的,無須編寫任何腳本或者代碼,即可實現(xiàn)復(fù)雜格式的報表。

(2)優(yōu)秀的BI前端圖形展示功能,支持目前流行的幾乎所有圖形展現(xiàn)方式;而且圖形之間可以任意組合應(yīng)用,使支持的圖形展現(xiàn)方式以幾何級的方式增長。

數(shù)據(jù)挖掘論文范文第4篇

1.1結(jié)果優(yōu)化中遺傳算法的應(yīng)用遺傳算法由達(dá)爾文進(jìn)化論與孟德爾遺傳變異論進(jìn)行模擬后得到,該算法所采用的算法因子具有隨機性,故設(shè)備故障的出現(xiàn)往往不會受到常規(guī)故障規(guī)則的限制,但是遺傳算法在實際應(yīng)用過程中,其對故障的整合分析,并不是盲目式的,而是針對機械設(shè)備狀態(tài)運行情況,以設(shè)備最優(yōu)化為基本原則進(jìn)行不斷完善計算進(jìn)行的。若設(shè)備狀態(tài)監(jiān)測和故障診斷當(dāng)中,直接采用了與設(shè)備情況相應(yīng)的參數(shù)進(jìn)行適值計算,但又不需要對優(yōu)化參數(shù)進(jìn)行明確計算,在針對部分無法明確計算得到的設(shè)備參數(shù)時,即可采用遺傳算法對結(jié)果進(jìn)行優(yōu)化。遺傳算法的智能性與并行性較強,利用該方法,可以對設(shè)備故障當(dāng)中還未得到有效解決的部分復(fù)雜問題進(jìn)行妥善處理。目前,遺傳算法在設(shè)備運行函數(shù)的優(yōu)化、設(shè)備模式的識別以及設(shè)備運行信號的整合處理等相關(guān)工作當(dāng)中有著較為全面的應(yīng)用,在將復(fù)雜的運行數(shù)據(jù)進(jìn)行優(yōu)化時,遺傳算法具有較為良好的性能。綜合其相關(guān)特點,在建立設(shè)備狀態(tài)監(jiān)測和故障診斷的模型時,可采用該技術(shù)使得模型更為合理化,使得設(shè)備狀態(tài)監(jiān)測與故障診斷的結(jié)果更為準(zhǔn)確。以滾動軸承的狀態(tài)監(jiān)測與故障診斷為例。在實際工作當(dāng)中,運用各類運算符集,對滾動軸承的原始性特征向量進(jìn)行測量后,采取最優(yōu)的組合方式獲得新型向量,配合采用遺傳算法得到最終的滾動軸承參數(shù),并利用分類法,對各項間距進(jìn)行了調(diào)整,使得滾動軸承的診斷參數(shù)更為準(zhǔn)確。此外,利用該方法,還有效區(qū)分了滾動軸承的不同工作狀態(tài),測量結(jié)果較為全面,效果顯著。

1.2模糊集理論的應(yīng)用要點該方法通過模糊集合與模糊推理兩種方法,其研究測試的對象是各類不確定性因素,屬于傳統(tǒng)集合理論的創(chuàng)新。模糊集理論在設(shè)備狀態(tài)監(jiān)測和故障診斷中的應(yīng)用,主要包含了兩個方面。一方面,是在相關(guān)數(shù)據(jù)概念的形成時,采用不準(zhǔn)確和較為模糊的語言變量,根據(jù)人們習(xí)慣,對設(shè)備狀態(tài)的變化及變量變化狀態(tài)進(jìn)行描述。具有較強的直觀性,且相關(guān)人員在接受該類概念時,也可以更方便的理解接受;另一方面,該方法通過提煉模糊性規(guī)則,在建模時模糊化,使得機械設(shè)備的控制、預(yù)測以及故障診斷等過程擁有更為廣闊的空間。

1.3基于實例分析的方案優(yōu)化及調(diào)整該種方法擁有較為簡單的思路,在對設(shè)備未來運行情況進(jìn)行預(yù)測時,系統(tǒng)會匹配與設(shè)備目前情況相似的實際案例,并從以往的解決方法中選出最佳的解決方案,再結(jié)合設(shè)備實際情況進(jìn)行相應(yīng)調(diào)整。此類方法的應(yīng)用范圍較廣,且得到的計算結(jié)果也相對準(zhǔn)確,但同時也具有一定缺陷,即無法全面整合以往設(shè)備數(shù)據(jù)及解決規(guī)律,缺乏充足的繼承性。該方法進(jìn)行故障診斷的基本理念是,在選紅棗解決方法的過程中,利用歷史診斷方法成功案例為奠基,進(jìn)行全面的推理工作,并采用類比和聯(lián)想法,較為全面的對故障進(jìn)行診斷。

1.4多種數(shù)據(jù)挖掘法的聯(lián)合應(yīng)用除上述幾種數(shù)據(jù)挖掘技術(shù)外,實際工作中還涵蓋了以傳統(tǒng)數(shù)據(jù)統(tǒng)計為基礎(chǔ)的統(tǒng)計分析方法、人工神經(jīng)網(wǎng)絡(luò)元技術(shù)、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類方法的應(yīng)用效果,可以將各類方法進(jìn)行配合使用,代表性的算法組合類型如表1所示。

以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發(fā)生原因以及故障征兆的相互聯(lián)系,在綜合考慮的基礎(chǔ)上對機械設(shè)備故障的可能原因進(jìn)行全面分析。而該方法在運用的過程中,會對各類故障征兆進(jìn)行約簡化從而得到較為普遍的規(guī)律,但是所得到的規(guī)律也可能存在不可靠問題。故在實際應(yīng)用模糊集理論的同時,配合采用遺傳算法,通過對模糊集理論所得到的結(jié)論及規(guī)則進(jìn)行全面優(yōu)化,使得診斷的結(jié)果更為準(zhǔn)確與高效。上述案例方法在渦輪機故障診斷過程中進(jìn)行應(yīng)用時,可先建立完善的渦輪機故障集,在此基礎(chǔ)上采用模糊集理論對渦輪機故障進(jìn)行診斷,配合遺傳算法對渦輪機故障規(guī)律進(jìn)行優(yōu)化,使得最終故障診斷結(jié)果更為準(zhǔn)確。除遺傳算法與模糊集理論課進(jìn)行配合使用外,其他各類方法也可以根據(jù)設(shè)備實際情況進(jìn)行搭配,使得最終診斷結(jié)果更為準(zhǔn)確有效。

2結(jié)束語

數(shù)據(jù)挖掘論文范文第5篇

[論文摘要]在電子商務(wù)中,數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢,幫助企業(yè)做出正確的決策。本文對目前電子商務(wù)中的Web數(shù)據(jù)挖掘方法進(jìn)行了總結(jié),并對電子商務(wù)中的Web數(shù)據(jù)對象進(jìn)行了分類,對網(wǎng)絡(luò)數(shù)據(jù)挖掘的作用進(jìn)行了分析,為今后電子商務(wù)中實用Web數(shù)據(jù)挖掘軟件的開發(fā)與應(yīng)用提供了參考。

一、電子商務(wù)和數(shù)據(jù)挖掘簡介

電子商務(wù)是指個人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。

數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。數(shù)據(jù)挖掘的過程有時也叫知識發(fā)現(xiàn)的過程。

而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計算機語言、信息學(xué)、統(tǒng)計學(xué)等多個領(lǐng)域。

二、Web數(shù)據(jù)挖掘?qū)ο蟮姆诸?/p>

Web數(shù)據(jù)有3種類型:HTML標(biāo)記的Web文檔數(shù)據(jù),Web文檔內(nèi)連接的結(jié)構(gòu)數(shù)據(jù)和用戶訪問數(shù)據(jù)。按照對應(yīng)的數(shù)據(jù)類型,Web挖掘可以分為3類:

1.Web內(nèi)容挖掘:就是從Web文檔或其描述中篩選知識的過程。

2.Web結(jié)構(gòu)挖掘:就是從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。它的目的是通過聚類和分析網(wǎng)頁的鏈接,發(fā)現(xiàn)網(wǎng)頁的結(jié)構(gòu)和有用的模式,找出權(quán)威網(wǎng)頁。

3.Web使用記錄挖掘:就是指通過挖掘存儲在Web上的訪問日志,來發(fā)現(xiàn)用戶訪問Web頁面的模式及潛在客戶等信息的過程。

三、電子商務(wù)中數(shù)據(jù)挖掘的方法

針對電子商務(wù)中不同的挖掘目標(biāo)可以采用不同的數(shù)據(jù)挖掘方法,數(shù)據(jù)挖掘的方法有很多,主要包括下面3大類:統(tǒng)計分析或數(shù)據(jù)分析,知識發(fā)現(xiàn),基于預(yù)測模型的挖掘方法等。

1.統(tǒng)計分析。統(tǒng)計分析主要用于檢查數(shù)據(jù)中的數(shù)學(xué)規(guī)律,然后利用統(tǒng)計模型和數(shù)學(xué)模型來解釋這些規(guī)律。通常使用的方法有線性分析和非線性分析、連續(xù)回歸分析和邏輯回歸分析、單變量和多變量分析,以及時間序列分析等。統(tǒng)計分析方法有助于查找大量數(shù)據(jù)間的關(guān)系,例如,識別時間序列數(shù)據(jù)中的模式、異常數(shù)據(jù)等,幫助選擇適用于數(shù)據(jù)的恰當(dāng)?shù)慕y(tǒng)計模型,包括多維表、剖分、排序,同時應(yīng)生成恰當(dāng)?shù)膱D表提供給分析人員,統(tǒng)計功能是通過相應(yīng)的統(tǒng)計工具來完成回歸分析、多變量分析等,數(shù)據(jù)管理用于查找詳細(xì)數(shù)據(jù),瀏覽子集,刪除冗余等。

2.知識發(fā)現(xiàn)。知識發(fā)現(xiàn)源于人工智能和機器學(xué)習(xí),它利用一種數(shù)據(jù)搜尋過程,去數(shù)據(jù)中抽取信息,這些信息表示了數(shù)據(jù)元素的關(guān)系和模式,能夠從中發(fā)現(xiàn)商業(yè)規(guī)則和商業(yè)事實。利用數(shù)據(jù)可視化工具和瀏覽工具有助于開發(fā)分析以前挖掘的數(shù)據(jù),以進(jìn)一步增強數(shù)據(jù)發(fā)掘能力。其他數(shù)據(jù)挖掘方法,如可視化系統(tǒng)可給出帶有多變量的圖形化分析數(shù)據(jù),幫助商業(yè)分析人員進(jìn)行知識發(fā)現(xiàn)。

3.預(yù)測模型的挖掘方法。預(yù)測模型的挖掘方法是將機器學(xué)習(xí)和人工智能應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)。預(yù)測模型基于這樣一個假設(shè):消費者的消費行為具有一定的重復(fù)性和規(guī)律性,這使得商家可以通過分析收集存儲在數(shù)據(jù)庫中的交易信息,預(yù)測消費者的消費行為。按消費者所具有的特定的消費行為將其分類,商家就能將銷售工作集中于一部分消費者,即實現(xiàn)針對四、Web挖掘的作用

通過收集、加工和處理涉及消費者消費行為的大量信息。確定特定消費群體或個體的興趣、消費習(xí)慣、消費傾向和消費需求,進(jìn)而推斷出相應(yīng)消費群體或個體未來的消費行為,然后對所識別出來的消費群體進(jìn)行特定內(nèi)容的定向營銷,節(jié)省成本,提高效率,從而為企業(yè)帶來更多的利潤。

1.優(yōu)化Web站點。Web設(shè)計者不再完全依靠專家的定性指導(dǎo)來設(shè)計網(wǎng)站,而是根據(jù)訪問者的信息來設(shè)計和修改網(wǎng)站結(jié)構(gòu)和外觀。站點上頁面內(nèi)容的安排和鏈接就如超級市場中物品的擺放一樣,把相關(guān)聯(lián)的物品擺放在一起有助于銷售。網(wǎng)站管理員也可以按照大多數(shù)訪問者的瀏覽模式對網(wǎng)站進(jìn)行組織,按其所訪問內(nèi)容來裁剪用戶與Web信息空間的交互,盡量為大多數(shù)訪問者的瀏覽提供方便。

2.設(shè)計個性化網(wǎng)站。強調(diào)信息個性化識別客戶的喜好,使客戶能以自己的方式來訪問網(wǎng)站。對某此用戶經(jīng)常訪問的地方,有針對性地提供個性化的廣告條,以實現(xiàn)個性化的市場服務(wù)。

3.留住老顧客。通過Web挖掘,電子商務(wù)的經(jīng)營者可以獲知訪問者的個人愛好,更加充分地了解客戶的需要。根據(jù)每一類(甚至是每一個)顧客的獨特需求提供定制化的產(chǎn)品,有利于提高客戶的滿意度,最終達(dá)到留住客戶的目的。

4.挖掘潛在客戶。通過分析和探究Web日志記錄中的規(guī)律,可以先對已經(jīng)存在的訪問者進(jìn)行分類。確定分類的關(guān)鍵屬性及相互間關(guān)系,然后根據(jù)其分類的共同屬性來識別電子商務(wù)潛在的客戶,提高對用戶服務(wù)的質(zhì)量。

5.延長客戶駐留時間。在電子商務(wù)中,為了使客戶在網(wǎng)站上駐留更長的時間就應(yīng)該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,及時根據(jù)需求動態(tài)地向客戶做頁面推薦,調(diào)整Web頁面,提供特有的一些商品信息和廣告,以使客戶滿意。

6.降低運營成本。通過Web挖掘,公司可以分析顧客的將來行為,進(jìn)行有針對性的電子商務(wù)營銷話動,可以根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率??梢缘玫娇煽康氖袌龇答佇畔ⅲ档凸镜倪\營成本。

7.增強電子商務(wù)安全。Web的內(nèi)容挖掘還包括挖掘存有客戶登記信息的后臺交易數(shù)據(jù)庫??蛻舻怯浶畔⒃陔娮由虅?wù)話動中起著非常重要的作用,特別是在安全方面,或者在對客戶可訪問信息的限制方面。

8.提高企業(yè)競爭力。分析潛在的目標(biāo)市場,優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營模式,根據(jù)客戶的歷史資料不僅可以預(yù)測需求趨勢,還可以評估需求傾向的改變,有助于提高企業(yè)的競爭力。

五、小結(jié)

本文介紹了在電子商務(wù)中可以被用來進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)源,以及可用于電子商務(wù)中的基于Web上的幾種數(shù)據(jù)挖掘技術(shù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù),對這些數(shù)據(jù)進(jìn)行挖掘,可以找出這些有價值的“知識”,企業(yè)用戶可以根據(jù)這些“知識”把握客戶動態(tài),追蹤市場變化,做出正確的針對性的決策,比如改進(jìn)網(wǎng)站、向各類用戶推出個性化的頁面,或者向高流失客戶群提供優(yōu)惠政策進(jìn)行挽留等等。但是在電子商務(wù)中進(jìn)行Web的數(shù)據(jù)挖掘時還有很多問題需要解決。例如,如何解決不同國家不同地區(qū)存儲Web數(shù)據(jù)的語義不一致性,如果提供更安全、快捷的服務(wù)方面還有很多工作要做。

參考文獻(xiàn):

[1]郝先臣張德干尹國成趙海:用于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究.小型微型計算機系統(tǒng)[J].2007(7)786~787

[2]趙煥平等:WEB數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用.福建電腦[J].2008(1)167

[3]石巖:Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用.科技情報開發(fā)與經(jīng)濟[J].2006(7)235~236

相關(guān)期刊更多

數(shù)據(jù)

省級期刊 審核時間1個月內(nèi)

北京市統(tǒng)計局

大數(shù)據(jù)

統(tǒng)計源期刊 審核時間1個月內(nèi)

工業(yè)和信息化部

數(shù)據(jù)通信

部級期刊 審核時間1個月內(nèi)

信息產(chǎn)業(yè)部