前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘技術范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關鍵詞:數(shù)據(jù)挖掘;神經(jīng)元;方法;應用;發(fā)展
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9599 (2012) 12-0000-02
一、引言
伴隨信息技術的迅猛發(fā)展,數(shù)據(jù)庫規(guī)模與應用的不斷擴大,大量數(shù)據(jù)隨之產(chǎn)生。新增的數(shù)據(jù)包含了重要的信息,人們希望更好地利用這些數(shù)據(jù),并通過進行更高層次的數(shù)據(jù)分析,為決策者提供更寬廣的視野。
現(xiàn)今,很多領域已建立了相應的數(shù)據(jù)倉庫。但人們無法辨別隱藏在海量數(shù)據(jù)中有價信息,傳統(tǒng)的查詢方式無法滿足信息挖掘的需求。因此,伴隨著數(shù)據(jù)倉庫技術不斷發(fā)展并逐漸完善的一種從海量信息中提取有價潛在信息的嶄新數(shù)據(jù)分析技術------數(shù)據(jù)挖掘(Data Mining)技術應運而生。
二、數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘技術從1990年左右開始,發(fā)展速度很快,數(shù)據(jù)挖掘技術的產(chǎn)生和不斷發(fā)展可使得人們對當今世界的海量數(shù)據(jù)中隱藏著人們所需要的商業(yè)和科學信息等重要信息進行挖掘。數(shù)據(jù)挖掘運用到交叉學科,涉及到,包括Database、AI、Machine Learning、人工神經(jīng)網(wǎng)絡(Artificial Neural Networks)、統(tǒng)計學(statistics)、模式識別(Pattern Recognition)、信息檢索(Information Retrieval)和數(shù)據(jù)庫可視化等,因此數(shù)據(jù)庫目前還沒有明確的定義。通常普遍認可的數(shù)據(jù)挖掘定義是:從數(shù)據(jù)庫中抽取隱含的、以前未知的、有潛在應用價值的模型或規(guī)則等有用知識的復雜過程,是一類深層次的數(shù)據(jù)分析方法。
三、數(shù)據(jù)挖掘方法
由于數(shù)據(jù)挖掘技術研究融合了不同學科技術,在研究方法上表現(xiàn)為多樣性。從統(tǒng)計學角度上劃分,數(shù)據(jù)挖掘技術模型有:線形/非線形分析、回歸/邏輯回歸分析、單/多變量分析、時間序列/最近序列分析和聚類分析等方法。通過運用這些技術可以檢索出異常形式數(shù)據(jù),最后,利用多種統(tǒng)計和數(shù)學模型對上述數(shù)據(jù)進行解釋,發(fā)掘出隱藏在海量數(shù)據(jù)后的規(guī)律和知識。
(一)數(shù)據(jù)挖掘統(tǒng)計
統(tǒng)計學為數(shù)據(jù)挖掘技術提供了判別方法與分析方法,經(jīng)常會用到的有貝葉斯推理(Bayesian reasoning; Bayesian inference)、回歸分析(Regression analysis)、方差分析(Analysis of Variance,簡稱ANOVA)等分析技術、貝葉斯推理是在估計與假設統(tǒng)計歸納基礎上發(fā)展的全新推理方法。貝葉斯推理在與傳統(tǒng)統(tǒng)計歸納推理方法相比較,所得出的結論不僅根據(jù)當前觀察得到的樣本信息,還將根據(jù)推理者過去相關的經(jīng)驗和知識來處理數(shù)據(jù)挖掘中遇到的分類問題;回歸分析是通過輸入變量和輸出變量來確定變量之間的因果關系,通過建立回歸模型,根據(jù)實測數(shù)據(jù)求解模型的各參數(shù),若能很好的擬合,則可根據(jù)自變量進一步預測。統(tǒng)計方法中的方差分析是通過分析研究中估計回歸直線的性能和自變量對最終回歸的貢獻大小,從而確定可控因素對研究結果影響力的大小。
(二)聚類分析(Cluster analysis )
聚類分析(Cluster analysis)是將一組研究對象分為相對同質的群組(clusters)的統(tǒng)計分析技術。 同組內的樣本具有較高相似度,常用技術有分裂/凝聚算法,劃分/增量聚類。聚類方法適用于研究群組內的關系,并對群組結構做出相應評價。同時,聚類分析為了更容易地使某個對象從其他對象中分離出來的方法用于檢測孤立點。聚類分析已被應用于經(jīng)濟分析(Economic analysis)、模式識別(Pattern Recognition)、圖像處理(image processing)等多種領域。
(三)機器學習(Machine Learning)
機器學習方法經(jīng)過多年的研究已相對完善,通過建立人類的認識模型、模仿人類的學習方法從海量數(shù)據(jù)中提取信息與知識,在很多領域已取得了一些較滿意的成果。因此利用目前比較成熟的機器學習方法可以提供數(shù)據(jù)挖掘效率。
(四)數(shù)據(jù)匯總
數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細信息,將數(shù)據(jù)集通過數(shù)據(jù)立方體和面向對象的歸納方法由低概念層抽象到高概念層,并對數(shù)據(jù)歸納為更高概念層次信息的數(shù)據(jù)挖掘技術。
(五)人工神經(jīng)網(wǎng)絡(Artificial Neural Networks)
神經(jīng)網(wǎng)絡是一種模范動物神經(jīng)網(wǎng)絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。近年來在解決數(shù)據(jù)挖掘中遇到的問題越來越受到人們的關注,源于人工神經(jīng)網(wǎng)絡具有良好的自組織自適應性、并行處理、分布式存儲和高容錯等特性,并通過調整內部大量節(jié)點之間相互連接的關系,達到處理信息的目的。
(六)遺傳算法(Genetic Algorithm)
遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優(yōu)解的方法,是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。遺傳算法可直接對結構對象進行操作,不存在求導和函數(shù)連續(xù)性的限定,能自動獲取和指導優(yōu)化的搜索空間,自適應地調整搜索方向。遺傳算法已被人們廣泛地應用于多種學科領域。
(七)粗糙集
粗糙集是一種刻劃不完整性和不確定性的數(shù)學工具,能有效地分析不精確,不一致(inconsistent)、不完整(incomplete) 等各種不完備的信息,還可以對數(shù)據(jù)進行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。粗糙集理論應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內在的結構聯(lián)系。
四、數(shù)據(jù)挖掘技術發(fā)展趨勢
當前,數(shù)據(jù)挖掘技術不斷創(chuàng)新與發(fā)展,數(shù)據(jù)挖掘技術開發(fā)研究人員、系統(tǒng)應用人員所面對的主要問題:高效、有效的數(shù)據(jù)挖掘方法和相應系統(tǒng)的開發(fā);交互和集成的數(shù)據(jù)挖掘環(huán)境的建立以及在實際應用中解決大型問題。
五、小結
數(shù)據(jù)挖掘技術涉及到多種學科技術,如:數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、高性能計算、模式識別、神經(jīng)網(wǎng)絡、數(shù)據(jù)可視化、信息檢索及空間數(shù)據(jù)分析等。因此,數(shù)據(jù)挖掘是非常有前景的研究領域,隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,它將會廣泛而深入地應用到人類社會的各個領域。
參考文獻:
[1]羅可,蔡碧野.數(shù)據(jù)挖掘及其發(fā)展研究[J].計算機工程與應用,2002
[2]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應用[J].現(xiàn)代圖書情報技術,2000
[3]劉毅勇.情報分析智能輔助決策方法及其軍事應用[M].北京:國防大學出版社,2001
[4]唐曉萍.數(shù)據(jù)挖掘技術及其在指揮控制系統(tǒng)中的應用[J].火力與指揮控制,2002
[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997
[6]吳修霆.SAS數(shù)據(jù)挖掘技術的實現(xiàn)[J].微電腦世界,2000, Vol.14:pp44-45
[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125
關鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測
中圖法分類號:TP274文獻標識碼:A文章編號:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
隨著時代的發(fā)展,計算機科學在以飛快的速度前進著。在計算機科學的眾多領域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個領域。近幾十年來,隨著人工智能技術的日漸成熟,人們對人工智能的研究更加深入,對人工智能更加重視??茖W界對于人工智能的重要性也已形成共識。
自進入21世紀以來,電子數(shù)據(jù)獲取與計算機技術方面的不斷發(fā)展以及網(wǎng)絡的廣泛普及與應用,人們日常生活中接收的數(shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨特的知識爆炸時代。就在最近幾十年很多超大型數(shù)據(jù)庫的產(chǎn)生使得整個社會發(fā)生著天翻地覆的變化,遍及銀行存款、超級市場銷售、粒子物理、天文學、化學、醫(yī)學以及政府統(tǒng)計等領域。在這個數(shù)字化、信息化時代,這么大規(guī)模的數(shù)據(jù)庫以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)管理問題將會是以后對數(shù)據(jù)處理的一個重要關注點。眾多科技工作者共同關注的焦點集中在了如何從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的、信息、模式以及如何實現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領域逐漸走進了人們的事業(yè),并且在人們的關注和不斷研究下飛速發(fā)展,這是一個與統(tǒng)計學、人工智能、模式識別、機器學習、數(shù)據(jù)庫技術以及高性能并行計算等領域都有很大相關的新學科,正是計算機學科的一個研究重點。
1 數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘一般分為如下四個步驟(圖1)。
1.1 數(shù)據(jù)預處理
收集和凈化來自各種數(shù)據(jù)源或數(shù)據(jù)倉庫的信息,并加以存儲, 一般存于數(shù)據(jù)倉庫中。
1.2 模型搜索
利用數(shù)據(jù)挖掘在數(shù)據(jù)庫中匹配模型,這個搜索過程可以由系統(tǒng)自動執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進行用戶交互,由分析人員發(fā)問,自頂向下尋找以驗證假設的正確性。一個問題的搜索過程可能用到許多模型,如神經(jīng)網(wǎng)絡、基于規(guī)則的系統(tǒng)(決策樹)、機器學習、基于實例的推理等。
1.3 評價輸出結果
一般來說,數(shù)據(jù)挖掘的搜索過程需要反復多次,當分析人員評價輸出結果后,它們可能會形成一些新的問題,或者要求對某一方面作更精細的查詢,通過反復的搜索過程即可滿足分析人員的這種需求。
1.4 生成報告
知識的發(fā)現(xiàn)過程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等幾個步驟組成。數(shù)據(jù)挖掘可以與用戶或知識庫交互,把用戶關心的模式提交給廣大用戶,或作為新的知識存放在知識庫中。
2 數(shù)據(jù)挖掘應用
2.1 數(shù)據(jù)挖掘在實現(xiàn)網(wǎng)站用戶偏好度的應用
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內容,解決數(shù)據(jù)的應用質量問題。使數(shù)據(jù)能夠被更加高效的利用,對無用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術最主要的實現(xiàn)形式,也是其最重要的應用方式。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)相對于Web的數(shù)據(jù)而言,其結構性很強,是完全結構化的數(shù)據(jù),而半結構化則是Web上的數(shù)據(jù)最大特點。因而,面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡單許多。據(jù)統(tǒng)計,網(wǎng)站上的絕大部分內容對絕大部分用戶來說是無用的信息。事實是對于某個特定用戶來說,其關心的內容僅是網(wǎng)站上極小部分的內容,而網(wǎng)站上提供的更多的內容對于這個用戶來說是其不感興趣的,并且過多的信息往往會掩蓋有用的信息,使得用戶的查詢效率降低,并且對于網(wǎng)站也不是一件利事。
對于Web數(shù)據(jù)挖掘技術而言,半結構化數(shù)據(jù)源模型和半結構化數(shù)據(jù)模型的查詢與集成問題是應當首要解決的問題。解決Web上的異構數(shù)據(jù)的集成與查詢問題,有一個模型來清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對數(shù)據(jù)半結構化的Web數(shù)據(jù)的特點,尋找一個半結構化的數(shù)據(jù)模型至關重要。并且除此定義一個半結構化數(shù)據(jù)模型之外,一種半結構化模型抽取技術(自動地從現(xiàn)有數(shù)據(jù)中抽取半結構化模型的技術)也是應當提出的。因而半結構化模型和半結構化數(shù)據(jù)模型抽取技術是面向Web的數(shù)據(jù)挖掘實現(xiàn)的重要前提。
用戶瀏覽網(wǎng)站上的內容時,他會被很的多因素影響,網(wǎng)頁的外觀,信息標題,網(wǎng)頁鏈接以及個人的興趣和習慣等等。我們可以設定合理的假設,建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。
2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應用
數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應用最主要體現(xiàn)在題庫的構建,下面分別介紹題庫的構建中數(shù)據(jù)挖掘的應用情況。
在設計數(shù)據(jù)庫方面,數(shù)據(jù)庫主要由題庫、答案庫和答案關鍵字庫構成,題型庫又涵括科目、題號、題型、題目、難度、分值等字段;答案庫中包含科目、題號、分值、答案以及在同一題中有不同答案時應提供的不同答案序號等字段;答案關鍵字庫中有題號、答案序號、權重和答案關鍵字。此后在將答案錄入答案庫。對于客觀題而言,僅僅需要錄入唯一的答案;但對于主觀題而言,則需要盡量給出多個參考答案并將每個答案的關鍵字及其所對應的權值、答案序號輸入答案關鍵字庫。
通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計型,應用概率分析、相關性、聚類分析和判別分析等技術得以實現(xiàn);②通過人工智能中的機器學習,經(jīng)過訓練以及學習輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點都有其優(yōu)勢以及相應的引用領域,最后結果的質量和效果將受到數(shù)據(jù)挖掘技術選擇的影響,采用多種技術結合的方法,其各自的優(yōu)勢可以達到互補的要求,從而實現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①決策樹算法:為每個問題的答案構造一個二叉樹,每個分支或者是一個新的決策點,或者是一個葉子節(jié)點。在沿著決策樹從上到下的遍歷過程中,對每個問題的不同回答導致不同的分支,最后到達一個葉子節(jié)點,每個葉子節(jié)點都會對應確定的權值,通過對權值的計算判定得分;②模糊論方法:利用模糊集合理論,對實際問題進行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進行對照,以確定答案的正確度,從而更客觀準確地評定主觀題分數(shù)。
2.3 數(shù)據(jù)挖掘在網(wǎng)絡入侵檢測系統(tǒng)方面的應用
入侵檢測就是通過運用一些分析方法對從各種渠道獲得的反映網(wǎng)絡狀況和網(wǎng)絡行為的數(shù)據(jù)進行分析、提煉,再根據(jù)分析結果對這些數(shù)據(jù)進行評價,從而能夠識別出正常和異常的數(shù)據(jù)或者對潛在的新型入侵做出預測,以保證網(wǎng)絡的安全運行。
基于分布式數(shù)據(jù)挖掘的入侵檢測系統(tǒng)要對一個網(wǎng)段上的信息進行全面而細致的監(jiān)測,同時在網(wǎng)絡上多個點進行數(shù)據(jù)采集,如網(wǎng)關和特別需要保護的服務器等。整個系統(tǒng)構成分為本地分類器、規(guī)則學習模塊和集中分類器三塊基本構件。本地分類器負責對從網(wǎng)絡上各個點采集到的數(shù)據(jù)通過預處理模塊去除掉無效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進行數(shù)據(jù)挖掘算法可識別的格式,以實現(xiàn)對數(shù)據(jù)的初步檢測和處理。本地分類器有2個輸出:一個輸出為分類數(shù)據(jù),用于提交給規(guī)則學習模塊,另外一個為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學習模塊負責對標記過的分類數(shù)據(jù)進行深層次的數(shù)據(jù)挖掘,從而學習到新的知識。學習到的知識被直接錄入到規(guī)則庫中,這樣保證了規(guī)則庫可以根據(jù)網(wǎng)上的變化可以隨時達到更新的需求。另外一種方式是通過規(guī)則學習模塊實現(xiàn)人工訓練系統(tǒng),從而實現(xiàn)升級規(guī)則庫的需求。最后將分布式數(shù)據(jù)挖掘的結果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對各點數(shù)據(jù)摘要進行匯集,從而做出綜合判斷,達到有效地檢測協(xié)同攻擊的效果,最后將檢測結果提交給決策模塊。
3 結束語
數(shù)據(jù)挖掘技術是人工智能學科的一個重要分支,也是現(xiàn)代計算機科學的一個研究重點。現(xiàn)在基于數(shù)據(jù)挖掘技術的科研可以說是碩果累累,自從人工智能這個概念被提出來之后,其發(fā)展一直是計算機學科的熱門而且其分支廣而泛,都在不同的領域發(fā)揮著十分重要的作用。相信在計算機研究人員的不斷努力下數(shù)據(jù)挖掘會在更多的方面服務人們,并且期待著新的理論的提出。
參考文獻:
[1] 何克抗.建立題庫的理論[M].長沙:國防科技大學出版社,1995.
[2] 劉波,段麗艷.一個基于Internet的通用題庫系統(tǒng)的設計與實現(xiàn)[J].華南師范大學學報:自然科學版,2000(1):39-44.
[3] 王實,高文.數(shù)據(jù)挖掘中的聚類方法[J].計算機科學,2000,27(4):42-45.
隨著科技的進一步發(fā)展,已經(jīng)帶動著各大領域的創(chuàng)新和發(fā)展。而我國在近年來,城市信息化的普及也在不斷推進,網(wǎng)絡技術的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對于自身的信息和數(shù)據(jù)儲存、共享以及處理都格外注重,要求技術本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術已經(jīng)成為了一種新的主流技術,而研究數(shù)據(jù)挖掘技術的理念、方法以及應用領域,將對我國工程施工領域的未來帶來更多的機遇和挑戰(zhàn)。
關鍵詞:
大數(shù)據(jù)時代數(shù)據(jù)挖掘技術分析和研究運用數(shù)據(jù)挖掘技術,也被稱為數(shù)字處理技術,顧名思義,就是對于目前各大企業(yè)的內部數(shù)據(jù),進行整理、調整、挖掘實施以及評估等一系列處理操作,其主要的目標是保證全局數(shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調查的方法,而是對于全局數(shù)據(jù)進行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術也包含4個優(yōu)點,即高數(shù)量、高速度、多元化以及高價值。而筆者將通過本文,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術與應用進行分析和探討。
1相關概念的簡介
1.1大數(shù)據(jù)的概念關于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運作的一個重要因素。而大數(shù)據(jù)的運用,對于消費以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進行人均計算,相當于每個人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長的趨勢,根據(jù)統(tǒng)計計算,這一數(shù)值將會按照約為50%/年的速度增長。
1.2數(shù)據(jù)挖掘作為一個新型學科,數(shù)據(jù)挖掘技術源于20世紀的80年代,那時其效用與目前存在本質差異,科學家最初研究大數(shù)據(jù),主要是用于一些人工智能技術的開發(fā)。簡而言之,技術層面上,數(shù)據(jù)挖掘就是一個對數(shù)據(jù)進行發(fā)掘創(chuàng)新的過程,即要求目標數(shù)據(jù)具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機的、模糊的數(shù)據(jù)庫中進行挖掘;而對于商業(yè)層面上來說,數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價值信息,從而為決策提供重要的知識憑據(jù)。
2數(shù)據(jù)挖掘的研究手段
對于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎,而研究手段的決定,主要需要依靠科學的計算為依據(jù),分析和對比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變去應付不同的問題,對于實際操作來說,就是針對不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預測以及關聯(lián)研究。
2.1聚類研究將抽選的數(shù)據(jù)或者對象的庫進行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎、無監(jiān)督管控的學習過程。而整個過程由于分類研究有本質的差異,因為聚類研究在事先根本無法得到目標的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個區(qū)域,例如心理、統(tǒng)計、醫(yī)藥、銷售以及數(shù)據(jù)識別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標按照影響標準進行劃分,即目標如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。
2.2分類與估測對于分類與數(shù)值估測來說,都是屬于是問題預測方式,其中前者要求估測各個類中的標號,這些標號都是分散且無規(guī)律的,而估測方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測作為數(shù)據(jù)挖掘的起始工作,主要需要反應已經(jīng)獲知的訓練數(shù)據(jù)庫的特點,從而根據(jù)以上基礎完成其中對每一類的情況以及特點完成相應的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎,估測數(shù)據(jù)將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。
2.3關聯(lián)研究關聯(lián)研究是源于自然生物間微妙的關系,而某事情的發(fā)生和發(fā)展也會引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應”的定義。而關聯(lián)研究的研究目標即是研究物與物之間的微妙關系,包含一些依賴關系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來的動向。以購物為例,分析購物者的心理規(guī)律以及習慣,可以從他們對于購物的一系列表現(xiàn),例如購物籃的物品類型、放置規(guī)律、購物消費理念、購物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個銷售企業(yè)獲得巨大的消費市場以及商機。
3大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用
3.1數(shù)據(jù)準備準備流程需要依附于研究者已經(jīng)建立起長期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫,而根據(jù)這些無規(guī)則的原始數(shù)據(jù)進行相應的挖掘前的準備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉變,作為基礎的流程,數(shù)據(jù)準備操作在整個流程中起到重要的基礎作用。
3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘對象的情況擇選最優(yōu)的計算方法,從而獲取其中的規(guī)律性,例如對應采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡算法以及Apriori算法等。
3.3數(shù)據(jù)挖掘的模式評估研究模式評估的對象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對數(shù)據(jù)進行轉變“翻譯”成通俗易懂的語言,供人們去研究和思考。
3.4數(shù)據(jù)挖掘的知識應用知識應用是數(shù)據(jù)挖掘的最后一步,通常知識運用就是一種現(xiàn)實運用的過程,通過數(shù)據(jù)準備、挖掘、研究評估,最后將結果數(shù)據(jù)或者規(guī)律用于現(xiàn)實中,從而體現(xiàn)數(shù)據(jù)的本身的價值,這就是知識應用的內涵。
4大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用
4.1市場營銷方面市場營銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對于消費者群體的消費習慣以及行為進行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購物消費以外,數(shù)據(jù)挖掘技術以及拓展到了各大金融行業(yè),例如保險行業(yè)、銀行行業(yè)以及電子商務行業(yè)等等。例如:在市場營銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無規(guī)則、無意識的行為數(shù)據(jù),對他們進行識別,即根據(jù)客戶的忠誠度、消費意識進行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。
4.2數(shù)據(jù)挖掘的科學分析科學本身就是一個尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學研究都是需要基于數(shù)據(jù)作為基礎,所以數(shù)據(jù)挖掘對于科學領域也具有重要的意義和價值,特別是針對一些未知的事物、領域或者知識,通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。
4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質量以及效率的問題,然后通過對這些問題進行解決,提升企業(yè)經(jīng)濟效益。對于制造業(yè)而言,數(shù)據(jù)挖掘運用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預測目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時間以及周期。
4.4教育方面對于教育行業(yè)來說,最重要的除了教師的教學方法以外,學生的學習情況、心理動向以及教學評估都是十分重要的,采用數(shù)據(jù)挖掘技術,則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學校教學改革時進行參考。例如:教學質量評估數(shù)據(jù)挖掘模塊的開發(fā),即將教學質量相關的項目通過QSLSevrer進行整合和存儲,例如教學準備、教學內容、教學方式以及教學態(tài)度等,最后學生可以進行自行瀏覽并且完成評估,而評估結果則會上傳系統(tǒng)進行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關聯(lián)規(guī)律。
5結語
雖然數(shù)據(jù)挖掘技術不是一項新興的技術,但是其還具有較大的研究價值與運用前景,特別是在特殊領域的運用,對于一系列數(shù)據(jù)進行科學冗雜的處理,然后分析其中規(guī)則價值,可以有效提升各大行業(yè)的經(jīng)濟效益。
參考文獻
[1]趙倩倩,程國建,冀乾宇,戎騰學.大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識與技術,2014,11(33):7831-7833.
[2]韓英.淺析大數(shù)據(jù)時代的數(shù)據(jù)挖掘與精細管理[J].成都航空職業(yè)技術學院學報,2013,12(04):63-71.
關鍵詞:數(shù)據(jù)挖掘;決策算法;遺傳算法;近鄰算法
中圖分類號:TP301 文獻標識碼:A 文章編號:1674-7712 (2013) 04-0065-01
一、數(shù)據(jù)挖掘概念及技術
數(shù)據(jù)挖掘就是又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關系性(屬于Associationrulelearning)的信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。其實實質是一種透過數(shù)理模式來分析企業(yè)內儲存的大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。其方法如下:
(一)人工神經(jīng)網(wǎng)絡:數(shù)據(jù)挖掘中使用最為廣泛的技術,神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法就是通過模仿人的神經(jīng)系統(tǒng)來反復訓練學習數(shù)據(jù)集,從待分析的數(shù)據(jù)中發(fā)現(xiàn)用于預測和分類的模式。神經(jīng)元網(wǎng)絡適用于結果比可理解性更重要的分類和預測的復雜情況,可用于聚類、關聯(lián)、演變分析和離散點分析。
(二)決策樹歸納算法:從關系數(shù)據(jù)庫中提取關聯(lián)規(guī)則是主要的數(shù)據(jù)挖掘方法之一,挖掘關聯(lián)是通過搜索系統(tǒng)中的所有事物,并從中找到出現(xiàn)條件概率較高的模式,適合于探測式知識的發(fā)現(xiàn),廣泛用于醫(yī)學、制造和生產(chǎn)、金融分析、天文學和分子生物學。
(三)遺傳算法:分類和預測是數(shù)據(jù)分析的兩種重要形式,可以用于提取描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。主要方法包括:決策樹,判定樹、貝葉斯法、BP神經(jīng)網(wǎng)絡算法、遺傳算法、粗糙集、模糊集等。預測方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡和機器學習等。
(四)近鄰算法。是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,如標準類外的特例、數(shù)據(jù)聚類外的離群值等。所有這方面知識都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到宏觀,以滿足不同用戶不同層次決策的需要。
(五)規(guī)則推導:屬于無指導學習。對象應該根據(jù)最大化類的相似性、最小化類的相似性的原則進行聚類或分組。
(六)復雜類型的數(shù)據(jù)挖掘:是數(shù)據(jù)挖掘技術的當前一個重要的研究領域,極大提升了CRM數(shù)據(jù)分析能力的深度和廣度,主要包括:多媒體數(shù)據(jù)挖掘、文本挖掘和web挖掘等。
二、數(shù)據(jù)挖掘的實施
數(shù)據(jù)挖掘研究具有廣泛的應用前景,它可以應用于決策支持系統(tǒng),也可以應用于數(shù)據(jù)庫管理系統(tǒng),現(xiàn)在關鍵問題是如何實施,以下談論數(shù)據(jù)挖掘步驟如下:
(一)理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)。
(二)獲取相關知識與技術(acquisition)。
(三)整合與檢查數(shù)據(jù)(integrationandchecking)。
(四)去除錯誤或不一致的數(shù)據(jù)(datacleaning)。
(五)建立模型和假設(modelandhypothesisdevelopment)。
(六)實際數(shù)據(jù)挖掘工作(datamining)。
(七)測試和驗證挖掘結果(testingandverification)。
(八)解釋和應用(interpretationanduse)。
由上述步驟可看出,數(shù)據(jù)挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費在數(shù)據(jù)預處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉換、變量整合,以及數(shù)據(jù)表的鏈接??梢?,在進行數(shù)據(jù)挖掘技術的分析之前,還有許多準備工作要完成。
三、數(shù)據(jù)挖掘應用現(xiàn)狀和存在的問題
數(shù)據(jù)挖掘所有處理的問題就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的消息,歸納出有用的結構,作為企業(yè)決策的依據(jù)。在零售業(yè)中商家從顧客購買商品發(fā)現(xiàn)一定的關系,提供打折購物卷等;保險金融行業(yè)利用數(shù)據(jù)挖掘可以辨別出欺詐行為;在企業(yè)中,半導體生產(chǎn)和測試過程差生大量數(shù)據(jù),可以分析提高產(chǎn)品質量;可以電子商務網(wǎng)站進行分析,識別用戶的行為模式,優(yōu)化網(wǎng)站,提供個性化服務。當前引用最廣的領域包括:數(shù)據(jù)庫營銷、交叉分析的市場分析行為,客戶流失性分析、客戶信用記分、欺詐發(fā)現(xiàn)、客戶群體區(qū)分。
目前面臨的問題:(1)數(shù)據(jù)挖掘的基本問題是數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結構非常復雜。(2)面對龐大的數(shù)據(jù),現(xiàn)有的統(tǒng)計方法等都遇到了問題。(3)面對海量數(shù)據(jù),對數(shù)據(jù)變化的情況匯總分析做出考量和評價。(4)對于各種不同的模型應用,其應用效果進行有效的評價。(5)如何對互聯(lián)網(wǎng)等非標準數(shù)據(jù)進行分析。(6)數(shù)據(jù)挖掘過程中必須保證涉及到了數(shù)據(jù)安全性和隱私性,加強防護措施。(7)數(shù)據(jù)挖掘結果必須和專業(yè)知識結合。
四、數(shù)據(jù)挖掘未來發(fā)展的前景
數(shù)據(jù)挖掘基于關系模式、DBMS系統(tǒng)、SQL查詢等語言的方法理論為基礎,涉及多學科技術的集成,包括數(shù)據(jù)庫和數(shù)據(jù)倉庫技術、統(tǒng)計學高性能計算、模式識別、神經(jīng)網(wǎng)絡、、機器學習、數(shù)據(jù)可視化、信息檢索、圖像與信號處理以及空間或時間數(shù)據(jù)分析。有專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言;尋求數(shù)據(jù)挖掘中的可視化方法;在英特網(wǎng)上建立數(shù)據(jù)挖掘服務器并與數(shù)據(jù)庫服務器配合,實現(xiàn)數(shù)據(jù)挖掘;加強對非結構化的數(shù)據(jù)挖掘如文本、圖形視屏、圖像、聲音乃至于多媒體數(shù)據(jù)挖掘技術。交互發(fā)現(xiàn)、提供交互、個性化服務;能夠自動完成知識的維護和更新。
參考文獻:
關鍵詞 數(shù)據(jù)挖掘;關聯(lián)規(guī)則;典型關聯(lián);Apriori算法
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)15-0030-03
當今社會人們對計算機應用提出了更高要求,如今人們慢慢的意識到關系數(shù)據(jù)庫有很多缺點和限制,這種問題又推動了數(shù)據(jù)庫在更深領域上的研究。當前專家們對數(shù)據(jù)庫的研究內容主要是把數(shù)據(jù)庫技術與其他技術相結合,然后應用到特定領域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績。
1 數(shù)據(jù)挖掘技術
1.1 數(shù)據(jù)挖掘概念
從數(shù)據(jù)挖掘的本質上說它是一種具有更高商業(yè)價值的新型信息處理技術,數(shù)據(jù)挖掘技術的作用是對數(shù)據(jù)的應用來說的,其目的是使人們從低層次的聯(lián)機查詢過渡到對數(shù)據(jù)決策支持分析預測上,從而成為更高層次的應用。
1.2 數(shù)據(jù)挖掘技術的分類
關于數(shù)據(jù)挖掘針對其挖掘的對象,大致的可以做出以下分類,具體分為時態(tài)數(shù)據(jù)庫、異質數(shù)據(jù)庫、文本數(shù)據(jù)源、關系數(shù)據(jù)庫面向對象數(shù)據(jù)庫(Object-Oriented Database)、空間數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對性的挖掘對象。針對數(shù)據(jù)挖掘的方法大致的可以歸納為:計算機學習法、數(shù)理統(tǒng)計法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當代數(shù)學分析法等。
根據(jù)數(shù)據(jù)挖掘技術的知識類型可以分為:廣義范圍的知識挖掘、差異范圍的知識挖掘、關聯(lián)范圍的知識挖掘、預測范圍的知識挖掘等。
1.3 數(shù)據(jù)挖掘的應用分析
根據(jù)麻省理工學院內部數(shù)據(jù)整理其科技評論雜志對數(shù)據(jù)挖掘技術的應用分析提出了10大新興的科學技術數(shù)據(jù)挖掘能夠在未來5年對人類的生產(chǎn)生活帶來重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術面向實際應用方面不是一時的,隨著時代的發(fā)展社會信息化進程不斷加劇各行業(yè)的業(yè)務操作也隨之逐漸向現(xiàn)代化流程轉變,這一轉變促使企業(yè)在處理業(yè)務時產(chǎn)生大量的業(yè)務信息數(shù)據(jù)。對于一般地企業(yè)內部的業(yè)務信息數(shù)據(jù)來說,其主要是由企業(yè)進行商業(yè)運作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場分析而進行收集的,關于此類的數(shù)據(jù)挖掘的應用終將成為企業(yè)進行高層次數(shù)據(jù)分析,為行政決策提供技術支持的骨干技術。
1.4 數(shù)據(jù)挖掘技術和方法
1)統(tǒng)計方法。統(tǒng)計就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術中使用統(tǒng)計方法主要目的就是從事物的數(shù)量上來推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來找線索,然后根據(jù)這些線索進行假設,然后根據(jù)這些假設去驗證其可行性,這種方法最大的優(yōu)點就是精確性。
2)模糊集。模糊集顧名思義就是不清楚,沒有針對性。模糊集的數(shù)據(jù)處理分為兩個方面一個方面是不完整的數(shù)據(jù),另一個方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。
3)支持向量機。向量機就是一些數(shù)學理論,支持向量機就是建立在某些數(shù)學理論上的結構風險。它主要的思想就是在一個高空的多維空間中找一個超平面,利用這個超平面把這兩類進行隔開,這樣就可以保證最小分類的錯誤率。它的一個很重要的優(yōu)點就是可以處理一些線性問題。
4)規(guī)則歸納。規(guī)則的歸納就是對數(shù)據(jù)進行相關的統(tǒng)計,其主要反映數(shù)據(jù)項中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術是目前計算機信息技術領域比較前言的研究方向,數(shù)據(jù)挖掘技術可以從數(shù)據(jù)庫中找出一些潛在的、位置的信息和知識。
2 時態(tài)約束關聯(lián)規(guī)則挖掘問題及算法
2.1 聚焦挖掘任務,提高挖掘效率
數(shù)據(jù)挖掘理論最初的研究側重點是模型的建立以及算法的設計。隨著應用于不同的場合,得出的結果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項目中,會進行詳盡而反復的調研分析,并根據(jù)用戶的需求制定細致的任務計劃,最終的結果卻并不理想,不能得到想要的結果。在算法中,如果想要得到用戶的挖掘目標,除了算法之外,還需要有特定的實現(xiàn)機制,使得我們的挖掘計劃能夠轉變成對一個系統(tǒng)工作的控制,這樣才能使得挖掘項目能有期望的結果。這樣的約束,不需要局限于某一個挖掘數(shù)據(jù)的階段,在任何階段都可以實現(xiàn)。而這樣的算法機制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過這樣的過程,來達到更好以及快速地完成挖掘任務。
2.2 保證挖掘的精確性
從數(shù)據(jù)挖掘的算法也可以看出,結果具有不可預測性,而正因此,對于算法運行的過程中,遇到的問題也是難以把握的,所以算法還需要加上反饋機制,通過這樣的反饋,來進行驗證結果并修正算法中的數(shù)據(jù),如果這個過程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶所側重的,所以數(shù)據(jù)挖掘的結果不僅要具有邏輯上的正確性,還要能夠滿足用戶的主觀偏好;也就是既要準確,還要可信且符合用戶需求。而約束就是這樣實現(xiàn)的,通過約束發(fā)現(xiàn)算法中的問題并及時校正算法,以最終能夠滿足各項需求。
2.3 控制系統(tǒng)的使用規(guī)模
數(shù)據(jù)挖掘算法的實現(xiàn)過程容易陷入一個誤區(qū),只側重由一個系統(tǒng)處理所出現(xiàn)的問題,而忽略了對于控制系統(tǒng)的規(guī)模大小的考慮,這樣的結果就是適得其反,問題并不會得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于,系統(tǒng)的增量式擴充得到實現(xiàn),確定了用戶的需求和目標之后,通過約束參數(shù)的形式,來實現(xiàn)對一些有待解決的問題的驗證,而這些數(shù)值的確定,可以通過實驗的交互式輸入實現(xiàn),以找到較優(yōu)值。而這樣的約束過程,可以在數(shù)據(jù)挖掘的不同階段加以實現(xiàn);而在數(shù)據(jù)的預處理過程中,設置的約束個數(shù)既要能夠保證挖掘的最終結果,又要注意保持數(shù)據(jù)的規(guī)模;在數(shù)據(jù)挖掘的過程中,對于整個項目的細分之后的子目標,也可以加上約束,以能夠快速達到約束的目的;當然也可以對不同類型的問題加以不同的約束條件,以更好地解決問題;尤其是對于層級較多或者維度較高的數(shù)據(jù),可以選擇合適的約束來達到問題的轉化或者簡化。對于約束類型,時態(tài)約束下的關聯(lián)規(guī)則指的是,一次數(shù)據(jù)庫掃描挖掘算法,可以在一定程度上,減少I/O的個數(shù),但是在數(shù)據(jù)量不斷上升的過程中,對于計算機內存的占用也越來越大,而且是線性地增加,所以怎樣很好地控制ISS的容量變得很有必要,而且這樣也能夠一定程度上減少對CPU的占用。為了這個問題的有效改善,我們使用了兩種方法,一個是有效地約束時態(tài)數(shù)據(jù)庫,用戶所不感興趣的時間范圍內的信息去除;二是待處理的數(shù)據(jù)要進行分批處理,經(jīng)過一定的數(shù)據(jù)結構進入內存,這樣有效地將數(shù)據(jù)進行組織。而對于沒有重疊部分的時區(qū),可以生成獨立的關聯(lián)規(guī)則,減少了對計算機硬件資源的占用,而且很好地改善了精確度
問題。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎比較成熟的算法―Apriori算法,研究的側重點已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務的個數(shù)
這樣的原理在于,當需要處理的事務不包含長度為k的大項集,那么也一定不包含長度為k+1的大項集。在算法處理的過程中,就可以將這樣的事務濾去,在下輪掃描過程中,就可以不需要那么多的事務集。
3.2 基于劃分的方法
這類算法比較典型的是頻繁項目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨考慮一個分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項目集;而對于怎樣將數(shù)據(jù)進入存儲中,可以把需要處理的分塊放入計算機內存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項目集的算法中,有人提出了改進算法,基于雜(hash)技術產(chǎn)生頻繁項目集。而這也是他們在實驗基礎上提出的,因為實驗中,他們發(fā)現(xiàn)頻繁項目集的產(chǎn)生過程中,計算量主要集中在2-頻繁項目集上,他們通過雜湊技術來對這個問題加以解決,把需要掃描的項目分發(fā)于不同的Hash桶,而對于每對項目來說,最多只可能在一個特定的桶內,然后通過實驗分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術的產(chǎn)生頻繁項目集的算法的原理在于:通過對數(shù)據(jù)庫進行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù),進行檢驗,這些關聯(lián)規(guī)則是否有效。其實這個算法本身相對比較容易實現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價,而不利的地方在于,抽樣數(shù)據(jù)的隨機性以及由此帶來的結果的偏差比較大。抽樣原理是統(tǒng)計學常用方法,雖然其得到的結果精確性可能并不盡人意;如果能被運用恰當?shù)脑挘梢栽诰确弦蟮那闆r下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法,這種算法實際上就是通過下層分析方法來提前處理。換句話說,當我們正在運行k-項集時,如果發(fā)現(xiàn)(k+1)-項集有極大可能會是頻繁項目集,那么我們就直接將兩者進行并行運算,進而得出(k+1)-項集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù),從而在運行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術的出現(xiàn)使得我們可以對數(shù)據(jù)子集進行深層次挖掘,而且在不同子集之間我們還可以開展并行計算。多層次關聯(lián)規(guī)則挖掘就是并行挖掘中的關鍵技術之一,所謂多層次關聯(lián)規(guī)則可以用上圖來進行描述。在很多事務數(shù)據(jù)庫中,某些項所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項目為例進行流失用戶預警分析,通過其8、9兩個月的相關數(shù)據(jù)來判斷12月《天道》所有登陸用戶的流失可能性和對應的流失概率。
序號 名稱
1 單月總在線時長onlinetime
2 單月總登陸次數(shù)times
3 賬戶累計登陸總時長totalonlinetime
4 首登時間firstlogintime
5 月充值金額
6 當前等級playerlevel
7 陣營
8 游戲幣總額
注:如若條件允許,能加入玩家的當前經(jīng)驗,玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來源廣告媒體等信息將會使此模型的研究更有價值。
模型評估是運用Clementine的分析節(jié)點對已建立的客戶流失預測模型進行精確性分析,評價指標為對未經(jīng)分類處理的測試數(shù)據(jù)進行正確分類的。準確率,即“預測正確率= 正確預測個數(shù)/測試樣本數(shù)×100%”。通過分析計算我們可以明確的看出(如下圖所示),訓練樣本的精確度為81.42%,測試樣本的精確度為81.46%,此模型的精確度已較理想,不過我們還可以通過增加樣本容量(取三個月的游戲玩家信息,或者半年的游戲玩家信息),調整模型中的參數(shù)來提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結果顯示:
1)3890
2)onlinetime>220363,樣本權重為9%,流失275個,比例為7%,雖然比例較小,但這個部分的賬戶應是非常有價值的用戶,若采取個性化的服務,應會帶來更大的價值。
3)796
4)796
5)0
6)88
5 結論
數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法所包含的內容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領域的研究工作,以期能夠獲得更多有價值的研究成果。
參考文獻
[1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關聯(lián)規(guī)則挖掘方法設計[J].計算機與現(xiàn)代化,2013(01):8-11.
[2]陸新慧,吳陳,楊習貝.空間關聯(lián)規(guī)則挖掘技術的研究及應用[J].計算機技術與發(fā)展,2013(05):26-29,33.
數(shù)據(jù)安全論文 數(shù)據(jù)報告 數(shù)據(jù)采集論文 數(shù)據(jù)挖掘總結 數(shù)據(jù)采集 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計論文 數(shù)據(jù)通信論文 數(shù)據(jù)分析設計 數(shù)據(jù)庫論文 紀律教育問題 新時代教育價值觀