前言:本站為你精心整理了數(shù)據(jù)挖掘在營(yíng)銷中的運(yùn)用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
1數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘的任務(wù)常見的有4種類型:
分類用于預(yù)測(cè)事件所屬的類別.其中樣本數(shù)據(jù)中包含標(biāo)識(shí)樣本事件所屬類別的數(shù)據(jù)項(xiàng),類別是已知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對(duì)這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量,將其映射入已知類別中.如在醫(yī)療應(yīng)用中,可根據(jù)患者的各種特征進(jìn)行疾病診斷等.
聚類用于描述和發(fā)現(xiàn)數(shù)據(jù)庫(kù)中以前未知的數(shù)據(jù)類別.其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔?shì)和模式的數(shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程度最高,類間差異最大.常用于市場(chǎng)細(xì)分,可根據(jù)已有顧客的數(shù)據(jù),利用聚類技術(shù)將市場(chǎng)按顧客的消費(fèi)模式的相似性分為若干細(xì)分市場(chǎng),以進(jìn)行有針對(duì)性的市場(chǎng)營(yíng)銷.
關(guān)聯(lián)用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項(xiàng)目,由此推斷事件間潛在的關(guān)聯(lián),識(shí)別有可能重復(fù)發(fā)生的模式.關(guān)聯(lián)分析的典型例子是市場(chǎng)籃子分析,描述顧客的購(gòu)買行為.如尿布與啤酒的故事就屬于關(guān)聯(lián)分析,可幫助零售商決定商品的擺放和捆綁銷售策略.序列模式與關(guān)聯(lián)分析類似,只是擴(kuò)展為一段時(shí)間的項(xiàng)目集間的關(guān)系,常把序列模式看作由時(shí)間變量連接起來(lái)的關(guān)聯(lián).序列分析可分析長(zhǎng)時(shí)期的相關(guān)紀(jì)錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式.
2數(shù)據(jù)挖掘過(guò)程
數(shù)據(jù)挖掘系統(tǒng)主要有四個(gè)模塊:用戶界面、數(shù)據(jù)準(zhǔn)備(也稱為數(shù)據(jù)預(yù)處理)、挖掘及模式的解釋和評(píng)價(jià)(后處理).
2.1數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備對(duì)于數(shù)據(jù)挖掘的成功應(yīng)用至關(guān)重要,IBM等咨詢公司已經(jīng)證實(shí)了數(shù)據(jù)準(zhǔn)備需消耗整個(gè)數(shù)據(jù)挖掘過(guò)程中50%~80%的資源[3],事實(shí)上如果沒(méi)有數(shù)據(jù)的預(yù)處理階段,單純進(jìn)行數(shù)據(jù)挖掘?qū)⒊蔀橐粋€(gè)盲目搜索的過(guò)程,可能會(huì)得出毫無(wú)意義或錯(cuò)誤的結(jié)果.目前對(duì)數(shù)據(jù)挖掘的研究仍主要集中在數(shù)據(jù)挖掘技術(shù)上,數(shù)據(jù)準(zhǔn)備一直未得到應(yīng)有的重視,DorlanPyle在其新著《DataPreparationforDataMining》中,對(duì)數(shù)據(jù)挖掘中的數(shù)據(jù)準(zhǔn)備作了詳細(xì)的論述.數(shù)據(jù)準(zhǔn)備大致分為3步:數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)化[3].
1)數(shù)據(jù)集成.從多個(gè)異質(zhì)操作性數(shù)據(jù)庫(kù)、文件或遺留系統(tǒng)提取并集成數(shù)據(jù),解決語(yǔ)義二義性,統(tǒng)一不同格式的數(shù)據(jù),消除冗余、重復(fù)存放數(shù)據(jù)的現(xiàn)象.同時(shí)還要清洗數(shù)據(jù),包括對(duì)噪聲數(shù)據(jù)、缺失數(shù)據(jù)及異常數(shù)據(jù)等的處理.
2)數(shù)據(jù)選擇.在相關(guān)領(lǐng)域和專家知識(shí)的指導(dǎo)下,辨別出需要進(jìn)行分析的數(shù)據(jù)集合,縮小挖掘范圍,避免盲目搜索,提高數(shù)據(jù)挖掘的效率和質(zhì)量.
3)數(shù)據(jù)縮減和轉(zhuǎn)化.選定的數(shù)據(jù)在經(jīng)過(guò)挖掘前,必須要加以精煉處理,如通過(guò)縮減高維復(fù)雜數(shù)據(jù)的維數(shù),減少有效變量的個(gè)數(shù)等.
另外在數(shù)據(jù)準(zhǔn)備階段中,通過(guò)用戶交互引入領(lǐng)域?qū)<抑R(shí)也很重要,可幫助定義具體問(wèn)題和用戶需求,使模型更直觀;限制搜索空間,以便高效率的發(fā)現(xiàn)更精確的知識(shí);對(duì)發(fā)現(xiàn)的結(jié)果進(jìn)行后處理,從中過(guò)濾出有意義、有價(jià)值的知識(shí)和信息.
2.2挖掘知識(shí)和信息
作為數(shù)據(jù)挖掘技術(shù)的核心,知識(shí)與信息的挖掘主要有下面幾部分構(gòu)成:
1)確定挖掘的任務(wù)類型.確定系統(tǒng)要實(shí)現(xiàn)的功能及任務(wù),是屬于分類或關(guān)聯(lián)等中哪種類型.
2)選擇合適的挖掘技術(shù).在確定挖掘任務(wù)的基礎(chǔ)上,選擇適當(dāng)?shù)臄?shù)據(jù)挖掘技術(shù).如分類模型常由有指導(dǎo)的神經(jīng)元網(wǎng)絡(luò)或歸納技術(shù)(如決策樹)來(lái)實(shí)現(xiàn);聚類常用聚類分析技術(shù);關(guān)聯(lián)分析使用關(guān)聯(lián)發(fā)現(xiàn)和序列發(fā)現(xiàn)技術(shù)等[4].
3)選擇算法.根據(jù)選定的技術(shù)選擇一具體的算法,如采用ID3算法為定性的變量建立分類模型;BP算法用于解決連續(xù)的定量變量的情況等.選擇數(shù)據(jù)挖掘算法要確定搜索數(shù)據(jù)中隱藏模式的方法,如確定適當(dāng)?shù)哪P秃蛥?shù)集合,還應(yīng)將這一具體的技術(shù)與數(shù)據(jù)挖掘的全局目標(biāo)匹配[4].
4)挖掘數(shù)據(jù).用選定的算法或算法組合在模式空間中進(jìn)行反復(fù)迭代的搜索,從數(shù)據(jù)集合中抽取出隱藏的、新穎的模式.
2.3模式的解釋和評(píng)價(jià)
對(duì)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)價(jià),過(guò)濾出有用的知識(shí).具體包括消除無(wú)關(guān)的、多余的模式,過(guò)濾出要呈現(xiàn)給用戶的信息;利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示,轉(zhuǎn)化為用戶可理解的語(yǔ)言.一個(gè)成功的數(shù)據(jù)挖掘的應(yīng)用應(yīng)能將原始數(shù)據(jù)轉(zhuǎn)換為更簡(jiǎn)潔、更易理解、可明確定義關(guān)系的形式.此外還包括解決發(fā)現(xiàn)的結(jié)果與以前知識(shí)的潛在沖突,及利用統(tǒng)計(jì)方法對(duì)模式進(jìn)行評(píng)價(jià),決定是否需要重復(fù)以前的操作,以得到最優(yōu)、最適合的模式[4].數(shù)據(jù)挖掘抽取的信息經(jīng)過(guò)事后處理可用于解釋當(dāng)前或歷史現(xiàn)象,預(yù)測(cè)未來(lái)可能發(fā)生的情況,使決策者參照從過(guò)去發(fā)生的事實(shí)中抽取的信息進(jìn)行決策制定.
3常用技術(shù)及算法
數(shù)據(jù)挖掘的核心是采用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)等方法進(jìn)行知識(shí)學(xué)習(xí)的階段.數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識(shí)的好壞,因此選取適當(dāng)?shù)乃惴ɑ蛩惴ńM合至關(guān)重要,目前對(duì)數(shù)據(jù)挖掘的研究也主要集中在算法及其應(yīng)用方面.
事實(shí)上并不存在評(píng)判算法優(yōu)劣的確定標(biāo)準(zhǔn),因?yàn)椴煌哪繕?biāo)和情況需要的算法也不同;另外每種技術(shù)都有其內(nèi)在局限性,不加判斷的應(yīng)用數(shù)據(jù)挖掘技術(shù)是毫無(wú)意義的.事實(shí)上某種算法在解決一特定問(wèn)題時(shí)可能比其他算法性能更好,因此選擇采用的算法具有某種藝術(shù)性,要由具體應(yīng)用的目標(biāo)和情況決定,而不能僅僅由算法的性能判斷.
數(shù)據(jù)挖掘方法通常分為兩類:統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)技術(shù),其中機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘關(guān)系最密切.統(tǒng)計(jì)模型應(yīng)用于數(shù)據(jù)挖掘主要是進(jìn)行評(píng)估,常用的統(tǒng)計(jì)技術(shù)有概率分布、相關(guān)分析、回歸、聚類分析和判別分析等;機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,也稱為歸納推理,通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,發(fā)現(xiàn)模型的參數(shù),并找出隱含的規(guī)則[5].常用的機(jī)器學(xué)習(xí)方法如人工神經(jīng)元網(wǎng)絡(luò)、決策樹和遺傳算法在數(shù)據(jù)挖掘中的應(yīng)用都很廣泛.
人工神經(jīng)元網(wǎng)絡(luò)(ANN)是在數(shù)據(jù)挖掘中應(yīng)用最廣泛的技術(shù),模仿人腦的機(jī)能,通過(guò)反復(fù)學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,發(fā)現(xiàn)用于預(yù)測(cè)和分類的模式.神經(jīng)元網(wǎng)絡(luò)尤其擅長(zhǎng)于解決極復(fù)雜的問(wèn)題,但神經(jīng)元網(wǎng)絡(luò)最大的缺點(diǎn)是其不透明型,無(wú)法解釋結(jié)果是如何產(chǎn)生的及其在推理過(guò)程中所用的規(guī)則.
決策樹(DT)是一種樹型結(jié)構(gòu)的預(yù)測(cè)模型,其中樹的非終端節(jié)點(diǎn)表示屬性,葉節(jié)點(diǎn)表示所屬的不同類別.根據(jù)訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)的不同取值建立樹的分支,形成一決策樹,對(duì)其進(jìn)行反復(fù)修剪后轉(zhuǎn)化為規(guī)則,可用于對(duì)新數(shù)據(jù)分類.與神經(jīng)元網(wǎng)絡(luò)最大的不同在于其決策制定的過(guò)程是可見的,可以解釋結(jié)果是如何產(chǎn)生的.典型的例子是CART(回歸決策樹)方法.遺傳算法(GA)是一種基于生物進(jìn)化理論的優(yōu)化技術(shù).其基本觀點(diǎn)是“適者生存”,用于數(shù)據(jù)挖掘中,則常把任務(wù)表示為一種搜索問(wèn)題,利用遺傳算法強(qiáng)大的搜索能力找到最優(yōu)解.具體來(lái)講,就是模仿生物進(jìn)化的過(guò)程,反復(fù)進(jìn)行選擇、交叉和突變等遺傳操作,直至滿足最優(yōu)解.具體來(lái)講,就是模仿生物進(jìn)化的過(guò)程,反復(fù)進(jìn)行選擇、交叉和突變等遺傳操作,直至滿足進(jìn)化停止的條件.遺傳算法是最成功的機(jī)器學(xué)習(xí)技術(shù)之一,常與其他技術(shù)結(jié)合使用,如用于優(yōu)化神經(jīng)元網(wǎng)絡(luò)的模型和參數(shù)集等.
4數(shù)據(jù)挖掘在營(yíng)銷中的應(yīng)用
數(shù)據(jù)庫(kù)營(yíng)銷(DatabaseMarketing)是數(shù)據(jù)挖掘目前最成功商業(yè)應(yīng)用,作為一種結(jié)合了信息技術(shù)和營(yíng)銷理論的新型營(yíng)銷方式,通過(guò)搜集消費(fèi)者和同類企業(yè)等的大量信息,并利用OLAP(On-LineAnalyticalProcessing)和數(shù)據(jù)挖掘等分析技術(shù)對(duì)其進(jìn)行分析處理,據(jù)此確定相應(yīng)的營(yíng)銷策略和特定的目標(biāo)顧客群[6].
數(shù)據(jù)挖掘在營(yíng)銷中的主要應(yīng)用有:關(guān)聯(lián)分析即市場(chǎng)籃子分析,用于了解顧客的購(gòu)買習(xí)慣和偏好,有助于決定市場(chǎng)商品的擺放和產(chǎn)品的捆綁銷售策略;序列模式與市場(chǎng)籃子分析相似,不過(guò)是用某時(shí)間點(diǎn)發(fā)現(xiàn)的產(chǎn)品購(gòu)買或其他行為模式來(lái)預(yù)測(cè)將來(lái)購(gòu)買產(chǎn)品或服務(wù)類別的概率;聚類用于市場(chǎng)細(xì)分,將顧客按其行為或特征模式的相似性劃分為若干細(xì)分市場(chǎng),以采取有針對(duì)性的營(yíng)銷策略;分類用于預(yù)測(cè)哪些人會(huì)對(duì)郵寄廣告和產(chǎn)品目錄、贈(zèng)券等促銷手段有反應(yīng),還可用于顧客定級(jí)、破產(chǎn)預(yù)測(cè)等.
目前國(guó)外許多大型零售企業(yè)和金融保險(xiǎn)行業(yè)都已建立了營(yíng)銷數(shù)據(jù)庫(kù),并利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)對(duì)某種產(chǎn)品感興趣的顧客,幫助制定認(rèn)識(shí)和保留最佳顧客的計(jì)劃,增進(jìn)與顧客的關(guān)系,識(shí)別并跟蹤有發(fā)展前景的市場(chǎng),根據(jù)顧客反饋確定產(chǎn)品開發(fā)計(jì)劃,提高銷售人員調(diào)配的效用,這些都為企業(yè)帶來(lái)了獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì).如美國(guó)Firstar銀行使用Marksman數(shù)據(jù)挖掘工具,根據(jù)客戶的消費(fèi)模式來(lái)預(yù)測(cè)應(yīng)在什么時(shí)候向哪些客戶提供哪些產(chǎn)品;美國(guó)運(yùn)通公司(AmericanExpress)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(RelationshipBilling)優(yōu)惠”的促銷策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購(gòu)買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣,既增加了商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率.美國(guó)的讀者文摘(Reader''''sDigest)出版公司運(yùn)行著一個(gè)積累了40年的業(yè)務(wù)數(shù)據(jù)庫(kù),其中容納有遍布全球的一億多個(gè)訂戶的資料,并保證數(shù)據(jù)不斷得到實(shí)時(shí)的更新,基于對(duì)客戶資料數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì),使讀者文摘出版公司能夠從通俗雜志擴(kuò)展到專業(yè)雜志、書刊和聲像制品的出版和發(fā)行業(yè)務(wù),極大地?cái)U(kuò)展了自己的業(yè)務(wù)范圍.
5結(jié)束語(yǔ)
數(shù)據(jù)挖掘技術(shù)是目前國(guó)際上的一個(gè)研究熱點(diǎn)[7],并已在各行業(yè)如金融證券業(yè)、零售業(yè)等得到了應(yīng)用,初步發(fā)揮了其優(yōu)越性和潛力[8],但同時(shí)它也面臨著一些不可避免的問(wèn)題,如需要進(jìn)一步研究在不同抽象層次挖掘多類型知識(shí)的有效方法;更靈活、方便的數(shù)據(jù)挖掘語(yǔ)言或接口;研究針對(duì)面向?qū)ο蟮臄?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)之類的高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)挖掘技術(shù);挖掘不同來(lái)源的數(shù)據(jù);Internet信息系統(tǒng)的數(shù)據(jù)挖掘;所發(fā)現(xiàn)知識(shí)的應(yīng)用;發(fā)現(xiàn)的知識(shí)與專家定義的知識(shí)的集成;以及確保在數(shù)據(jù)挖掘中對(duì)隱私的保護(hù)方法等,都是以后需深入研究的重要論題[1].
隨著數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,越發(fā)掀起了投資數(shù)據(jù)挖掘項(xiàng)目的高潮.但在實(shí)現(xiàn)這一復(fù)雜、昂貴的技術(shù)同時(shí),也暴露了很多問(wèn)題.投資者往往對(duì)其存有過(guò)高期望,低估成本,帶來(lái)了極大的風(fēng)險(xiǎn);另外還需要有專門的內(nèi)部專業(yè)技術(shù)人員或咨詢機(jī)構(gòu)解釋、評(píng)價(jià)數(shù)據(jù)挖掘結(jié)果,增加了成本[9].因此信息管理人員和投資者還需充分認(rèn)識(shí)其潛在的問(wèn)題,要從需求、數(shù)據(jù)、財(cái)力及技術(shù)4個(gè)方面考慮,認(rèn)真進(jìn)行成本/效益分析,避免不必要的開支和風(fēng)險(xiǎn).
數(shù)據(jù)安全論文 數(shù)據(jù)采集論文 數(shù)據(jù)報(bào)告 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計(jì)論文 數(shù)據(jù)通信論文 數(shù)據(jù)分析設(shè)計(jì) 數(shù)據(jù)庫(kù)論文 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀