99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 正文

網(wǎng)絡自媒體大數(shù)據(jù)挖掘輿情控制策略

前言:本站為你精心整理了網(wǎng)絡自媒體大數(shù)據(jù)挖掘輿情控制策略范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

網(wǎng)絡自媒體大數(shù)據(jù)挖掘輿情控制策略

摘要:隨著自媒體時代的到來,人們通過各種社交平臺表達自己的意愿越來越方便,特別是思想意識還尚未成熟的高校大學生,非常容易受到網(wǎng)絡負面消息的影響,成為一些不當言論的傳播者,并且該狀況具有一定的隱匿性和突發(fā)性,對高校網(wǎng)絡輿情監(jiān)管工作提出了嚴峻挑戰(zhàn)。為此,提出了面向網(wǎng)絡自媒體數(shù)據(jù)挖掘的高校輿情控制策略,主動獲取輿情數(shù)據(jù),并對其進行預處理,然后對其建模以發(fā)現(xiàn)輿情傳播規(guī)律,最后根據(jù)分析結果給出科學、合理的引導策略,提升高校網(wǎng)絡輿情監(jiān)管效果,為人才培養(yǎng)提供良好的網(wǎng)絡環(huán)境。

關鍵詞:自媒體大數(shù)據(jù);數(shù)據(jù)挖掘;高校輿情控制

0引言

據(jù)我國互聯(lián)網(wǎng)發(fā)展現(xiàn)狀統(tǒng)計報告,截止2017年6月,我國網(wǎng)民規(guī)模已達到10.11億,互聯(lián)網(wǎng)的普及率已達到71.6%,互聯(lián)網(wǎng)已然在人們生產(chǎn)、生活、工作中扮演著舉足輕重的作用[1]。隨著互聯(lián)網(wǎng)運用發(fā)展領域的不斷擴大,各種網(wǎng)絡安全問題出現(xiàn)于互聯(lián)網(wǎng)環(huán)境中,導致各種網(wǎng)絡負面輿情信息在不經(jīng)意間被傳播,甚至被放大。特別是到了自媒體時代,人們可以通過各種社交平臺,例如:微信、微博、QQ空間、QQ群、論壇、表白墻等表達自己的觀點、抒發(fā)自己的情緒,或是轉發(fā)好友的發(fā)帖等,這也為一些惡意或不法分子提供了可乘之機———故意煽風點火、夸大負面影響,影響整個平靜的社交環(huán)境。對于高等學校來講,大學生的思想還尚未完全成熟,判斷能力還不夠強,特別容易受到網(wǎng)絡負面消息的影響,而高校作為培養(yǎng)擁護中國共產(chǎn)黨領導和我國社會主義制度、立志為中國特色社會主義事業(yè)奮斗終身的有用人才的思想高地,對于整個社會的安全、穩(wěn)定發(fā)揮著舉足輕重的作用。根據(jù)中國社會科學院《中國社會心態(tài)研究報告(2015)》顯示,大學生每天花費約5小時17分鐘在智能手機上,占一天時間的22%;據(jù)2015年《中國青年報》調(diào)查顯示,近75%的大學生閑暇時間用于上網(wǎng),19.3%的人把網(wǎng)絡作為最可靠的信息來源[2]。正是因為高校學生與網(wǎng)絡接觸緊密,各類信息呈現(xiàn)出傳播渠道多、傳播速度快、傳播范圍廣的特點,因此容易形成網(wǎng)絡輿情。網(wǎng)絡輿情可以采用網(wǎng)絡爬蟲等技術手段高效獲得高保真大數(shù)據(jù),通過挖掘隱藏在數(shù)據(jù)中的知識,有助于完善人們對高校大學生網(wǎng)絡輿情演化本質規(guī)律的認知,對網(wǎng)絡輿情演化過程中信息傳播和觀點擴散規(guī)律的認識[3]。2010年,巴拉巴西[4]指出,93%的人類行為是可預測的,所以高校學生網(wǎng)絡輿情演化趨勢可以基于網(wǎng)絡社交大數(shù)據(jù)進行從統(tǒng)計學意義上的預測與分析,這種預測結果可以為高校思想政治宣傳教育工作提供決策支持和理論參考。同時,通過科學合理的方式對網(wǎng)絡輿情進行引導,進一步提高高校思想政治宣傳教育成效。因此,針對高校網(wǎng)絡輿情大數(shù)據(jù)分析的迫切性與重要性,提出基于大數(shù)據(jù)分析視角的網(wǎng)絡自媒體輿情大數(shù)據(jù)分析方法,該方法包括:自媒體數(shù)據(jù)的獲取與預處理,自媒體大數(shù)據(jù)的建模與分析,以及引導策略研究,為提升高校思想政治教育工作提供支撐。

1自媒體數(shù)據(jù)獲取與預處理

1.1自媒體數(shù)據(jù)來源分析

自媒體數(shù)據(jù)具有來源廣(包括:QQ空間、QQ表白墻、微信空間、微博和論壇、各類群等)、結構復雜(體現(xiàn)在不同平臺數(shù)據(jù)結構的不一致性)等特點,并且這些數(shù)據(jù)中往往包含大量的輿情,因此在分析之前,需要對這些數(shù)據(jù)進行獲取、挖掘與分析,發(fā)現(xiàn)其中蘊含的規(guī)律。

1.2自媒體數(shù)據(jù)獲取

分析常見平臺的自媒體數(shù)據(jù)可以發(fā)現(xiàn),這些數(shù)據(jù)具有的共同屬性包括:評論的用戶名、用戶ID、評論時間、評論內(nèi)容、評論類型(包括:原創(chuàng)、轉發(fā)等)等。因此,結合自媒體數(shù)據(jù)的公共屬性設計網(wǎng)絡爬蟲,爬取其關鍵信息。

1.3自媒體文本數(shù)據(jù)清洗

通過分析用戶在各大社交平臺、論壇、交流群以及空間中發(fā)表的評論格式和內(nèi)容可以發(fā)現(xiàn),評論的內(nèi)容非常豐富且隨機性大,例如:表情、表情+文字描述、中英文混合、純英文、漢語拼音、數(shù)字等;評論語句段落非常隨意;網(wǎng)絡用語使用頻率高;短句使用豐富等。針對自媒體數(shù)據(jù)分析問題,運用文本處理技術對自媒體數(shù)據(jù)進行清洗,剔除其中的臟數(shù)據(jù)、噪聲數(shù)據(jù),為進一步加工處理提供高質量的數(shù)據(jù)源。

1.4自媒體文本分詞

在語義理解之前,最重要和最核心的環(huán)節(jié)是對自媒體文本進行分詞,該步驟決定了語義理解的準確性。分詞的主要任務是將一段一段的自然文本分割成一個一個獨立的詞語。對于中文文本來說,分詞的難點主要體現(xiàn)在,不像英文表達那樣存在自然間隔和詞劃分;對于英文文本來說,相對中文文本要更加容易,因為英文在表達過程中存在自然間隔,因此分詞難度相對較小。關于中文分詞工具,常用的包括:中科院計算所的NLPIR、Ansj分詞器、哈工大的LTP、清華大學的THULAC、斯坦福分詞器、HanLP分詞器、結巴分詞器、KCWS分詞器、ZPar分詞器以及IKAnalyzer分詞器等。關于英文分詞工具,常用的包括:NLTK、SpaCy、StanfordCoreNLP以及Elasticsearch等。結合前期研究以及實驗結果,中文分詞采用中科院的NLPIR準確率較高,英文分詞采用StanfordCoreNLP的分詞準確率較高。因此,采用以上兩種分詞工具對自媒體輿情文本進行分詞。

1.5自媒體文本關鍵詞提取

所謂關鍵詞就是文本中表達語義的重要詞語,通常是通過詞頻方式來發(fā)現(xiàn),即某個詞在文本中出現(xiàn)的頻率和次數(shù)越多表示該詞語的重要程度越高,并且這些詞一般都是形容詞和副詞,而那些語氣詞、介詞、連詞等停用詞,例如:“了”“的”“也”“是”“為”“它”“is”“at”“which”“the”“on”等雖然出現(xiàn)頻率非常高,但是對提取語義幾乎沒有任何幫助,需要將其刪除。目前,也有很多研究者為了便于分詞,針對不同應用場景提出了一些應用效果非常好的停用詞庫,來提高分析效率和分詞效果。本文采用TF-IDF(Termfre-quency-inversedocumentfrequency)方法提取自媒體文本中的關鍵詞,并構建關鍵詞矩陣。同時,采用哈工大開發(fā)的停用詞庫過濾停用詞。詞頻TF計算方法為TFi=某個詞i在文本中出現(xiàn)的次數(shù)文本中所有詞的總數(shù)量(1)逆向文件頻率IDF的核心思想是:如果包含詞i的文檔數(shù)量越少,則IDF越大,表明該詞具有良好的類別區(qū)分能力。某個特定詞i的IDF,是由總文檔個數(shù)除以包含該詞的文檔個數(shù),然后對商再取對數(shù)。具體計算方法為IDFi=log語料庫中文檔總個數(shù)包含詞i的文檔數(shù)+1(2)某一文本內(nèi)的高頻詞,以及該詞在整個文本文檔集中的低頻文件可以產(chǎn)生高權重的TF-IDF。所以,TF-IDF能夠保留重要詞語,過濾掉常見詞語。TF-IDF的計算方法為[5]TF-IDFi=TFi×IDFi(3)通過觀察式(3)可以發(fā)現(xiàn),TF-IDF與詞i在文本中出現(xiàn)的頻率正相關,與該詞i在整個語料庫中出現(xiàn)的頻率負相關。因此,提取關鍵詞的方法就是計算文本中每個詞的TF-IDF值,然后按照降序排列,取排在前面的若干個詞。

2基于大數(shù)據(jù)的高校網(wǎng)絡輿情演化趨勢及預測模型研究

2.1基于聚類分析的熱點事件發(fā)現(xiàn)

相同或相似關鍵詞被聚為一簇的概率也越大,對關鍵詞進行聚類分析是發(fā)現(xiàn)熱點事件的重要途徑與方法??紤]到缺乏先驗知識,本文擬采用半監(jiān)督高斯混合聚類算法來發(fā)現(xiàn)熱點事件。基于流形結構的半監(jiān)督混合高斯聚類算法是利用以輿情事件樣本標簽為形式的先驗信息,其目標函數(shù)為[6]f(θ)=∑Li=1∑Kk=1pckxli()logπkpxliθk()()+∑Ui=1∑Kk=1pckxui()logπkpxuiθk()()-λ∑Ui=1∑Uj=1Di,jwu×ui,j+2∑Li=1∑Uj=1Di,jwl×ui,j()(4)其中,L和U分別表示有標簽和無標簽的輿情事件樣本集大小;xli和xui分別表示有標簽和無標簽的輿情事件樣本;若輿情事件樣本xli屬于第k個高斯分布,則條件概率pckxli()=1,反之為0;wi,j表示近鄰圖中邊的權重;Di,j表示輿情事件樣本xi和xj之間的距離??紤]到需要分析和處理的輿情事件數(shù)量非常龐大,所需的計算量也非常大。為了提高算法在處理大規(guī)模文本聚類時的性能,采用分布式并行處理的思路對聚類算法進行優(yōu)化,基于Ma-pReduce的聚類模型[7],具體如圖1所示。

2.2語義網(wǎng)絡構建與分析

將高頻詞的兩兩共現(xiàn)關系進行量化,并且以圖形化方式進行展現(xiàn),反映詞與詞之間的結構關系,從而構建語義網(wǎng)絡。通過構建這種語義關系網(wǎng)絡,將直接展現(xiàn)出高頻詞之間的層次關系、親疏關系,便于分析。為了更加準確地反映熱門事件或是輿情熱點之間的關系,需要在圖的邊上附加權重,圖的兩個節(jié)點關系越緊密權重就越大。根據(jù)社團內(nèi)部事件之間權重大于社團之間邊權重的原則,將那些關系緊密的事件或是輿情熱點進行劃分就形成網(wǎng)絡社團。其中,邊權重的設置決定了社團的密度、大小、結構以及社團之間的聯(lián)系,因此,需要根據(jù)分析需求不斷調(diào)整與優(yōu)化權重。

2.3輿情情感傾向分析

在構建好網(wǎng)絡社團(即熱門事件或是熱點輿情的語義網(wǎng)絡)的基礎上,就能夠分析對其描述的關鍵詞的情感態(tài)度(主要包括:中立、消極和積極三種),來反映用戶關于熱門事件或是輿情熱點的情感態(tài)度以及強度,然后以語句為單位計算總和,得到情感類別。進一步地,計算整個輿情文本中的所有語句,就可以判定用戶關于輿情的情感態(tài)度和強度。需要注意的是,在計算情感態(tài)度和強度時,需要考慮那些直接表達情感傾向的詞語,還需要注意形容詞以及副詞等修飾詞,例如:很、非常、特別、太等,這些詞語能夠增強情感態(tài)度。因此,在分詞過程中,需要準確識別出形容詞、副詞以及否定詞,并建立對應的詞庫,以便對這些情感詞進行合理賦值;然后計算這些情感詞的加權值,獲得總體情感態(tài)度。

2.4輿情演化模型構建及引導策略建議

不同參與人在不同自媒體平臺上對同一事件的關注側重點也不一樣,又由于眾多參與人對同一熱點事件進行了自我觀點的表達,這些觀點之間可能因為某種因素又發(fā)生了碰撞,進一步增強了事件的熱度,最終演化成了網(wǎng)絡熱點事件。運用統(tǒng)計分析與數(shù)據(jù)挖掘方法對事件參與人的行為以及情感態(tài)度進行挖掘,以發(fā)現(xiàn)不同觀點的傳播和演化規(guī)律。通過傳播演化模型的構建以及分析,有助于為形成正確的輿論導向提供科學、合理的建議,例如:溯源網(wǎng)絡謠言,并針對其根源和原因發(fā)布正確的輿論導向,引導輿論向好發(fā)展,從而掌握輿論的主導權等。

3結語

高校作為立德樹人,培養(yǎng)高質量人才的主陣地,正面的輿論導向是必備的基礎環(huán)境。而隨著自媒體時代的到來,高校大學生利用網(wǎng)絡表達自己想法的渠道越來越豐富,產(chǎn)生了大量的社交數(shù)據(jù)以及潛在的輿情,因此運用大數(shù)據(jù)技術對網(wǎng)絡輿情進行分析與控制成了必然趨勢。本文從正確認識、預測與處置高校網(wǎng)絡輿情的角度出發(fā),通過研究主動獲取輿情數(shù)據(jù),并對其建模的方法,以期挖掘輿情傳播的內(nèi)在規(guī)律,為高校輿情管理人員提供決策支持,促進高校思想政治宣傳教育工作成效。

作者:王喜賓 趙歡 顧英 單位:貴州理工學院大數(shù)據(jù)學院 貴州理工學院貴州省電力大數(shù)據(jù)重點實驗室 貴州理工學院招生就業(yè)處