前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇搜索引擎研究范文,相信會(huì)為您的寫作帶來(lái)幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:SEO;搜索引擎優(yōu)化;網(wǎng)絡(luò)營(yíng)銷
一、搜索引擎優(yōu)化概述
SEO是Search Engine Optimization的縮寫,翻譯成中文就是搜索引擎優(yōu)化,是通過(guò)研究搜索引擎的搜索規(guī)則來(lái)提高網(wǎng)站在搜索結(jié)果頁(yè)面排名的方法。SEO的主要工作分為內(nèi)部?jī)?yōu)化和外部?jī)?yōu)化,內(nèi)部?jī)?yōu)化指對(duì)網(wǎng)頁(yè)基本要素進(jìn)行調(diào)整,外部?jī)?yōu)化指如何增加網(wǎng)站外部鏈接,總之優(yōu)化的最終目的就是提高網(wǎng)站訪問(wèn)量,提升網(wǎng)站宣傳能力。
二、搜索引擎工作原理
研究搜索引擎優(yōu)化實(shí)際上就是對(duì)搜索引擎工作過(guò)程的逆向推理,因此,學(xué)習(xí)搜索引擎優(yōu)化首先要了解搜索引擎的工作原理。搜索引擎主要包括全文搜索引擎(百度、Google),目錄搜索引擎,元搜索引擎三大類。這里主要介紹全文搜索引擎的工作原理。
搜索引擎的主要工作包括:頁(yè)面收錄、頁(yè)面分析、頁(yè)面排序及關(guān)鍵字查詢。頁(yè)面收錄就是指搜索引擎在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)采集,然后將采集到的數(shù)據(jù)存放到自己的數(shù)據(jù)庫(kù)中,這是搜索引擎最基礎(chǔ)的工作。搜索引擎是根據(jù)頁(yè)面的URL地址找到網(wǎng)頁(yè),然后利用蜘蛛程序抓取網(wǎng)頁(yè)。頁(yè)面分析指搜索引擎對(duì)收錄的頁(yè)面將進(jìn)行一系列的分析、處理,主要包括:過(guò)濾標(biāo)簽提取網(wǎng)頁(yè)正文信息,對(duì)正文信息進(jìn)行切詞處理,建立關(guān)鍵字與頁(yè)面間的索引等,為用戶的查詢做好準(zhǔn)備。用戶向搜索引擎提交關(guān)鍵字查詢信息后,通常會(huì)返回多個(gè)結(jié)果頁(yè)面,決定頁(yè)面排序的主要因素包括頁(yè)面相關(guān)性和鏈接權(quán)重,做優(yōu)化工作的主要任務(wù)也就是想辦法提高頁(yè)面的相關(guān)性和鏈接權(quán)重,頁(yè)面相關(guān)項(xiàng)性主要由關(guān)鍵字匹配度、關(guān)鍵字密度、關(guān)鍵字分布及權(quán)重標(biāo)簽等決定,鏈接權(quán)重包括內(nèi)部鏈接權(quán)重和外部鏈接權(quán)重,其中外部鏈接權(quán)重影響較大。最后就是用戶進(jìn)行關(guān)鍵字查詢。
三、網(wǎng)站優(yōu)化實(shí)施
在說(shuō)網(wǎng)站優(yōu)化實(shí)施方案之前,先說(shuō)一下搜索引擎優(yōu)化的宗旨:SEO工作應(yīng)該以用戶為中心,圍繞提高用戶體驗(yàn)、完善網(wǎng)站功能而進(jìn)行,不能為了優(yōu)化而優(yōu)化。也就是說(shuō)在對(duì)網(wǎng)站優(yōu)化時(shí)應(yīng)該以滿足用戶需求為根本出發(fā)點(diǎn),而不要采用一些欺騙搜索引擎的手段以達(dá)到提高網(wǎng)站排名的目的。
四、網(wǎng)站結(jié)構(gòu)優(yōu)化
網(wǎng)站結(jié)構(gòu)包括物理結(jié)構(gòu)及邏輯結(jié)構(gòu)。物理結(jié)構(gòu)是由頁(yè)面的真實(shí)存儲(chǔ)位置決定的結(jié)構(gòu),反映的是頁(yè)面的存儲(chǔ)層次。邏輯結(jié)構(gòu)是指由頁(yè)面間的鏈接關(guān)系所決定的結(jié)構(gòu),它反映的是頁(yè)面間的鏈接層次關(guān)系。網(wǎng)站結(jié)構(gòu)優(yōu)化主要包括物理結(jié)構(gòu)優(yōu)化和邏輯結(jié)構(gòu)優(yōu)化。
網(wǎng)站物理結(jié)構(gòu)優(yōu)化主要是指規(guī)劃合理的站點(diǎn)結(jié)構(gòu),盡可能減小目錄深度,一般目錄深度一般不超過(guò)4層,目錄深度較小的頁(yè)面不管對(duì)于搜索引擎還是普通用戶都是有好處的,因而能得到更多的權(quán)重。也可以通過(guò)一些技術(shù)手段解決URL長(zhǎng)度的問(wèn)題,如URL重寫,但此時(shí)URL就不能反映頁(yè)面的真實(shí)存儲(chǔ)位置。
網(wǎng)站邏輯結(jié)構(gòu)優(yōu)化主要是建立合理的導(dǎo)航結(jié)構(gòu),減少頁(yè)面間的鏈接深度。只有具有清晰合理的網(wǎng)站導(dǎo)航結(jié)構(gòu),才能盡可能多地收錄網(wǎng)站的頁(yè)面和收錄更深層次的頁(yè)面。鏈接深度是指從源頁(yè)面到達(dá)目標(biāo)頁(yè)面所經(jīng)過(guò)的路徑數(shù)。鏈接深度越小被搜索引擎抓取的幾率就越大。減小鏈接深度可以采用以下方法:盡可能把重要頁(yè)面的鏈接和欄目放置到首頁(yè);把第二、三層的欄目標(biāo)題抽取到首頁(yè);建立網(wǎng)站地圖頁(yè)面,并提交給搜索引擎。
鏈接優(yōu)化。鏈接分為內(nèi)部鏈接和外部鏈接,是決定頁(yè)面權(quán)重的重要因素。內(nèi)部鏈接與外部鏈接相比外部鏈接對(duì)頁(yè)面權(quán)重的影響更大一些。鏈接優(yōu)化首先是鏈接對(duì)象的選擇,鏈接對(duì)象會(huì)影響頁(yè)面的相關(guān)性,在這方面影響最大的是文本,其次是圖片,最小的是對(duì)媒體文件。也就是說(shuō)超鏈接對(duì)象最好采用文本格式,且文本內(nèi)容最好使用與頁(yè)面主題相關(guān)的關(guān)鍵字和權(quán)重標(biāo)簽,如果使用圖片做超鏈接,必須設(shè)置圖片的alt屬性來(lái)表達(dá)主題。
內(nèi)部鏈接優(yōu)化主要是建立強(qiáng)大有序的內(nèi)部鏈接,讓網(wǎng)站所有頁(yè)面互相連通,還有一點(diǎn)就是保證網(wǎng)站中重要頁(yè)面能得到更多的鏈接,只有這樣才能提高搜索引擎對(duì)網(wǎng)站的收錄。外部鏈接優(yōu)化是搜索引擎優(yōu)化的一項(xiàng)重要工作,主要指如何增加網(wǎng)站的外部鏈接數(shù)量。增加外部鏈接的主要方法有:登陸分類目錄、交換鏈接和使用鏈接誘餌等。登陸分類目錄時(shí)注意不要登陸一些低質(zhì)量的分類目錄,網(wǎng)站因此可能會(huì)受到懲罰。交換鏈接時(shí)注意網(wǎng)站主題相關(guān)性、網(wǎng)站質(zhì)量、導(dǎo)出鏈接的數(shù)量,主題越相關(guān),網(wǎng)站質(zhì)量越高,導(dǎo)出鏈接數(shù)量越少網(wǎng)站能得到更多的權(quán)重。鏈接誘餌主要包括軟文、廣告和共享軟件。
關(guān)鍵字優(yōu)化。搜索引擎是以關(guān)鍵詞為搜索條件進(jìn)行檢索的,關(guān)鍵字優(yōu)化主要目的就是提高頁(yè)面和關(guān)鍵字的相關(guān)性。關(guān)鍵字優(yōu)化首先就是要尋找與頁(yè)面主題相關(guān)的關(guān)鍵字,優(yōu)先選擇那些符合大部分用戶搜索習(xí)慣的關(guān)鍵字,然后,就是對(duì)關(guān)鍵字的搜索量、商業(yè)價(jià)值、競(jìng)爭(zhēng)程度進(jìn)行評(píng)估,從中篩選出高搜索量、高相關(guān)性、低競(jìng)爭(zhēng)的關(guān)鍵字。關(guān)鍵字在網(wǎng)頁(yè)中出現(xiàn)的位置可謂無(wú)處不在,主要包括:title標(biāo)題、meta標(biāo)簽、網(wǎng)頁(yè)正文、url路徑、alt屬性等,關(guān)鍵字的密度控制在2%-8%的范圍內(nèi)比較合理。
五、總結(jié)
隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎優(yōu)化會(huì)得到越來(lái)越廣泛的引用。學(xué)習(xí)SEO其實(shí)并不難,但也不是一時(shí)就能學(xué)會(huì)的,學(xué)習(xí)SEO首先要學(xué)會(huì)多思考,多角度、多層面的去思考,去分析自己的網(wǎng)站;其次就是多實(shí)踐,積累經(jīng)驗(yàn);當(dāng)然還有最重要,也是最基礎(chǔ)的一項(xiàng)內(nèi)容,就是掌握SEO的基礎(chǔ)知識(shí)。
參考文獻(xiàn):
1、吳澤欣.搜索引擎優(yōu)化入門與進(jìn)階[M].人民郵電出版社,2008.
關(guān)鍵詞:搜索引擎;信息檢索;互聯(lián)網(wǎng);網(wǎng)絡(luò)信息量
中圖分類號(hào):TP393
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004―373X(2008)04―074―04
伴隨著互聯(lián)網(wǎng)的爆炸性發(fā)展,網(wǎng)絡(luò)用戶想找到所需的資料如同大海撈針,為了滿足人們信息檢索需求,專業(yè)搜索網(wǎng)站應(yīng)運(yùn)而生了。搜索引擎(search engine)是一個(gè)信息處理系統(tǒng),他以一定的策略在互聯(lián)網(wǎng)中搜集信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的,從用戶的角度來(lái)看,他就是一個(gè)幫助人們進(jìn)行信息檢索的工具。搜索引擎以傳統(tǒng)信息檢索技術(shù)的索引模型、匹配策略等技術(shù)為基礎(chǔ),涉及數(shù)據(jù)庫(kù)、信息檢索、人工智能、統(tǒng)計(jì)數(shù)據(jù)分析、數(shù)據(jù)挖掘、計(jì)算機(jī)網(wǎng)絡(luò)等諸多領(lǐng)域的理論和技術(shù)。
本文回顧了搜索引擎發(fā)展的簡(jiǎn)史,介紹他的分類和關(guān)鍵技術(shù),并對(duì)中文搜索引擎各組成部分進(jìn)行分析,最后指出了中文搜索引擎的發(fā)展趨勢(shì)。
1 搜索引擎的發(fā)展、分類和性能指標(biāo)
1.1發(fā)展簡(jiǎn)史
1990年由蒙特利爾的大學(xué)生Alan Emtage等人發(fā)明的Archie是搜索引擎始祖,他依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。后來(lái),一些開(kāi)發(fā)機(jī)器人(Robot)程序的編程者提出了設(shè)想:既然所有網(wǎng)頁(yè)都可能有指向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開(kāi)始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月,當(dāng)時(shí)Michael Mauldin將John Leavitt的Robot程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月,斯坦福大學(xué)的David Filo和楊致遠(yuǎn)共同創(chuàng)辦了超級(jí)目錄索引Yahoo,并成功地使搜索引擎的概念深入人心,Yahoo也被稱為第一代搜索引擎,從此搜索引擎的發(fā)展進(jìn)入了黃金時(shí)代。1998年9月,同樣是Stanford大學(xué)兩位博士生Larry Page和Sergey Brin成功開(kāi)發(fā)了新一代搜索引擎一一Google,具有比Yahoo使用的技術(shù)更快、更準(zhǔn)確的特點(diǎn),被視為第二代搜索引擎的代表。隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,搜索引擎之間也開(kāi)始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。
1.2搜索引擎的類別
根據(jù)搜索引擎的系統(tǒng)結(jié)構(gòu)、信息搜集方法、服務(wù)提供方式的區(qū)別,搜索引擎分為以下類別:
(1)機(jī)器人搜索引擎:機(jī)器人是指某個(gè)不斷重復(fù)執(zhí)行某項(xiàng)任務(wù)的自動(dòng)程序,基于機(jī)器人的搜索引擎多提供對(duì)全文的檢索,有時(shí)也叫作全文搜索引擎。機(jī)器人程序以某種策略對(duì)Internet進(jìn)行定期搜索,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,他會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù),由索引器建立索引。對(duì)用戶查詢則由檢索器檢索索引庫(kù),最后將查詢結(jié)果返回給用戶。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、不需人工干預(yù);缺點(diǎn)是返回信息量大,且有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。Google、百度就是這類搜索引擎的代表。
(2)目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息按照主題分成若干個(gè)大類,每個(gè)大類再依次細(xì)分,使信息形成按主題分類和組織的樹(shù)型結(jié)構(gòu)。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。由于目錄式搜索引擎的信息分類有人的參與,因此其搜索的準(zhǔn)確度是相當(dāng)高的,缺點(diǎn)是人工維護(hù)、信息量少、信息更新慢。典型代表是:Yahoo(現(xiàn)已采用Robot技術(shù))、LookSmart等
(3)元搜索引擎:這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求向多個(gè)的獨(dú)立搜索引擎遞交,再對(duì)返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是用戶需要做更多的篩選。元搜索引擎的搜索效果始終不理想,目前還沒(méi)有任何一個(gè)元搜索引擎取得強(qiáng)勢(shì)地位。
1.3搜索引擎的性能指標(biāo)
搜索引擎性能評(píng)價(jià)既要參考傳統(tǒng)型文獻(xiàn)檢索工具的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),如:信息組織加工及檢索服務(wù)提供方式等,又要立足于用戶的立場(chǎng),即能滿足大多數(shù)網(wǎng)絡(luò)用戶要求的搜索引擎就是一個(gè)好的搜索引擎。
在通常情況下,我們可以從以下幾個(gè)方面來(lái)衡量一個(gè)搜索引擎的性能:
查全率 指搜索引擎提供的檢索結(jié)果中相關(guān)文檔數(shù)與網(wǎng)絡(luò)中存在的相關(guān)文檔數(shù)之比,他是搜索引擎對(duì)網(wǎng)絡(luò)信息覆蓋率的真實(shí)反映。
查準(zhǔn)率 是搜索引擎提供的檢索結(jié)果與用戶信息需求的匹配程度,也是檢索結(jié)果中有效文檔數(shù)與搜索引擎提供的全部文檔數(shù)之比。
響應(yīng)時(shí)間 一般而言取決于2個(gè)因素,即與帶寬有關(guān)的網(wǎng)絡(luò)速度和搜索引擎本身的速度,只有在二者均獲得可靠的技術(shù)支持的情況下,才能保證理想的檢索速度。對(duì)搜索引擎來(lái)講,查全率和查準(zhǔn)率很難做到兩全其美,影響搜索引擎的性能的主要是信息檢索模型,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。
2 搜索引擎系統(tǒng)架構(gòu)和關(guān)鍵技術(shù)
搜索引擎一般由搜索器、分析器、索引器、檢索器和用戶接口等5大部分組成,其工作原理如圖1所示:
2.1搜索器
搜索器是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)的計(jì)算機(jī)程序,他從網(wǎng)站的某一個(gè)頁(yè)面開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到網(wǎng)頁(yè)中的其他鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)。在搜索器實(shí)現(xiàn)時(shí),系統(tǒng)中維護(hù)一個(gè)超鏈隊(duì)列,其中包含一些起始URL,搜索器從這些URL出發(fā),下載相應(yīng)的頁(yè)面,并從中抽取出新的超鏈加入隊(duì)列中,上述過(guò)程不斷重復(fù)直到隊(duì)列為空。為提高效率,搜索引擎還將Web空間按照域名、IP地址或國(guó)家域名進(jìn)行劃分,使用多個(gè)搜索器并行工作,讓每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的搜索。由于互聯(lián)網(wǎng)上的信息太多,因此搜索器必須采用一定的搜索策略對(duì)互聯(lián)網(wǎng)進(jìn)行遍歷并下載文檔搜索器,目前一般采用以廣度優(yōu)先搜索策略為主、線性搜索策略為輔的搜索策略。搜索器主要的搜索策略有:
線性搜索策略 線形搜索策略的基本思想是從一個(gè)起始的IP地址出發(fā),按IP地址遞增的方式搜索后續(xù)的每一個(gè)IP地址中的信息,完全不考慮各站點(diǎn)的HTML文件中含有的超鏈地址。該策略只適用于小范圍的全面搜索,可以發(fā)現(xiàn)被引用較少的新HTML文件信息源。
廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是先抓取起始 網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。廣度優(yōu)先搜索策略容易實(shí)現(xiàn)并被廣泛采用,但是需要花費(fèi)較長(zhǎng)時(shí)間才能到達(dá)深層的Web文件。
深度優(yōu)先搜索策略 深度優(yōu)先搜索策略是早期開(kāi)發(fā)搜索器使用較多的一種方法,他順著HTML文件上的超鏈走到不能再深入為止,然后返回到上一個(gè)結(jié)點(diǎn)的HT―ML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。深度優(yōu)先搜索適宜遍歷一個(gè)指定的站點(diǎn),但不適合于搜索相當(dāng)深的Web結(jié)構(gòu)。
2.2 分析器
分析器對(duì)搜索器找到的網(wǎng)頁(yè)信息進(jìn)行分析,以便建立索引。其分析技術(shù)包括:分詞、過(guò)濾、轉(zhuǎn)換等。通常選用“詞”作為文本特征的元數(shù)據(jù),在分詞時(shí),大部分系統(tǒng)從全文中抽取詞條,也有部分系統(tǒng)只從文檔的某些部分(如標(biāo)題等)抽取詞條。中文句子的詞語(yǔ)間沒(méi)有固定分隔符、漢語(yǔ)語(yǔ)義及結(jié)構(gòu)的復(fù)雜性給中文分詞帶來(lái)極大困難。
2.3 索引器
索引器的功能是對(duì)搜索器所搜索的信息進(jìn)行分析處理,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。索引項(xiàng)有元數(shù)據(jù)索引項(xiàng)和內(nèi)容索引項(xiàng)2種,元數(shù)據(jù)索引項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語(yǔ)索引項(xiàng))2種,用來(lái)反映文檔內(nèi)容,如:關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等。為了快速查找到特定的信息,必須將文檔表示為一種便于檢索的方式并存儲(chǔ)在索引數(shù)據(jù)庫(kù)中。索引數(shù)據(jù)庫(kù)的格式是一種依賴于索引機(jī)制和算法的特殊數(shù)據(jù)存儲(chǔ)格式,一個(gè)好的索引模型應(yīng)該易于實(shí)現(xiàn)和維護(hù)、檢索速度快、空間需求低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、矢量空間模型、概率模型等。索引器的輸出是索引表,他記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系,索引表一般使用倒排形式,即由索引項(xiàng)查找相應(yīng)的文檔。索引器可以使用集中式索引算法或分布式索引算法。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
2.4檢索器
檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。常用的檢索方法有以下幾種:基于關(guān)鍵詞的檢索;基于概念的檢索;基于內(nèi)容的檢索。
如在矢量空間索引模型中,用戶查詢q首先被表示為一個(gè)范化矢量V(q)=(t1,w1(q);…;t,wi(q);…;tn,w。(q))。然后按照某種方法來(lái)計(jì)算用戶查詢與索引數(shù)據(jù)庫(kù)中每個(gè)文檔之間的相關(guān)度,而相關(guān)度可以表示為查詢矢量v(q)與文檔矢量v(d)之間的夾角余弦,最后將相關(guān)度大于閥值的所有文檔按照相關(guān)度遞減的順序排列并返還給用戶。
2.5 用戶接口
用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,方便用戶輸入查詢條件、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制等。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)必須基于人機(jī)交互的理論和方法,以適應(yīng)人類的思維和使用習(xí)慣。在查詢界面中,用戶按照搜索引擎的查詢語(yǔ)法制定待檢索詞條及各種簡(jiǎn)單或高級(jí)檢索條件。在查詢輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個(gè)線性的文檔列表,其中包含了文檔的標(biāo)題、摘要、快照和超鏈等信息,用戶需要逐個(gè)瀏覽以找出所需文檔。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。
2.6檢索結(jié)果排序
對(duì)于某個(gè)檢索項(xiàng),通常會(huì)返回大量的查詢結(jié)果列表,其中混雜著大量的不相關(guān)文檔,為了提高查詢效率,搜索引擎要對(duì)檢索結(jié)果進(jìn)行相應(yīng)排序。
(1)基于內(nèi)容的相關(guān)度排序:考慮用戶所查詢的詞條在文檔中的出現(xiàn)情況,包括詞條頻率,逆文檔頻率,詞條位置等因素,根據(jù)文檔相關(guān)度決定其在檢索結(jié)果集中的位置。
(2)基于超鏈的相關(guān)度排序:考慮一個(gè)頁(yè)面被其他站點(diǎn)引用的次數(shù),這基本上反映了該頁(yè)面的重要性,超鏈的標(biāo)記:艾本也對(duì)鏈宿頁(yè)面起到概括作用。斯坦福大學(xué)研究開(kāi)發(fā)的PageRank算法,不僅考慮Web頁(yè)上的標(biāo)題或文本,還考慮與之相連接的其他網(wǎng)站,通過(guò)為Web頁(yè)面構(gòu)造引用圖,綜合頁(yè)面的被引用次數(shù),以及鏈源頁(yè)面的重要性來(lái)判斷鏈宿頁(yè)面的重要性,能夠查詢與用戶請(qǐng)求相關(guān)的“權(quán)威”頁(yè)面。
(3)檢索結(jié)果的聯(lián)機(jī)聚類:用戶查詢相關(guān)的文檔通常會(huì)聚類的比較近,而遠(yuǎn)離與查詢無(wú)關(guān)的文檔。因此可利用聚類技術(shù)將結(jié)果文檔集合分成若干組,同一組的文檔內(nèi)容相似度盡可能地大,組間相似度盡可能地小,用戶只需考慮他所選擇的文檔所在的組。
(4)推測(cè)用戶最終目的:通過(guò)各種技術(shù)推測(cè)用戶沒(méi)有在查詢語(yǔ)句中表達(dá)出來(lái)的查詢目的,如使用智能跟蹤用戶檢索行為,分析用戶模型,通過(guò)同類用戶的行為記錄推薦相關(guān)頁(yè)面;使用相關(guān)度反饋機(jī)制,通過(guò)對(duì)查詢請(qǐng)求的不斷修正以提高系統(tǒng)搜索結(jié)果的精確度等。
3 中文分詞技術(shù)
中文自動(dòng)分詞是網(wǎng)頁(yè)分析的基礎(chǔ)。在網(wǎng)頁(yè)分析的過(guò)程中,中文與英文的處理方式不同,這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒(méi)有分割符。這就要求在對(duì)中文網(wǎng)頁(yè)進(jìn)行分析之前,先要將網(wǎng)頁(yè)中的句子切割成一個(gè)個(gè)的詞的序列,這就是中文分詞。中文自動(dòng)分詞涉及到許多自然語(yǔ)言處理技術(shù)和評(píng)價(jià)標(biāo)準(zhǔn),在搜索引擎中,主要關(guān)心中文自動(dòng)分詞的速度和準(zhǔn)確度?,F(xiàn)有的分詞算法可分為3大類:基于分詞詞典的機(jī)械分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
(1)基于分詞詞典的機(jī)械分詞方法:這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進(jìn)行匹配,是比較成熟的技術(shù),又叫做機(jī)械分詞方法。按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的詞數(shù)最小)。實(shí)際使用的分詞工具,只是把機(jī)械分詞作為一種初分手段,此外還要利用各種其他的語(yǔ)言信息來(lái)提高切分的準(zhǔn)確率。例如一種方法是特征掃描(或標(biāo)志切分),首先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來(lái)進(jìn)行機(jī)械分詞,從而減少匹配的錯(cuò)誤率。
(2)基于理解的分詞方法:這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。他通常包括3個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、控制部分。在控制部分的協(xié)調(diào) 下,分詞子系統(tǒng)可以獲得有關(guān)詞句的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即他模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。
(3)基于統(tǒng)計(jì)的分詞方法:這種方法是對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因此也稱為無(wú)詞典分詞方法。從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此可以對(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算他們的互現(xiàn)信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度,當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為這些字的組合可能構(gòu)成了一個(gè)詞。但該方法時(shí)空開(kāi)銷比較大,而且經(jīng)常把不是詞的常用字組當(dāng)成詞,例如“我的”、“之一”等。在搜索引擎領(lǐng)域的實(shí)際應(yīng)用中,一般將機(jī)械分詞方法與統(tǒng)計(jì)分詞方法相結(jié)合,先進(jìn)行串匹配分詞,然后使用統(tǒng)計(jì)方法識(shí)別一些未登錄的新詞,這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢(shì),又利用了統(tǒng)計(jì)分詞中新詞自動(dòng)識(shí)別和自動(dòng)消除分詞歧義的特點(diǎn)。
分詞詞典是影響中文自動(dòng)分詞的一個(gè)重要因素,其規(guī)模一般在6萬(wàn)條詞左右,若辭典過(guò)大,則歧義現(xiàn)象將大大增加;而辭典過(guò)小,有些詞切分不出來(lái),同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴(yán)格的。對(duì)于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域,僅使用6萬(wàn)條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導(dǎo)致分詞精度下降,一般的解決方法是使用輔助詞典,其規(guī)模在50萬(wàn)詞條左右。另外,中文自動(dòng)分詞的難點(diǎn)在于未登錄詞的識(shí)別和分詞歧義的處理,如何處理這兩個(gè)問(wèn)題一直是該領(lǐng)域研究的熱點(diǎn)。
4 搜索引擎的技術(shù)熱點(diǎn)與發(fā)展趨勢(shì)
隨著互聯(lián)網(wǎng)的發(fā)展,針對(duì)基于關(guān)鍵詞搜索引擎所存在的不足,各搜索引擎網(wǎng)站紛紛向智能化、個(gè)性化方面發(fā)展,出現(xiàn)了值得關(guān)注的技術(shù)熱點(diǎn)。
4.1 多媒體搜索技術(shù)
可用于網(wǎng)絡(luò)檢索的多媒體信息的內(nèi)容特征大致包括:圖像的顏色、紋理、形狀等;聲音的音頻、響度、頻度和音色等;影像的視頻特征、運(yùn)動(dòng)特征等。這種類型的搜索引擎還不多見(jiàn),并且主要用于圖像檢索,如QBIC、WeebSeek、ImageRover等。目前的多媒體搜索引擎覆蓋面小,檢索功能不夠完善,效果也不太理想,因此,多媒體搜索技術(shù)尤其是音頻、視頻數(shù)據(jù)的檢索仍是搜索引擎的一個(gè)研究重點(diǎn)。
4.2 用戶行為分析
現(xiàn)在的搜索引擎是以關(guān)鍵字作為表達(dá)查詢的主要手段的,以按相關(guān)度大小排列的文獻(xiàn)列表為展示方式,任何人搜索同一個(gè)詞都會(huì)得到同樣的結(jié)果。為了克服千人一面的不足,人們逐步引入了一些個(gè)性化的技術(shù),包括對(duì)查詢輸入的修正,查詢結(jié)果的聚類等。但是,到目前為止,查詢輸入的主要方式還是關(guān)鍵字,查詢輸出的主要也還是文本列表。如何為用戶的學(xué)習(xí)和工作營(yíng)造一個(gè)個(gè)性化的信息空間,是未來(lái)搜索引擎應(yīng)該追求的方向。
4.3智能檢索技術(shù)
智能檢索主要包括自然語(yǔ)言處理、個(gè)性化搜索等技術(shù)。自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中的一個(gè)引人入勝的、富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是從人工智能的觀點(diǎn)看,自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語(yǔ)言。以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,稱之為智能搜索引擎。由于他將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。
4.4 P2P搜索技術(shù)
目前的互聯(lián)網(wǎng)是以服務(wù)器為中心的,人們向服務(wù)器發(fā)送請(qǐng)求,然后瀏覽服務(wù)器回應(yīng)的信息,而對(duì)等搜索技術(shù)P2P(Peer to Peer)將以用戶為中心,所有的用戶都是平等的伙伴,用戶可以通過(guò)P2P共享硬盤上的文件、目錄甚至整個(gè)硬盤。把這一理念具體運(yùn)用到搜索引擎技術(shù)上來(lái),P2P將使用戶能夠深度搜索文檔,而且這種搜索無(wú)須通過(guò)Web服務(wù)器,也可以不受文檔格式和宿主設(shè)備的限制,具有傳統(tǒng)搜索引擎無(wú)可比擬優(yōu)勢(shì)。P2P網(wǎng)絡(luò)的一個(gè)很大的問(wèn)題在于搜索信息時(shí)所產(chǎn)生的網(wǎng)絡(luò)通信量非常巨大,在時(shí)間和網(wǎng)絡(luò)資源方面造成很大的浪費(fèi)。為方便P2P網(wǎng)絡(luò)中的信息檢索,有關(guān)專家提出3種建立在特征文件基礎(chǔ)上的檢索機(jī)制:對(duì)語(yǔ)義路由進(jìn)行詳細(xì)分析,提出了一個(gè)建立在此技術(shù)和RDF技術(shù)基礎(chǔ)上的新方法。
【關(guān)鍵詞】 Google GFS MapReduce BigTable
1 google要解決的問(wèn)題
(1)WEB是非常巨大的,并且以指數(shù)級(jí)別在增長(zhǎng)。
(2)Web中存在不同形式的資源:
Word,HTML,PDF,ASCII,Images
(3)檢索時(shí)間要極短不能讓用戶等待。
(4)各種民族各種語(yǔ)言不同,需要不同的分詞方法。
(5)系統(tǒng)能夠每天承受每天上億次的檢索。
(6)優(yōu)化結(jié)果的排序規(guī)則,把用戶最需要的信息展現(xiàn)在最前面。
2 Google的分布式設(shè)計(jì)結(jié)構(gòu)
Google的分布式設(shè)計(jì)是一項(xiàng)偉大的設(shè)計(jì),它建立在上萬(wàn)臺(tái)計(jì)算機(jī)上。面的上萬(wàn)臺(tái)的復(fù)雜系統(tǒng)結(jié)構(gòu)Google在設(shè)計(jì)系統(tǒng)的開(kāi)始就有一個(gè)假設(shè):“機(jī)器是會(huì)出問(wèn)題的?!薄叭菰S機(jī)器出問(wèn)題,但機(jī)器必需自動(dòng)跳過(guò)或自動(dòng)修復(fù)這些問(wèn)題。”如圖1所示,是一張Google分布式設(shè)計(jì)的基本結(jié)構(gòu)圖。
2.1 抓取部分
URL Server:存儲(chǔ)URL列表,這些URL都是將要被抓取的對(duì)象。
Crawler:一組進(jìn)行并行檢索的爬蟲(chóng)程序,每個(gè)爬蟲(chóng)都有自己的DNS緩沖池,并且能夠在同一時(shí)間打開(kāi)300個(gè)網(wǎng)絡(luò)連接。
Store Server:壓縮并且存儲(chǔ)爬蟲(chóng)爬取來(lái)的網(wǎng)易。
Repository:包含每個(gè)網(wǎng)頁(yè)的全部信息,每個(gè)文檔都被標(biāo)記為docID,length,URL。
Indexer:解壓縮文檔并且解析每個(gè)文檔,并把其中的連接存儲(chǔ)在Anchors中。
Anchors:專門存儲(chǔ)解析而來(lái)的新的連接。
URL Resolver:把相對(duì)路徑URL轉(zhuǎn)換為絕對(duì)路徑的URL。
其中,Repository是壓縮存儲(chǔ)的,壓縮率一般超過(guò)60%。
2.2 索引部分
URL Resover:將絕對(duì)路徑的URL映射為docID并且存儲(chǔ)在Doc Index中,將anchor text存儲(chǔ)到barrels。
Indexer:解析文檔,并且將倒排表分布到barrels中。
Barrels:存儲(chǔ)倒排表,并且對(duì)倒排表進(jìn)行排序。
Lexicon:內(nèi)存中的hash表,左項(xiàng)為wordID,右項(xiàng)為指向其應(yīng)倒排表的指針。
Sorter:創(chuàng)建倒排索引。
2.3 檢索部分
Barrels:包含兩種不同的Barrels。短的barrel只包含標(biāo)題和連接的倒排表,長(zhǎng)得barrel存儲(chǔ)全部?jī)?nèi)容的倒排表。
Seacher:首先將用戶的搜索詞送入Lexicon,找到相應(yīng)Barrel后,再在Barrel中進(jìn)行檢索,如果檢索到,會(huì)返回docID,然后將這些docID送入Doc Index進(jìn)行檢索,并得到最終的結(jié)果。
3 Google文件系統(tǒng)
每個(gè)操作系統(tǒng)都有自己的文件系統(tǒng),例如Windows下常見(jiàn)的FAT32,NTFS。Linux下的EXT2,EXT3.然而GFS(Google File System)是一種非常特殊可擴(kuò)展的分布式文件系統(tǒng),適用于大型的,分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問(wèn)的應(yīng)用,它允許于普通硬件上,單提供不間斷監(jiān)控、錯(cuò)誤檢查、容錯(cuò)技術(shù)和自動(dòng)回復(fù)等功能??梢越o用戶提供總體性能較高的服務(wù)。
在GFS中存有海量數(shù)據(jù),一般一個(gè)文件會(huì)有幾個(gè)GB大,數(shù)據(jù)集一般能有幾個(gè)TB大。不能按照普通塊大小進(jìn)行文件操作,否則會(huì)引發(fā)I/O阻塞,所以必須重新設(shè)定塊大小。GFS中每個(gè)塊得大小為64MB。
4 MapReduce
在搜索引擎進(jìn)行索引的過(guò)程中,需要處理大量數(shù)據(jù),并且產(chǎn)生更多的新數(shù)據(jù),在分布式環(huán)境下,會(huì)有上千臺(tái)計(jì)算機(jī)工作,如何在這種大規(guī)模環(huán)境下工作,就是MapReduce需要具體解決的問(wèn)題。
5 BigTable
因?yàn)镚oogle體系結(jié)構(gòu)中存在許多半結(jié)構(gòu)化的數(shù)據(jù),如URL,內(nèi)容,Metadata,鏈接,anchors,pagerank,所以要設(shè)計(jì)一個(gè)能運(yùn)行與分布式式環(huán)境下的數(shù)據(jù)庫(kù)存儲(chǔ)結(jié)構(gòu),這種特殊的數(shù)據(jù)庫(kù)就是BigTable。
除此之外還有用戶數(shù)據(jù),用戶喜好設(shè)定數(shù)據(jù),最近的查詢/檢索結(jié)果,并且還有一些地理位置信息,如商店、飯館、道路、衛(wèi)星圖像、用戶的注釋等。這些數(shù)據(jù)規(guī)模是巨大的,有上十億的URL,并且每秒鐘要承受上千次的查詢,并且同樣要求提供100TB+的衛(wèi)星圖像數(shù)據(jù)。
相對(duì)于商業(yè)數(shù)據(jù)庫(kù)而言數(shù)據(jù)規(guī)模還是太大了,而且花費(fèi)太高,自己設(shè)計(jì)底層功能對(duì)幫助改善性能還是很大的。
關(guān)鍵詞:搜索引擎 發(fā)展 問(wèn)題 對(duì)策
1 搜索引擎組成和分類
在互聯(lián)網(wǎng)中尋找信息要依賴搜索引擎,搜索引擎由搜索器(Robot)、索引器(Indexer)、檢索器(Searcher)和用戶接口等四個(gè)部分組成[2]。搜索引擎系統(tǒng)首先由搜索器收集網(wǎng)頁(yè)的內(nèi)容,然后索引器分析收集內(nèi)容并建立索引,再由檢索器響應(yīng)用戶的檢索請(qǐng)示,用戶輸入關(guān)鍵字后,搜索器要用這個(gè)檢索詞與建立的索引器匹配,匹配后作相關(guān)性排序,最后通過(guò)用戶接口將排序結(jié)果送給用戶。
搜索引擎分為目錄索引類搜索引擎、全文搜索引擎和元搜索引擎?;谀夸浀乃阉饕媸前茨夸浄诸惖木W(wǎng)站鏈接列表。數(shù)據(jù)庫(kù)由人工建立,編輯人員訪問(wèn)某個(gè)Web站點(diǎn)后,根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)歸類,并把站點(diǎn)的URL和描述放入該類別。目錄索引中最具代表性的是Yahoo,國(guó)內(nèi)的新浪、網(wǎng)易屬于這一類。全文搜索引擎是名副其實(shí)的搜索引擎,它們從互聯(lián)網(wǎng)上提取各網(wǎng)站信息(以網(wǎng)頁(yè)文字為主)建立數(shù)據(jù)庫(kù),通過(guò)數(shù)據(jù)庫(kù)檢索與用戶查詢條件匹配的相關(guān)記錄,按一定的排列順序?qū)⒔Y(jié)果返回給用戶。國(guó)外具有代表性的有Google,國(guó)內(nèi)著名的有百度。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。元搜索引擎沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),當(dāng)用戶查詢關(guān)鍵字,它把用戶的查詢請(qǐng)求轉(zhuǎn)換成其他搜索引擎能夠接受的命令格式,并行訪問(wèn)數(shù)個(gè)搜索引擎來(lái)查詢這個(gè)關(guān)鍵字,并把這些搜索引擎返回的結(jié)果經(jīng)過(guò)處理后返回給用戶。著名的元搜索引擎有InfoSpace,中文的元搜索引擎有搜星搜索。
2 搜索引擎行業(yè)盈利模式概述
目前搜索引擎的主要盈利模式是基于競(jìng)價(jià)排名的廣告模式,具體廣告主在向垂直搜索引擎購(gòu)買該項(xiàng)服務(wù)后,通過(guò)注冊(cè)一定數(shù)量的關(guān)鍵字,按照付費(fèi)最高者排名靠前的原則,購(gòu)買了同一關(guān)鍵字的網(wǎng)站按不同的順序進(jìn)行排名,出現(xiàn)在網(wǎng)民相應(yīng)的搜索結(jié)果中。之后根據(jù)點(diǎn)擊效果,搜索引擎企業(yè)向廣告主收取相應(yīng)的費(fèi)用。
3 搜索引擎行業(yè)發(fā)展面臨的問(wèn)題分析
一是盈利模式單一。目前搜索引擎的主要盈利模式還是主要局限在廣告業(yè)務(wù)上,如此單一的盈利模式,導(dǎo)致其應(yīng)對(duì)風(fēng)險(xiǎn)的能力薄弱。二是行業(yè)整合力度不大。搜索引擎行業(yè)擁有巨大的資源優(yōu)勢(shì),如客戶資源,并未將其進(jìn)行有效的整合,以利用其優(yōu)勢(shì)去發(fā)展其相關(guān)行業(yè)。三是專業(yè)人才偏少。搜索引擎行業(yè)是一個(gè)迅猛發(fā)展的行業(yè),技術(shù)發(fā)展日新月異,對(duì)人才的需求非常大,一方面搜索引擎企業(yè)極其缺乏專業(yè)人才,一方面大量的求職者又無(wú)法滿足搜索引擎行業(yè)的要求。四是存在侵權(quán)現(xiàn)象。“網(wǎng)絡(luò)侵權(quán)”是搜索引擎服務(wù)商和營(yíng)銷商隨時(shí)可能面臨的法律難題。例如,搜索引擎營(yíng)銷借助互聯(lián)網(wǎng)實(shí)現(xiàn)信息海量鏈接,鏈接的頁(yè)面可能已經(jīng)損害到用戶或第三人權(quán)利,鏈接的設(shè)置者是否真的侵權(quán)是司法認(rèn)定中的難題。
4 搜索引擎行業(yè)發(fā)展對(duì)策研究
4.1加快發(fā)展垂直搜索引擎
垂直搜索引擎是繼通用搜索引擎之后的一項(xiàng)面向?qū)I(yè)化,主題化的搜索技術(shù),目前中國(guó)互聯(lián)網(wǎng)中不斷有面向新行業(yè)的垂直搜索引擎網(wǎng)站出現(xiàn),如搜房網(wǎng)、面向求職的職業(yè)搜索等。
發(fā)展垂直搜索引擎,可以開(kāi)拓出以下幾種盈利模式:一是成為行業(yè)交易中介平臺(tái)。通過(guò)和該行業(yè)的從業(yè)人員進(jìn)行有效溝通,以及對(duì)該行業(yè)進(jìn)行充分調(diào)研了解,對(duì)垂直搜索引擎進(jìn)行不斷改造和更新,使其成為電子商務(wù)的中介平臺(tái)。二是為相關(guān)行業(yè)提供有效搜索數(shù)據(jù)。垂直搜索引擎可以在用戶查詢時(shí)對(duì)其所輸入的關(guān)鍵字進(jìn)行記錄,之后在一個(gè)時(shí)間間隔內(nèi)(3個(gè)月或半年)對(duì)這些關(guān)鍵字進(jìn)行統(tǒng)計(jì)分析一次,就能夠獲取這個(gè)時(shí)間區(qū)間內(nèi)用戶對(duì)這個(gè)行業(yè)的各方面關(guān)注情況,這些資料對(duì)于從事該行業(yè)的企業(yè)具有參考價(jià)值。三是對(duì)行業(yè)用戶提供相關(guān)廣告推薦。作為競(jìng)價(jià)排名廣告的有益補(bǔ)充,數(shù)據(jù)挖掘技術(shù)在推薦廣告方面也可以發(fā)揮出它的作用。當(dāng)獲得一系列用戶的興趣模型,即可對(duì)這些用戶進(jìn)行相應(yīng)的聚類分析,可以進(jìn)行相應(yīng)的廣告投放和產(chǎn)品推薦。
4.2發(fā)展移動(dòng)搜索
移動(dòng)搜索可以挖掘出更多的盈利模式[3]。移動(dòng)搜索模式要充分發(fā)揮及時(shí)定位的特點(diǎn),當(dāng)用戶向移動(dòng)搜索提交關(guān)鍵字查詢時(shí),搜索引擎通過(guò)用戶所發(fā)送的關(guān)鍵字附帶的頭信息,判斷出用戶所在位置附近的基站。通過(guò)定位基站信息,查詢到用戶所在的大致位置信息,并將位置與關(guān)鍵字結(jié)對(duì)搜索結(jié)果重新組合,將相應(yīng)結(jié)果返回給用戶。通過(guò)與位置相結(jié)合的相關(guān)反饋,可以使用戶獲得更需要的搜索結(jié)果,為用戶提供有價(jià)值的參考信息,并有效過(guò)濾很多無(wú)關(guān)信息。例如,通過(guò)當(dāng)前用戶的位置,以用戶提交的某種商品名為關(guān)鍵字,返回給用戶該商品附近的銷售信息、打折排序等信息。
4.3積極發(fā)展搜索引擎上下游行業(yè)
一是向上游拓展,發(fā)展傳媒事業(yè)。通過(guò)發(fā)展傳媒事業(yè),搜索引擎行業(yè)可以獲得話語(yǔ)權(quán),獲得進(jìn)入相關(guān)行業(yè)的通道。二是橫向延伸,發(fā)展搜索的企業(yè)級(jí)應(yīng)用,為企業(yè)定制搜索服務(wù)。三是向下游拓展,發(fā)展電子商務(wù)。搜索引擎行業(yè)的用戶群中,有很大一部分是符合電子商務(wù)標(biāo)準(zhǔn)的,屬于電子商務(wù)的優(yōu)良客戶。
4.4加強(qiáng)搜索引擎行業(yè)人才隊(duì)伍建設(shè)
目前搜索引擎行業(yè)最緊缺的是三類人才:搜索引擎營(yíng)銷人才、投資管理人才和高技能專業(yè)軟件人才。解決這三類人才短缺瓶頸需要一個(gè)長(zhǎng)期努力的過(guò)程,一方面要多途徑培養(yǎng)人才,借助政府、高校、搜索引擎企業(yè)、研究機(jī)構(gòu)四方共同努力,加大力度培養(yǎng)本土高技能人才和營(yíng)銷人才;另一方面要多渠道吸引人才,創(chuàng)新人才政策,集聚海內(nèi)外優(yōu)秀投資管理人才和資本運(yùn)營(yíng)人才。
4.5加大對(duì)搜索引擎行業(yè)扶持力度
搜索引擎行業(yè)是互聯(lián)網(wǎng)企業(yè)的排頭兵,中國(guó)應(yīng)該對(duì)有技術(shù)潛力的搜索引擎企業(yè)加大扶持力度。在經(jīng)營(yíng)上給予政策優(yōu)惠,提高他們盈利水平,增強(qiáng)融資功能,滿足開(kāi)發(fā)新技術(shù)對(duì)資金的需求;政府應(yīng)主動(dòng)牽線,促進(jìn)搜索引擎行業(yè)與高校和研究機(jī)構(gòu)的技術(shù)交流,使搜索引擎行業(yè)可以分享高校和研究機(jī)構(gòu)的研究成果,并為他們的研究提供實(shí)踐機(jī)會(huì),促進(jìn)研究成果商業(yè)化。
4.6加快搜索引擎行業(yè)立法
首先,為進(jìn)一步推進(jìn)搜索引擎發(fā)展提供法律保障,為搜索引擎行業(yè)的行為做出明確的規(guī)范,規(guī)避潛在的經(jīng)營(yíng)風(fēng)險(xiǎn)。其次,為搜索引擎在版權(quán)保護(hù)方面提供法律依據(jù)。通過(guò)法律明確界定搜索引擎可以收錄信息的范圍,既可保證版權(quán)人的合法權(quán)益,又保證搜索引擎加入盡可能多的信息。第三,對(duì)搜索引擎營(yíng)銷做出行為規(guī)范。對(duì)搜索引擎營(yíng)銷所涉及到的諸如點(diǎn)擊計(jì)數(shù),虛假?gòu)V告等違規(guī)行為進(jìn)行規(guī)范、監(jiān)督和控制。
參考文獻(xiàn)
[1] 楊麗媼.百度的公信危機(jī)[J].東方企業(yè)文化,2009,(1):66-67.
[2] 張訊沫.搜索引擎的設(shè)計(jì)剖析[J].計(jì)算機(jī)工程與科學(xué),2002,24(4):18-20.
《報(bào)告》顯示,截至2011年第三季度,搜索引擎用戶規(guī)模達(dá)到3.96億,用戶增長(zhǎng)放緩。
網(wǎng)民網(wǎng)頁(yè)搜索使用慣性已經(jīng)養(yǎng)成
百度憑借其豐富的產(chǎn)品線,仍舊占據(jù)極為領(lǐng)先的市場(chǎng)地位,2011年市場(chǎng)集中化趨勢(shì)更為明顯。百度對(duì)六大群體——少年用戶群、大學(xué)生用戶群、白領(lǐng)用戶群、藍(lán)領(lǐng)用戶群、老年用戶群、農(nóng)村用戶群的滲透率都很高,沒(méi)有明顯的用戶滲透短板。與此同時(shí),其他搜索引擎公司正在崛起,但是在傳統(tǒng)網(wǎng)頁(yè)搜索上,超過(guò)百度較為不易。
垂直搜索引擎正在興起
隨著中國(guó)網(wǎng)民的日益成熟,網(wǎng)民在仍舊是綜合搜索引擎用戶的同時(shí),更多細(xì)分化的需求開(kāi)始通過(guò)垂直搜索引擎滿足,2011年這一趨勢(shì)更為明顯。在爭(zhēng)奪垂直產(chǎn)品搜索用戶上,三股力量在角力:綜合搜索引擎、垂直搜索引擎、提品服務(wù)的網(wǎng)站站內(nèi)搜索。目前綜合搜索引擎的用戶量非常大,但另外垂直搜索引擎以及網(wǎng)絡(luò)應(yīng)用站內(nèi)搜索用戶量增長(zhǎng)迅速。
從產(chǎn)品搜索看,各有15%左右的用戶使用專業(yè)垂直搜索引擎和使用購(gòu)物網(wǎng)站站內(nèi)搜索;從視頻搜索看,則是視頻網(wǎng)站站內(nèi)搜索較強(qiáng),比例達(dá)到23.2%,使用專業(yè)垂直搜索引擎和視頻網(wǎng)站站內(nèi)搜索的比例分別是9.9%和23.2%;音樂(lè)搜索亦是如此,在音樂(lè)網(wǎng)站站內(nèi)搜索的比例達(dá)到28.3%,已超過(guò)通過(guò)綜合搜索引擎提供的音樂(lè)搜索功能搜索的21.7%。
新搜索入口正在形成
網(wǎng)民使用較多的仍舊是直接上專業(yè)搜索網(wǎng)站的首頁(yè)搜索,有81%的用戶有這一習(xí)慣。其次是在瀏覽器地址欄里輸入關(guān)鍵詞搜索,用戶比例達(dá)39.6%。網(wǎng)民進(jìn)入搜索引擎的方式多種多樣,除了以上這兩種外,導(dǎo)航網(wǎng)站、瀏覽器搜索框、聊天工具等都是網(wǎng)民進(jìn)入搜索引擎的重要入口,使用比例分別達(dá)到34.2%、31.4%、28.1%。
分用戶群看,老年用戶更習(xí)慣使用直接登錄首頁(yè),使用網(wǎng)站首頁(yè)的比例在六大群體中最高,達(dá)到84.8%?;钴S度較高的大學(xué)生用戶和少年用戶更喜歡瀏覽器搜索框和聊天工具提供的搜索引擎入口,大學(xué)生用戶使用瀏覽器搜索框的比例為42.4%,少年用戶使用聊天工具提供搜索框的比例是39.1%。這預(yù)示著搜索未來(lái)的發(fā)展方向。
新聞、視頻和音樂(lè)是用戶最常搜索的三大內(nèi)容