前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇信息檢索范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
【關(guān)鍵詞】網(wǎng)絡(luò)信息;檢索
隨著信息技術(shù)的高速發(fā)展,信息資源的越來越顯得重要,而網(wǎng)絡(luò)信息資源也逐步成為這個信息時代的核心資源。信息檢索技術(shù)也很快得到發(fā)展,在此網(wǎng)絡(luò)信息檢索隨著網(wǎng)絡(luò)的發(fā)展也應(yīng)運而生。網(wǎng)絡(luò)信息檢索,就是將描述特定用戶所需網(wǎng)絡(luò)信息的提問特征,與信息儲存的檢索標(biāo)識進行異同比較,從中找出與提問一致或基本一致的網(wǎng)絡(luò)信息的過程。相對傳統(tǒng)文獻檢索,網(wǎng)絡(luò)信息檢索顯現(xiàn)出了很多的優(yōu)越性,如不受時間地點的限制,檢索方式多樣化,多元化等。但是我覺得網(wǎng)絡(luò)信息檢索的發(fā)展還不是十分完善,仍存在些問題,如目前檢索工具在信息搜集缺乏統(tǒng)一的規(guī)范管理,檢索過程會出現(xiàn)很多雷同,甚至無用的垃圾信息等。以下從網(wǎng)絡(luò)信息檢索目前存在的問題,及針對問題面臨的以后的發(fā)展方向進行了探討。
隨著網(wǎng)上信息資源的膨脹發(fā)展,一種搜索引擎,無論它多么完善都不可能滿足一個人所有的檢索需求。如果遇到文獻普查、專題查詢、新聞?wù){(diào)查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求等煩瑣操作,基于網(wǎng)絡(luò)檢索工具的檢索工具產(chǎn)生了。
目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結(jié)果由各搜索引擎分別以不同頁面提交的網(wǎng)絡(luò)檢索工具,其實是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合。集成搜索引擎制作與維護技術(shù)簡單,可隨時對所鏈接的搜索引擎進行增刪調(diào)整和及時更新,尤其大規(guī)模專業(yè)搜索引擎集成鏈接,深受特定用戶群歡迎。如國內(nèi)天網(wǎng)搜霸和百度搜霸,國外比較著名的有“搜索之家” “網(wǎng)際瑞士軍刀”等。
另一個是元搜索引擎,用戶只需遞交一次檢索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將所有查詢結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。國外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前國內(nèi)現(xiàn)在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網(wǎng)頁搜尋機制,亦無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)支持。目前元搜索引擎技術(shù)主要有并行處理式和串行處理式兩大類。并行式元搜索引擎運行時是將查詢請求同時發(fā)向各個獨立搜索引擎,然后將的結(jié)果按特定的順序呈現(xiàn)給用戶;串行式元搜索引擎運行時是將查詢請求先發(fā)向某個獨立搜索引擎,待其返回結(jié)果后再將請求發(fā)往另一個獨立搜索引擎。
從第一個元搜索引擎Metacrawler誕生至今,這一新型的網(wǎng)絡(luò)檢索工具異軍突起,發(fā)展迅速,目前可用的元搜索引擎已近百種。由于元搜索引擎的功能受著源搜索引擎和元搜索技術(shù)的雙重制約,元搜索引擎比較理想的并不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語種,尤其是漢語檢索;(2)一些元搜索引擎實現(xiàn)檢索語法轉(zhuǎn)換的能力有限,不支持指定字段檢索,不能充分發(fā)揮各個獨立搜索引擎的高級檢索功能;(3)部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調(diào)用源搜索引擎;(4)大部分元搜索引擎僅支持調(diào)用AltaVista、Excite、、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結(jié)果上,元搜索引擎只能返回十幾、數(shù)十條“相關(guān)度”較高的結(jié)果,大量可能有價值的源搜索引擎的檢索結(jié)果被忽視,影響檢索結(jié)果的全面性。
Internet的發(fā)展使信息采集、傳播和利用無論是從規(guī)模還是速度都達到了空前的水平。我覺得未來網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展方向如下:
1.智能化
現(xiàn)有的檢索引擎存在著查全率和查準(zhǔn)率低的問題,未來的搜索引擎技術(shù)必須具有能及時挖掘新信息和及時能鏈接新增的信息,多途徑檢索功能,用戶可以交互式檢索,搜索出滿意的信息。提高網(wǎng)絡(luò)信息檢索技術(shù)水平并實現(xiàn)智能檢索,智能化是網(wǎng)絡(luò)信息檢索未來主要的發(fā)展方向。智能檢索是基于自然語言的檢索形式,機器根據(jù)用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索,智能檢索技術(shù)就是采用人工智能進行信息檢索的技術(shù),它可以模擬人腦的思維方式,分析用戶以自然語言表達的檢索請求,自動形成檢索策略進行智能、快速、高效的信息檢索。最近幾年,智能信息檢索作為人工智能的一個獨立研究分支得到了迅速發(fā)展,而且目前已有一些搜索引擎支持智能檢索,但智能化程度還不高,這方面還有待進一步的發(fā)展。
2.標(biāo)準(zhǔn)化
現(xiàn)在的網(wǎng)站信息瞬息萬變,雜亂紛繁,很是需要進行分類整理。目前雖然有大量的搜索引擎,但還沒有一個統(tǒng)一嚴(yán)格的分類方法來管理,網(wǎng)絡(luò)信息資源在組織分類上需要制定一個統(tǒng)一的分類標(biāo)準(zhǔn)。還要規(guī)范網(wǎng)絡(luò)術(shù)語,提高資源共享的程度,這樣可以有效保證用戶的檢索效率。
3.個性化
[關(guān)鍵詞] 向量空間 中文 信息檢索 經(jīng)濟
信息檢索( Information Retrieval) 是一個古老而又全新的話題。說它古老,因為自從有了文獻便有了信息檢索。當(dāng)人們從中查找所需信息時,信息檢索也就應(yīng)運而生。只不過那時可檢索的對象較少,因而檢索是一個不自覺的過程。早期的信息檢索主要是手工檢索,人們通過“心想――手翻――眼看”的方式進行。隨著社會的發(fā)展和信息量的增加,人們逐漸認(rèn)識到信息檢索的必要性與重要性,信息檢索逐漸作為一門新興的學(xué)科發(fā)展起來?,F(xiàn)代信息檢索是以計算機科學(xué)與技術(shù)、網(wǎng)絡(luò)技術(shù)、光盤技術(shù)、通信技術(shù)等現(xiàn)代信息技術(shù)在信息存儲與檢索中的應(yīng)用為基礎(chǔ)發(fā)展起來的。
一、信息檢索簡介
1.概念
廣義的信息檢索范圍很大,可以說從書本、報紙以及其他的各種媒體中查找人們需要的信息都可以稱為信息檢索。
狹義的信息檢索是特指利用計算機這個高效的工具對各種信息進行檢索的技術(shù)。信息檢索的內(nèi)容包括文本、圖像、視頻和音頻等多種,但本文只討論文本信息的檢索技術(shù),特別是中文信息的檢索技術(shù)。
信息檢索是一門研究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術(shù)。
2.Web信息檢索
Web的出現(xiàn)大大地促進了信息檢索技術(shù)的發(fā)展。Web上有異常豐富但又十分混亂的信息資源,其中絕大部分有用的信息還沒有挖掘出來。這是因為目前還沒有特別好的信息處理和檢索工具。這一領(lǐng)域的開發(fā)仍然處于初級階段。
3.中西文信息檢索比較
在文本信息檢索領(lǐng)域,西文信息檢索的發(fā)展較為迅速。西文信息檢索系統(tǒng)可以利用向量空間表示檢索信息內(nèi)容,并將自然語言處理應(yīng)用于信息檢索,大大提高了信息檢索的準(zhǔn)確性。中文信息的檢索和英文信息的檢索在很多地方是一致的,但也有一些不同。比如中文詞語之間沒有空格,因此在索引前需要進行詞語切分。此外,與英文相比,漢語句法分析和語義理解更為困難。
4.信息檢索的模型
一般有兩種信息檢索模型:基于統(tǒng)計的模型和基于語義的模型?;诮y(tǒng)計的模型是應(yīng)用某些統(tǒng)計的手段從被檢索文檔和高標(biāo)注等級文檔中查詢與用戶需求匹配程度最好的文檔;而基于語義的模型則嘗試對需求實現(xiàn)一定程度語法語義分析,即對自然語言文本進行一定程度的理解并重新生成查詢。
基于統(tǒng)計的模型主要有:布爾模型(Boolean Model)、擴展布爾模型(Extended Boolean Model)、向量空間模型(Vector Space Model)以及概率模型(Probabilistic Model)等。
二、向量模型
向量模型是重要的檢索模型,其主要優(yōu)點在于:a、通過對特征項的加權(quán)改進了模型的檢索效果;b.模型的部分匹配策略允許檢索出與查詢條件相接近的文獻;c.相似度的引進使得能夠?qū)Σ樵兘Y(jié)果進行排序,以倒排文檔方式提交結(jié)果。
1.文檔和項的向量空間表示
首先把一個文檔進行分詞處理,并去除那些停用詞,如“我”、“的”、“人們”等。然后對剩余的詞進行合并處理。
在一個給定的集合中先對每個文檔進行以上的操作,獲得每個文檔索引項的集合。再把所有文檔的索引項進行合并,形成了一個代表整個文檔集合的索引項集合,整個索引項集合表示了一個“空間”。在一個文檔空間中,可以給每個索引項賦一個權(quán)值,代表這個索引項在這個文檔中的地位。如表1所示,文檔1的向量空間是(3,4,5),文檔2的向量空間是(2,3,3)。
與文檔空間相對應(yīng)的一個概念是“項空間”,它是指一個索引項在文檔集合中的各個文檔權(quán)值的集合。如表1所示,索引項“經(jīng)濟”的向量空間是(4,3,0,0),索引項“金融”的向量空間是(5,3,0,5)。
于是文獻和查詢均可用由項構(gòu)成的向量來表示:d=(t1,t2, ……,tn) 。項的權(quán)重(term weight) :對于有n 個不同的項的系統(tǒng),文獻D=(t1,t2,……,tn)。
2.項權(quán)值
項t k(1≤k≤n)常常被賦予一個數(shù)值Wk,表示它在文獻中的重要程度,稱為項t k 的權(quán)重。因此,我們一般用D=(w1,w2,…,wn)的形式表示文獻。特征項的權(quán)重計算,是人為賦予的,因此主觀性較強,但比較權(quán)威的確定權(quán)重的方法是運用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik為特征項Tk在文檔Di中的出現(xiàn)頻率,稱為項頻率(term frequency);dfk則是文檔集D中出現(xiàn)特征項Tk的文檔的數(shù)量,稱為文檔頻率;idfk為dfk的倒數(shù),稱為反轉(zhuǎn)文檔頻率(inverteddocument frequency)。另外,還應(yīng)考慮到文檔的長度,否則長文檔易被檢出,而短文檔會被漏檢,所以通常還要對上面公式進行標(biāo)準(zhǔn)化處理。
假設(shè)有三個項:“經(jīng)濟”、“金融”和“計算機”,它們在不同文檔中的權(quán)值如表1所示。
根據(jù)這個表,可以畫出權(quán)值和文檔的三維向量空間。
3.計算向量之間的相似程度
相似度S(Similarity):指兩個文檔內(nèi)容相關(guān)程度的大小,當(dāng)文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內(nèi)積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高。由于查詢也可以在同一空間里表示為一個查詢向量(見圖1),可以通過相似度計算公式計算出每個文檔向量與查詢向量的相似度,排序這個結(jié)果后與設(shè)立的閾值進行比較。如果大于閾值則頁面與查詢相關(guān),保留該頁面查詢結(jié)果;如果小于則不相關(guān),過濾此頁。這樣就可以控制查詢結(jié)果的數(shù)量,加快查詢速度。
三、以經(jīng)濟信息檢索為例的實例分析
經(jīng)濟發(fā)展依賴于自然資源的開發(fā)與利用,也離不開經(jīng)濟信息資源的開發(fā)和利用。開發(fā)經(jīng)濟信息資源,實際上是對人類智力的開發(fā),是一種知識和科學(xué)技術(shù)的開發(fā),一種生產(chǎn)技能和管理技能的開發(fā)?,F(xiàn)在,經(jīng)濟信息已經(jīng)滲透到現(xiàn)代生活的各個領(lǐng)域,有效地地開發(fā)和利用經(jīng)濟信息,提高經(jīng)濟信息的傳播速度已經(jīng)成為現(xiàn)代經(jīng)濟發(fā)展的一種推動力,能夠大大提高勞動者的智力水平,從而促進經(jīng)濟的發(fā)展。因此,在以經(jīng)濟建設(shè)為中心、大力發(fā)展社會主義經(jīng)濟的過程中,必須不斷地開發(fā)和利用經(jīng)濟信息資源。
經(jīng)濟信息是一種社會資源,作用于經(jīng)濟活動過程,已經(jīng)成為現(xiàn)代社會經(jīng)濟發(fā)展的一個先決條件?,F(xiàn)代經(jīng)濟建設(shè)是一個龐大而復(fù)雜的系統(tǒng),需要依據(jù)大量的經(jīng)濟信息去控制、指揮、協(xié)調(diào)和組織系統(tǒng)的內(nèi)部關(guān)系,系統(tǒng)和系統(tǒng)之間也需要靠經(jīng)濟信息去聯(lián)系,才能使經(jīng)濟活動達到人們預(yù)期的目標(biāo)。在科學(xué)技術(shù)迅猛發(fā)展的社會里,經(jīng)濟信息資源顯得更加重要。
假設(shè)現(xiàn)有一個包含4篇經(jīng)濟金融類相關(guān)信息文檔的集合,這4篇文檔如下:
D1:金融投資的對象是金融資產(chǎn)……
D2:金融資產(chǎn)是獲得投資收益的資產(chǎn)……
D3:證券投資、基金投資和期權(quán)投資組成金融投資……
D4:獲得投資收益是證券性金融投資的主要目的……
檢索表達式Q為:金融投資的資產(chǎn)收益。
首先,需要對文檔和檢索表達式進行分詞處理,其結(jié)果如下:
D1:金融/投資/的/對象/是/金融/資產(chǎn)/……
D2:金融/資產(chǎn)/是/獲得/投資/收益/的/資產(chǎn)/……
D3:證券/投資/、/基金/投資/和/期權(quán)/投資/組成/金融/投資/……
D4:獲得/投資/收益/是/證券/性/金融/投資/的/主要/目的/……
Q:金融/投資/的/資產(chǎn)/收益/。
然后除去停用詞,去除后的文檔如下:
D1:金融/投資/對象/金融/資產(chǎn)/……
D2:金融/資產(chǎn)/獲得/投資/收益/資產(chǎn)/……
D3:證券/投資/基金/投資/期權(quán)/投資/組成/金融/投資/……
D4:獲得/投資/收益/證券/金融/投資/主要/目的/……
Q:金融/投資/資產(chǎn)/收益/。
計算項的權(quán)值根據(jù)公式
各個索引項的df和idf值如表2所示
各個索引項在文檔中的頻度如表3所示
則各個索引項在文檔中的權(quán)值如表4所示
檢索表達式的權(quán)值很簡單,如表5所示
采用內(nèi)積法計算向量的相似度,則可以看出,文檔D3與檢索表達式的相似度最高,D1、D2、D4相同且低于D3。
四、算法分析總結(jié)
算法的計算復(fù)雜程度還需要進一步探討,目前這些研究都還不夠深入,許多問題還有待于進一步探討;同時由于自然語言的復(fù)雜性,新查詢向量的查全率和查準(zhǔn)率雖然有所提高向量模型是以假設(shè)向量空間的各維之間相互正交(即各關(guān)鍵字之間相互獨立) 為前提的,因而不可避免地存在由此帶來的損失關(guān)鍵字間的相關(guān)性的缺點,可它把對文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運算,克服了布爾模型的二值評價的缺點,可以計算出文檔與查詢式的相關(guān)程度,因而可以很容易地進行輸出結(jié)果的排序,用戶相關(guān)性反饋機制也很容易實現(xiàn),尤其是具有對處理海量數(shù)據(jù)的適應(yīng)性等種種優(yōu)點使得它自誕生以來,至今都有很強的生命力。
參考文獻:
[1]雷景生林冬雪符淺淺:基于改進向量空間模型的Web信息檢索技術(shù)研究[J].計算機工程, 2005, 1: 14~16
[2]王曉黎王文杰:基于向量空間模型的文本檢索系統(tǒng) [J].微電子學(xué)與計算機, 2006, 23: 188~190
[3]包金龍:基于向量空間模型的信息檢索系統(tǒng)的設(shè)計 [J].情報檢索, 2005, 7:44~45
[4]安茹娜:淺析經(jīng)濟文獻信息的開發(fā)和利用[J].科技情報開發(fā)與經(jīng)濟,2007,12:54~55
摘要:隨著信息技術(shù)的發(fā)展以及藥學(xué)信息資源的更新,傳統(tǒng)藥學(xué)信息檢索課程的教材內(nèi)容和教學(xué)形式均有不同程度的老化。為應(yīng)對這一問題,應(yīng)強化對藥學(xué)類學(xué)生信息素養(yǎng)的培養(yǎng),改革該課程的教材和教學(xué)形式。
關(guān)鍵詞:藥學(xué)信息檢索;課程教學(xué);改革
藥學(xué)信息檢索是藥學(xué)類專業(yè)的必修課程,在培養(yǎng)學(xué)生的藥學(xué)科研和工作能力方面起著不可替代的作用。在新的網(wǎng)絡(luò)環(huán)境下,藥學(xué)信息資源急劇膨脹,新技術(shù)、新手段不斷涌現(xiàn)。然而長久以來,無論是藥學(xué)信息檢索的課程教材還是教學(xué)手段,仍然維持20世紀(jì)的傳統(tǒng),無法跟上時展的潮流,培養(yǎng)的學(xué)生在檢索能力方面必然會有所欠缺。為了盡可能地克服這一缺陷,提高學(xué)生的信息獲取能力,有必要從教學(xué)團隊、教材、教學(xué)新手段等方面入手,加強本課程體系建設(shè),更新課程內(nèi)容,采用與時代接軌的新技術(shù)作為教學(xué)方法,提高學(xué)生的學(xué)習(xí)興趣,進而培養(yǎng)他們獲取更全面的藥學(xué)信息資源的能力[1-5]。
1藥學(xué)信息檢索教材建設(shè)
1.1現(xiàn)有藥學(xué)信息檢索教材的不足
本教學(xué)團隊在2015年調(diào)研常見藥學(xué)信息檢索類教材后總結(jié)了這些教材的不足之處。首先,這些教材缺乏反映藥學(xué)信息最新發(fā)展的內(nèi)容:①不同程度地存在外文信息量不足、新藥研發(fā)相關(guān)信息和國外新上市藥物信息不足、藥物經(jīng)濟信息和藥事管理信息欠缺等共性的問題。②隨著計算機技術(shù)和網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)庫檢索已成為當(dāng)前信息檢索的主要工具,因此,藥學(xué)信息檢索理論應(yīng)包含數(shù)據(jù)庫檢索常識。③文獻管理工具應(yīng)運而生,極大地方便了文獻的檢索、管理與利用,多數(shù)教材沒有對該方面內(nèi)容進行更新。④垂直搜索引擎自2000年左右出現(xiàn)后,十多年來蓬勃發(fā)展,已取得很多突破性的研究進展,典型的如學(xué)術(shù)google、soopat等,為廣大科研人員進行信息檢索提供了極大便利,而已出版教材對此類問題的介紹卻寥寥無幾。另外已出版教材中不同程度地存在內(nèi)容陳舊和滯后的問題,其陳舊性主要表現(xiàn)在以下三個方面:①教材中手工檢索、光盤檢索等內(nèi)容陳舊落后,而聯(lián)機檢索只適用于情報專業(yè)學(xué)生,不宜花費較多筆墨;②網(wǎng)絡(luò)信息發(fā)展日新月異,很多網(wǎng)站的網(wǎng)址、格局和具體內(nèi)容等都已變化,而教材再版時卻缺乏修訂;③很多數(shù)據(jù)庫開始提供新的服務(wù)方式,其更趨于人性化和合理化。如引入文獻跟蹤傳遞、Client模式向WEB模式的轉(zhuǎn)變等,出版教材中對此鮮有介紹;④目前出版的同類教材多側(cè)重對檢索工具使用方法的羅列,在將檢索理論應(yīng)用于具體問題方面存在不同程度的欠缺,實用性有待加強。
1.2革新藥學(xué)信息教材的建議
針對上述現(xiàn)有教材的不足,結(jié)合藥學(xué)信息資源與技術(shù)發(fā)展的趨勢,一部合格的教材至少應(yīng)該具備涵蓋藥學(xué)信息更全面、檢索理論更完備、教學(xué)內(nèi)容更合理、更新穎、易讀性更好和實用性更強等特點。結(jié)合多年的藥學(xué)信息檢索教學(xué)與相關(guān)科研經(jīng)驗,筆者擬通過以下7個方面對藥學(xué)信息檢索教材進行改革。①立足全球藥物研發(fā)、生產(chǎn)、流通、使用及藥事管理等5大領(lǐng)域,進一步完善藥學(xué)信息資源的覆蓋范圍。從上述5個角度出發(fā),通過全面、系統(tǒng)地闡述各領(lǐng)域藥學(xué)信息的分布、相關(guān)權(quán)威網(wǎng)站信息資源和權(quán)威信息檢索工具,進一步拓寬藥學(xué)信息資源的覆蓋范圍,為學(xué)生將來從事相關(guān)領(lǐng)域工作奠定基礎(chǔ)。②進一步完善、改進藥學(xué)信息檢索的理論體系,在現(xiàn)有理論體系的基礎(chǔ)上,補充講解數(shù)據(jù)庫檢索常識和文獻管理應(yīng)用等兩部分內(nèi)容。③引入信息檢索的新工具、新理念,進一步完善、優(yōu)化和整合藥學(xué)信息檢索教材的內(nèi)容。引入或強化對Googlescholar、百鏈、Markush專利檢索等新檢索方法的介紹。④更新教材中陳舊滯后的內(nèi)容,系統(tǒng)性地更新重要數(shù)據(jù)庫、網(wǎng)站的信息,保證教材內(nèi)容與最新信息的一致性。⑤通過增加案例分析的比例,從而提高教材的易讀性。同時,對于同類型檢索工具,采用概述全部、重點闡述經(jīng)典工具的原則指導(dǎo)教材編寫。如對于期刊文獻的索引檢索工具,通過實例重點介紹科學(xué)引文索引(ScienceCitationIndex,SCI)的使用;對于期刊文獻的文摘檢索工具,通過實例詳細(xì)介紹Scifinder和Pubmed的檢索方法。⑥藥學(xué)信息檢索是一門實用性要求極高的課程,教材應(yīng)重點突出實用性。教材編寫時可從藥學(xué)信息資源的分布規(guī)律和日常使用習(xí)慣出發(fā),強化對權(quán)威檢索工具的介紹,弱化對不常用工具的介紹。⑦新藥立項調(diào)研需要獲取多方面的信息,不僅涉及眾多的數(shù)據(jù)庫,要求調(diào)研人員具備深厚的藥學(xué)信息理論知識和扎實的檢索技能,同時還要求熟悉調(diào)研的基本程序?,F(xiàn)有教材在立項調(diào)研方面著墨不多,而藥學(xué)類專業(yè)學(xué)生在畢業(yè)后大部分從事藥學(xué)相關(guān)工作,因此有必要在教材中引入新藥立項調(diào)研的內(nèi)容,幫助初學(xué)者了解新藥立項調(diào)研的主要流程,為其今后從事相關(guān)工作奠定基礎(chǔ)。
1.3新編藥學(xué)信息檢索教材的實踐
為實踐上述教材編寫理念,教學(xué)團隊積極申報,經(jīng)專家論證和江蘇省教育廳批準(zhǔn),《新編藥學(xué)信息檢索教程》(ISBN:9787564166045)獲得立項為2015年江蘇省高等學(xué)校重點教材(新編)。全書共分3篇,分別是基礎(chǔ)篇、檢索篇和管理利用篇。基礎(chǔ)篇主要包括第1章的內(nèi)容,講述信息與文獻的概念、文獻的分類、藥學(xué)信息及其分布;重點講述信息檢索的概念、檢索步驟、檢索效果的評價方法、文獻鑒別方法與閱讀文獻的技巧;最后總結(jié)了數(shù)據(jù)庫檢索的常識?;A(chǔ)篇的學(xué)習(xí)為后續(xù)檢索和管理利用文獻奠定理論基礎(chǔ)。檢索篇包括第2、3、4、5章,按照信息資源的類型,分別講述網(wǎng)站信息資源(第2章)、書籍與期刊(第3章)、特種文獻(第4章)、其他藥學(xué)信息資源(第5章)常用的檢索系統(tǒng)及其使用方法。掌握這些資源的概念、特點及檢索技能,是做好信息檢索工作的前提與保障。管理利用篇主要包括第6、7章的內(nèi)容,第6章介紹網(wǎng)頁及文獻管理的常用工具及其使用方法,重點介紹經(jīng)典的文獻管理軟件EndNote;第7章介紹新藥立項調(diào)研的內(nèi)容及方法。令人欣喜的是,2016年出版的《藥學(xué)信息檢索與利用》(ISBN:9787117221252)也對傳統(tǒng)教材的內(nèi)容和體系作了較多的創(chuàng)新,這表明教學(xué)同仁們都已意識到對藥學(xué)信息檢索教材進行革新的緊迫性和必要性,并且進行了有益的嘗試。
2藥學(xué)信息檢索課程的新教學(xué)形式
一般而言,傳統(tǒng)藥學(xué)信息檢索的教學(xué)形式主要是教師課堂講授,輔以少量的學(xué)生檢索實踐。然而近年來慕課(Massiveopenonlinecourses,MOOC)模式正深刻影響著大學(xué)教學(xué)方式的轉(zhuǎn)型[3],針對藥學(xué)信息檢索教學(xué)仍然是課堂教授型為主的現(xiàn)狀,教學(xué)團隊在教學(xué)中引入MOOC模式,利用E-class平臺建設(shè)了課程網(wǎng)站(圖1),攝制主要教學(xué)內(nèi)容的教學(xué)視頻,采用平時化、小組化的形式引導(dǎo)學(xué)生開展“課堂外+線上”的輔助學(xué)習(xí)形式。在教學(xué)實踐中,通過課程網(wǎng)站短小精悍的慕課視頻(圖2),提供暫停、回放等多種功能,由學(xué)生自我控制學(xué)習(xí)節(jié)奏;以在線交流或留言的方式提前了解學(xué)生的學(xué)習(xí)困難,在課堂上給予有效的輔導(dǎo),同時以學(xué)生的相互交流促進其對知識的吸收;另外,通過課程網(wǎng)站若干典型的問題,幫助學(xué)生及時進行檢測,使其對自身的學(xué)習(xí)情況作出判斷,其結(jié)果經(jīng)匯總處理后,能幫助教師進一步了解學(xué)生的學(xué)習(xí)狀況。傳統(tǒng)藥學(xué)信息檢索課程對學(xué)生學(xué)習(xí)質(zhì)量的評測主要是通過書面考試,但學(xué)生可以在考試前突擊記憶知識點,考試成績并不能代表真實的檢索水平和能力,起不到全面的考察作用。為此,筆者所在教學(xué)團隊試行了綜合PBL教學(xué)模式和翻轉(zhuǎn)課堂(FlippedClassroom)模式的課程考核體系。該體系包括向?qū)W生小組檢索任務(wù)、學(xué)生分工完成檢索課題、課堂展示檢索報告、小組間互相提問并交流等環(huán)節(jié)。教師在整個體系中僅扮演引導(dǎo)者的角色,某一小組的成績由其他小組打分而來。但對于學(xué)生在檢索和展示過程中暴露出的問題和欠缺,教師結(jié)合理論知識和實踐經(jīng)驗對學(xué)生進行點撥,從而深化學(xué)生對相關(guān)檢索技術(shù)的理解,強化學(xué)生的檢索技能。通過這樣的教學(xué)活動,不僅可以引導(dǎo)學(xué)生對藥學(xué)領(lǐng)域的熱點研究方向、焦點話題進行關(guān)注,訓(xùn)練他們解決實際問題的能力,還通過引入團隊互評機制,使得對學(xué)生學(xué)習(xí)質(zhì)量的評估更加客觀化和日?;?。培養(yǎng)藥學(xué)類專業(yè)學(xué)生的良好信息素養(yǎng)不僅需要強化他們的藥學(xué)信息檢索技能,還應(yīng)該使學(xué)生認(rèn)識到時刻接觸并掌握最新藥學(xué)信息的必要性和重要性,引導(dǎo)學(xué)生養(yǎng)成平時閱讀藥學(xué)研究、監(jiān)管、市場等相關(guān)信息的習(xí)慣。隨著智能終端與移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,移動閱讀正在逐漸占據(jù)學(xué)生課堂外的主要閱讀時間[4-5],教育者不應(yīng)排斥這一趨勢,而應(yīng)該順勢而為。教學(xué)團隊在教學(xué)中注重發(fā)揮移動閱讀的優(yōu)勢,將教學(xué)內(nèi)容與新興技術(shù)結(jié)合后推送給學(xué)生,通過增強內(nèi)容的可讀性、技術(shù)的實用性來吸引學(xué)生關(guān)注,從而達到對學(xué)生全方位的教育目的。
3總結(jié)
目前的藥學(xué)信息檢索類教材編寫年代相對較早,存在不同程度的缺陷,難以適應(yīng)新時代的教學(xué)需求。教學(xué)團隊一方面從課程教學(xué)內(nèi)容入手,從基礎(chǔ)上更新教材,引入新的信息資源、檢索方法與技術(shù),使學(xué)生所學(xué)與時展吻合。另一方面,對教學(xué)形式進行革新,引入慕課、移動學(xué)習(xí)、翻轉(zhuǎn)課堂、項目化任務(wù)等多種新教學(xué)手段,吸引學(xué)生的學(xué)習(xí)興趣,強化對學(xué)生實際檢索能力的訓(xùn)練和考察。良好的信息獲取能力對于現(xiàn)代藥學(xué)類專業(yè)學(xué)生有重要意義,可以為學(xué)生今后的工作奠定全面扎實的信息檢索基礎(chǔ)。本次教學(xué)改革以新內(nèi)容、新手段革新藥學(xué)信息檢索課程,有利于吸引學(xué)生的學(xué)習(xí)興趣,增強學(xué)生的學(xué)習(xí)效果,提高學(xué)生的檢索能力。
參考文獻
[1]楊霞.“互聯(lián)網(wǎng)+”視閾下醫(yī)學(xué)文獻檢索課的理性思考[J].電腦知識與技術(shù),2016,12(30):172-175.
[2]劉玉婷,王凌,馬路.醫(yī)學(xué)信息檢索課程現(xiàn)狀調(diào)研及改革探討[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(12):81-84+72.
[3]姬曉燕.醫(yī)藥文獻信息檢索教學(xué)的改進[J].藥學(xué)教育,2012,28(4):38-40.
[4]檀律科,何華,孫忠進,等.創(chuàng)新意識下的藥學(xué)研究生文獻檢索課程[J].藥學(xué)教育,2011,27(2):27-29.
[5]陳麗.新時期醫(yī)藥院校文獻檢索課教學(xué)改革探討[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(6):88-90.
[6]張丹.MOOC環(huán)境下我國信息素養(yǎng)教育研究綜述[J].圖書情報工作,2016,60(11):143-148.
[7]曾潤喜,陳創(chuàng).大學(xué)生移動閱讀行為的研究進展評述[J].?dāng)?shù)字圖書館論壇,2017,13(3):60-67.
當(dāng)今社會,科技飛速發(fā)展,我們已經(jīng)進入了信息網(wǎng)絡(luò)化社會。快速、全面、準(zhǔn)確地獲取所需要的信息,是現(xiàn)代人才必備的素質(zhì)。高校作為培養(yǎng)國家各種管理和科研人才的搖籃,必須上好信息檢索課。信息檢索課和其他課程既有共性,又有自身獨特的規(guī)律。要想上好這門課程應(yīng)解決好如下幾個問題。
第一,要轉(zhuǎn)變思想觀念,給信息檢索課以應(yīng)有的地位。
很多學(xué)生,也有部分教師認(rèn)為信息檢索課對學(xué)生們是可有可無的,不開設(shè)此課學(xué)生照樣寫各種論文,照樣畢業(yè)。這是一種把此課的意義和目的簡單化的錯誤認(rèn)識。
很多高校給信息檢索課設(shè)定了不同的名稱和地位,但多數(shù)都不能反映本課程的內(nèi)在價值。現(xiàn)在已是信息網(wǎng)絡(luò)時代了,這門課程同數(shù)學(xué)、語文、外語等學(xué)科一樣,應(yīng)是一門基礎(chǔ)的必修課。信息檢索是人人起碼應(yīng)具備的一種能力和手段,只不過不同專業(yè)的學(xué)生所檢索的信息內(nèi)容不同罷了。該課程地位不高,也是學(xué)生不重視的一個主要原因。
信息檢索課應(yīng)該是一門具有長遠戰(zhàn)略意義的課程,它關(guān)系到國家、民族的興衰。
第二,加強專業(yè)教師的培養(yǎng),建立一支專業(yè)教師隊伍。
人是生產(chǎn)力中最活躍的因素,起決定作用。信息檢索課對教師綜合素質(zhì)要求很高,不僅要有良好的信息及其檢索素質(zhì),還要具備相應(yīng)的計算機、圖書館學(xué)、外語知識,懂得更多其他的專業(yè)知識特別是懂自然科學(xué)各專業(yè)知識是非常重要的。
現(xiàn)在,很多大學(xué)都是由圖書館工作人員來承擔(dān)這項任務(wù)的。圖書館人員講此課程有其優(yōu)勢所在,但畢竟離專業(yè)教師水平還是有一定差距的。
教和學(xué)是教學(xué)過程中不可缺少的兩個相關(guān)的方面。所以我們應(yīng)大力培養(yǎng)專業(yè)教師,越多越好,以解決現(xiàn)在這方面人才的缺乏和綜合素質(zhì)不高的難題。要培養(yǎng)“復(fù)合型”人才,首先應(yīng)有“復(fù)合型”的教師隊伍,使信息檢索課有質(zhì)的飛躍。
第三,要明確信息檢索課的最終目的。
教學(xué)目的明確與否,直接影響教學(xué)質(zhì)量和效果。學(xué)校和教師不應(yīng)該把通過此課的教學(xué)使學(xué)生獲得相應(yīng)的知識和能力來解決平時查資料、完成作業(yè)和寫畢業(yè)論文等作為此課的最終目的,這樣短視的目的勢必削弱此課的重大意義和價值,降低其應(yīng)有的地位。
信息檢索這門課程培養(yǎng)的信息檢索意識和能力應(yīng)該是一種持久的、終身起作用的一種能力,即使學(xué)生畢業(yè)離開教師和學(xué)校到新的工作崗位時,依然能憑借這種能力及時更新、補充、獲取新的信息知識,解決自學(xué)、科研、工作中的問題。
有了如此深刻的認(rèn)識,必然激發(fā)教師的責(zé)任感和事業(yè)心,學(xué)生們也一定能重視起來,努力學(xué)好這門課程。
第四,正確處理理論課和實習(xí)課的關(guān)系。
每一門課程都是由特定的研究對象及其性質(zhì)、特征等構(gòu)成的完整理論體系,有其自身的規(guī)律和原則。如果不把這些最基本的東西講給學(xué)生,他們就不能對本課程有一個宏觀的掌握,沒有此知識作為基礎(chǔ),學(xué)生們對實習(xí)課就心里沒數(shù),認(rèn)識模糊,實習(xí)課將是盲目的,不會也不可能收到良好的效果。
我們強調(diào)理論知識的重要性,并不否定實習(xí)課的意義。這門課程實質(zhì)就是讓學(xué)生們在具備了一定信息知識和意識后,用其去指導(dǎo)實習(xí)活動,培養(yǎng)信息檢索能力。能力是要通過實踐鍛煉培養(yǎng)出來的,本課程的最大特點之一就是實踐性強,強調(diào)學(xué)生多動手,動手查找各種工具書,運用各種數(shù)據(jù)庫及各種手段,去解決實際問題。因此,實習(xí)課也是此課程不可缺少的組成環(huán)節(jié),而且有其重要的地位和作用。
我們反對因這門課程實踐性強,而少傳授或不傳授必要的信息檢索知識;也反對因傳授必要的基礎(chǔ)理論知識而輕視實踐和實習(xí)。在有限的課時內(nèi),教師要根據(jù)本校實際狀況和不同專業(yè)特點,靈活處理兩者的關(guān)系,理論課和實習(xí)課都應(yīng)有一定課時,不可偏廢,這樣才能獲得良好的教學(xué)效果。
第五,解決好開課時機和教材問題。
開課時機的選擇恰當(dāng)與否,會影響教學(xué)效果。大學(xué)生在大一時忙于專業(yè)課學(xué)習(xí),還沒有必須通過信息檢索來解決問題的需求。大一開設(shè)此課過早。過早開設(shè),沒有實習(xí)課做及時運用是容易忘掉理論的。我們在教學(xué)過程中發(fā)現(xiàn)大二是開設(shè)此課的最好時機,因為大一是基礎(chǔ)積累階段,到大二就產(chǎn)生了檢索的客觀需求了,這時開設(shè),學(xué)生們會有雪中送炭的感覺,因此他們會有很大的興趣去學(xué)習(xí)。過晚開設(shè),不易在學(xué)校這幾年里通過理論知識學(xué)習(xí)和相應(yīng)的實習(xí)課培養(yǎng)出這種終身攜帶的能力。學(xué)生在高校環(huán)境中有利于培養(yǎng)信息檢索能力的各種工具書、數(shù)據(jù)庫和檢索手段的幫助,走向社會后,很少有這樣的機會和條件,所以在大學(xué)期間培養(yǎng)這種能力是必要的。
信息檢索課教材五花八門,我們要根據(jù)學(xué)校的實際和培養(yǎng)目標(biāo)來選取相應(yīng)教材。我們對教材有如下要求:
第一,簡明實用。教材要傳授最基本的信息和檢索知識及原理。作為學(xué)生的理論基礎(chǔ)的教材,重點應(yīng)放在各種工具書、數(shù)據(jù)庫、聯(lián)機檢索、網(wǎng)絡(luò)檢索方面,這樣有利于各專業(yè)學(xué)生快速掌握信息資源檢索和利用的方法。
第二,全面新穎豐富。教材除了介紹傳統(tǒng)檢索方法外,還應(yīng)全面細(xì)致地介紹當(dāng)今國內(nèi)外信息檢索狀況及發(fā)展趨勢,提供本專業(yè)教師多年的經(jīng)驗與學(xué)術(shù)觀點作為學(xué)生們學(xué)習(xí)此課的指導(dǎo)或?qū)Ш剑@樣能快速培養(yǎng)學(xué)生的信息意識和相應(yīng)能力,少走彎路,擴展視野。
第三,大力介紹國內(nèi)外主要的信息服務(wù)機構(gòu)和服務(wù)系統(tǒng),使學(xué)生了解各種信息源及其質(zhì)量,使教材更實用,保證學(xué)生們獲得的信息全面、權(quán)威。
第四,教材應(yīng)配備各種相應(yīng)的多媒體。由于本課特點,如有各種多媒體的幫助,教學(xué)效果會更好。這些多媒體結(jié)合教材內(nèi)容提供了大量的樣例,并采取有利于學(xué)生思維方式和知識獲取的相應(yīng)結(jié)構(gòu)設(shè)計,這種集文字、圖像、音頻、視頻等于一體的教材,將直觀和理論結(jié)合起來,充分調(diào)動了學(xué)生們的各種感官,有效提高了學(xué)生參與的興趣和教學(xué)效果。
第五,與其他專業(yè)的關(guān)系。信息檢索的速度、全面性和準(zhǔn)確性,不僅僅取決于了解、掌握信息源和用什么方法去獲取,而且還取決于對本專業(yè)知識的了解掌握情況,取決于對信息的表述語言的掌握。
世界上多數(shù)權(quán)威數(shù)據(jù)庫是用英文完成的,很多學(xué)生經(jīng)常跨學(xué)科進行信息檢索,因此,從某種意義上說,信息檢索是多學(xué)科知識的綜合應(yīng)用,信息檢索需要多種知識和技能的支持。社會進步、科技飛速發(fā)展是用戶信息變化、發(fā)展的直接動力。用戶不僅僅需要本專業(yè)的學(xué)術(shù)信息,他們更需要全方位的綜合信息。因此,信息檢索能力和復(fù)合型人才、多學(xué)科知識是不矛盾的。
第六,與宣傳、利用學(xué)校圖書館各種信息資源結(jié)合起來。
高校圖書館是學(xué)校的信息、科研中心,不僅有豐富的各種信息,更重要的是還有各種各樣的信息檢索工具、數(shù)據(jù)庫和檢索手段,是我們開設(shè)信息檢索課的最好的實習(xí)基地。
首先讓學(xué)生們了解、利用好本校各種信息資源是非常重要的。這些資源方便、實用,有針對性,使學(xué)生們省時省錢。教師在講信息檢索課時,有目的地讓學(xué)生們了解圖書館方面的知識,讓學(xué)生們知道本館有哪些資源,在什么位置,用什么樣檢索工具和方法能獲取。
這些不僅有利于學(xué)生們把理論與實踐結(jié)合起來,有利于通過動手實踐培養(yǎng)檢索能力,達到了本課的最終目的,同時也提高了圖書館資源的利用率。
Abstract: The Internet has brought convenience to the users' information retrieval, but also led to a large number of redundant information, resulting in inefficient retrieval. Semantic retrieval makes retrieval efficiency and retrieval accuracy greatly enhanced through semantic analysis of the requirements of the users to retrieve. Based on the analysis on basic elements of semantic retrieval and retrieval principle, this paper describes three common semantic retrieval systems, which embodies the advantages of semantic retrieval in network information retrieval environment.
關(guān)鍵詞: 語義檢索;本體;語義網(wǎng)
Key words: semantic retrieval;ontology;Semantic Web
中圖分類號:TP39 文獻標(biāo)識碼:A 文章編號:1006-4311(2013)10-0203-02
0 引言
互聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,為人們提供了一個廣闊的信息空間,也為信息檢索提供了一個廣闊的發(fā)展平臺?;ヂ?lián)網(wǎng)的開放性和自由性使得網(wǎng)絡(luò)信息資源呈現(xiàn)出數(shù)量巨大、異構(gòu)性、分散性和動態(tài)性特征。但由于網(wǎng)絡(luò)信息時效性強以及互聯(lián)網(wǎng)缺乏必要的監(jiān)督和質(zhì)量控制,使得大量垃圾信息混于高質(zhì)量信息當(dāng)中,增加了有效信息獲取的難度,影響檢索效率。因此,使用有效的檢索工具才能使得網(wǎng)絡(luò)信息資源為人們所充分利用。
1 網(wǎng)絡(luò)信息資源點與檢索工具
上世紀(jì)90年代中期出現(xiàn)的搜索引擎技術(shù)目前已經(jīng)成為檢索各類網(wǎng)絡(luò)信息資源最主要的檢索工具。搜索引擎一般工作流程是借助于網(wǎng)絡(luò)自動搜索軟件(Robot、Spider等)訪問瀏覽網(wǎng)頁并抓取文件,并通過已瀏覽的網(wǎng)頁中的鏈接訪問更多網(wǎng)頁。在抓取網(wǎng)頁的同時對頁面文件進行分析分解以及索引,建立索引數(shù)據(jù)庫。當(dāng)用戶在搜索引擎界面輸入搜索詞后,搜索引擎對搜索詞進行處理,按照處理后的搜索詞在索引數(shù)據(jù)庫中找出所有包含相關(guān)內(nèi)容的網(wǎng)頁,并更具排名算法計算出排名順序然后按照一定的格式返回到搜索頁面。普通的搜索引擎缺點在于返回的檢索結(jié)果數(shù)量巨大,無關(guān)和冗余信息較多,用戶必須從中進行篩選。雖然布爾運算、截詞運算、自然語言檢索等技術(shù)使用大大提高了準(zhǔn)確率,但對用戶檢索素養(yǎng)要求很高。針對以上問題,學(xué)者把研究對象放到對詞意的挖掘上,探索實現(xiàn)基于概念匹配的檢索技術(shù)和方法,基于本體的語義檢索成為研究重點。
2 語義檢索基本要素和原理
隨著人工智能以及自然語言處理的發(fā)展,尤其是語義網(wǎng)技術(shù)的興起,自上個世紀(jì)以來語義檢索研究得到了迅猛的發(fā)展。雖然對于語義檢索在概念上到目前為止沒有統(tǒng)一的界定,但是不同的研究都有一個共同之處就是基于對信息資源的語義處理時限效率更高的檢索[1]。本體是語義檢索的基礎(chǔ),其主要任務(wù)是對信息資源進行語義表達。
本體(Ontology)原本是一個描述客觀事物本質(zhì)的哲學(xué)概念,是對客觀存在的一個系統(tǒng)的解釋和說明。如今,本體是一種能在語義和知識層次上描述概念體系的有效工具,用來描述概念以及概念之間的關(guān)系,通過概念之間的管理來描述概念的語義。本體作為一種最先進的知識表示方式能夠充分的描述所以的數(shù)據(jù)結(jié)構(gòu),是推理和關(guān)系數(shù)據(jù)庫的結(jié)合[2]。概括的講本體能夠在人們和應(yīng)用系統(tǒng)之間達成對術(shù)語含義的共享和共同理解,通過函數(shù)(functions)、關(guān)系(relations)、原則(axioms)和實例(instances)、類(classes)這5種元素表達本體中的知識,使其具有邏輯推理和語義識別功能,幫助檢索系統(tǒng)跨越目前基于關(guān)鍵詞的檢索過程中的上述問題以實現(xiàn)語義檢索[3]。目前實現(xiàn)網(wǎng)絡(luò)檢索的技術(shù)主要有兩種:第一種,依賴于編碼處理,以分類模式來描述信息資源以實現(xiàn)檢索的目的;第二種,是通過全文檢索查找文本中包含用戶指定的詞語的信息源。語義檢索的語義信息的提取和處理是基于語義網(wǎng)方法與技術(shù)的查詢處理與文檔標(biāo)注及索引?;诒倔w的查詢處理包括:查詢消歧和查詢擴展,通過消岐,明確查詢的確切所指,準(zhǔn)確反映用戶的信息意圖,繼而通過加入與其語義相關(guān)的其他概念來實施擴展。在對文檔進行語義標(biāo)注與索引的基礎(chǔ)上,先進行實例檢索,再據(jù)此返回所有以檢出實例標(biāo)注的文檔信息是語義標(biāo)注文檔檢索的一種普遍思路。相對于傳統(tǒng)的網(wǎng)絡(luò)檢索,基于本體的語義檢索的優(yōu)勢在于體現(xiàn)語義信息,準(zhǔn)確表達用戶的查詢意圖。
3 常見語義檢索系統(tǒng)介紹
3.1 一體化醫(yī)學(xué)語言系統(tǒng)(UMLS) UMLS(Unified Medical Language System)作為計算機化的情報檢索語言集成系統(tǒng),是美國國立醫(yī)學(xué)圖書館(NLM)主持的一項長期開發(fā)研究計劃。它不僅是自然語言處理、語言規(guī)范化以及語言翻譯的規(guī)范化工具,更是實現(xiàn)實現(xiàn)跨數(shù)據(jù)庫檢測的詞匯轉(zhuǎn)換系統(tǒng)并且還可以幫助用戶連接情報源,包括書目數(shù)據(jù)庫、事實數(shù)據(jù)庫、計算機化的病案記錄以及專家系統(tǒng)過程中對于其他的電子式生物醫(yī)學(xué)情報的一體化檢索。UMLS包括情報源圖譜(Information Sources Map)、語義網(wǎng)絡(luò)(Semantic Network)、專家詞典(SPECIALIST Lexicon) )和超級敘詞表(Metathesaurus)四部分。其中超級敘詞表是術(shù)語、生物醫(yī)學(xué)概念、等級范疇、詞匯及其涵義的廣泛集成。1997年第8版的超級敘詞表收錄了739439個詞匯,這些詞匯來源于30多種生物醫(yī)學(xué)詞表和分類表的能表達33萬多個概念的,詞匯量達到空前規(guī)模。而語義網(wǎng)絡(luò)是為超級敘詞表中的所有概念提供語義類型及相互關(guān)系結(jié)構(gòu)的工具,是為建立概念術(shù)語間相互錯綜復(fù)雜關(guān)系而設(shè)計的。UMLS的語義網(wǎng)絡(luò)不僅運用了常規(guī)的語義控制手段,如屬分、相關(guān)關(guān)系控制、語義等級,同時在語義規(guī)范和語義關(guān)系分析、延伸等多方面有許多創(chuàng)新。
3.2 語義網(wǎng)(Semantic Web) 為了能夠在網(wǎng)絡(luò)環(huán)境下也同樣實現(xiàn)語義檢索的功能進而開發(fā)研究了語義網(wǎng)的W3C項目。W3C項目是將網(wǎng)絡(luò)上的數(shù)據(jù)通過一種方式進行連續(xù)和定義,通過這種定義和連續(xù)可以根據(jù)人的不同需求實現(xiàn)計算機將數(shù)據(jù)自動進行整合以及再利用,從而達到更有利于人機協(xié)作的目的。資源描述框架(Re-source Description Framework,簡稱RDF)是語義網(wǎng)的核心構(gòu)件。在網(wǎng)絡(luò)中,一般用元數(shù)據(jù)對資源進行描述,而RDF則是處理元數(shù)據(jù)的一個基礎(chǔ)。RDF認(rèn)為一個具體的元數(shù)據(jù)是由屬性值(Statements)、屬性(Properties)和資源(Resources)構(gòu)成的三元關(guān)系模式[4],實際上是關(guān)于一個特定的資源特定屬性的取值聲明。使用RDFS語言,元數(shù)據(jù)的設(shè)計者不僅可以定義所描述資源的類別、屬性以及詞匯,還可以定義這些屬性或者對象的關(guān)系以及對象與屬性之間的相互關(guān)系,同時還可以進一步定義這些資源的對象、屬性以及屬性應(yīng)用類別和取值條件等,通過這些定義從而能以計算機理解的標(biāo)準(zhǔn)方式對元數(shù)據(jù)進行描述語義內(nèi)容以及元數(shù)據(jù)的結(jié)構(gòu)關(guān)系。
3.3 WordNet WordNet是一種基于認(rèn)知語言學(xué)的英語詞典,它是由普林斯頓大學(xué)的計算機工程師、心理學(xué)家和語言學(xué)家聯(lián)合設(shè)計的不僅是把單詞以字母順序排列,并且是按單側(cè)的意義組成的一個“單詞的網(wǎng)絡(luò)”。WordNet將所有的英語詞匯按詞性分為功能詞、形容詞、動詞、名詞和副詞五類。動詞被組成各種推演關(guān)系;名詞在詞匯記憶中被組成主題的層次;而形容詞和副詞被組織在N維超空間中。根據(jù)WordNet關(guān)系分析最大的優(yōu)勢是能在他的單詞網(wǎng)里通過相關(guān)關(guān)系消除歧義,因為WordNet分析主要是關(guān)系分析。WordNet在名詞的語義消歧率可以超過60%。
4 結(jié)語
從以上三個語義系統(tǒng)來看,無論是相對封閉的ULMS系統(tǒng)還是開放式的語義網(wǎng)、wordnet系統(tǒng)都具有較強的靈活性和擴展性。相對于常見的關(guān)鍵字信息檢索,語義檢索不需要用戶使用專業(yè)的檢索策略,也不需要語法嚴(yán)謹(jǐn)?shù)臋z索式,用戶可以將自己的信息需求通過自然語言直接表達出來。語義檢索在后臺經(jīng)過大量的計算,分析用戶的用戶的語義文檔信息,充分利用各種語義關(guān)系消除歧義將用戶真正需要的準(zhǔn)確的信息資源反饋給用戶,將用戶的檢索效率提升60—80%。因此,語義檢索無疑是當(dāng)前信息爆炸條件下最適合的網(wǎng)絡(luò)信息檢索方式。
參考文獻:
[1]黃敏,賴茂生.語義檢索研究綜述[J].圖書情報工作,2008,(6):63-66.
[2]Studer R, Benjamins R, Fensel D. Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25(1-2):16l-197.