99久久99久久精品免费看蜜桃,亚洲国产成人精品青青草原,少妇被粗大的猛烈进出va视频,精品国产不卡一区二区三区,人人人妻人人澡人人爽欧美一区

首頁 > 文章中心 > 正文

地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜應(yīng)用

前言:本站為你精心整理了地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜應(yīng)用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜應(yīng)用

摘要:本文把自然語言處理、知識圖譜等智能化技術(shù)和地質(zhì)專業(yè)檔案信息服務(wù)工作相結(jié)合,研究了地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜的構(gòu)建方法和技術(shù),并根據(jù)地質(zhì)專業(yè)檔案服務(wù)的特點,建立了地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜,實現(xiàn)了面向地質(zhì)專業(yè)人員的地質(zhì)檔案智能化檢索服務(wù),并進(jìn)行了實際的應(yīng)用系統(tǒng)開發(fā),提升了專業(yè)檔案館的專業(yè)化服務(wù)程度和效率。

關(guān)鍵詞:地質(zhì)檔案;領(lǐng)域知識圖譜;智能檢索

地質(zhì)檔案的借閱利用以地勘單位的專業(yè)人員為主,他們查找相關(guān)資料基本上都是為了地勘項目或研究工作。傳統(tǒng)的資料檢索方式基本上都是根據(jù)有限的條件來檢索地質(zhì)檔案,這種方法只能大概檢索到檔案而不能找到深度的相關(guān)資料,更不能從其中發(fā)現(xiàn)知識。如果想要得到更加深入的專業(yè)信息需要詳細(xì)閱讀和提煉案卷內(nèi)容,這會給借閱者帶來很大的時間成本。此外長時間占用館藏機(jī)構(gòu)服務(wù)資源,館藏機(jī)構(gòu)服務(wù)效率無法提高?;谏鲜銮闆r,本文以智能化技術(shù)提升檔案信息服務(wù)水平和效率為目標(biāo),探索自然語言處理、知識圖譜等智能化技術(shù)和地質(zhì)專業(yè)檔案管理和服務(wù)工作的結(jié)合,從新的角度組織地質(zhì)檔案數(shù)據(jù),研究地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜的構(gòu)建方法和技術(shù),建立了面向借閱服務(wù)的地質(zhì)專業(yè)領(lǐng)域知識圖譜,實現(xiàn)了地質(zhì)檔案智能化檢索服務(wù)。

1地質(zhì)檔案智能化服務(wù)的技術(shù)基礎(chǔ)

1.1 自然語言處理

地質(zhì)檔案的專業(yè)知識隱含在專業(yè)的文字報告中,要想挖掘其中的知識必然離不開自然語言處理技術(shù)(Natural Language Processing,NLP)。自然語言處理技術(shù)實現(xiàn)人機(jī)間自然語言通信,意味著要使計算機(jī)既能理解自然語言文本的意義,也能以自然語言文本來表達(dá)給定的意圖、思想等。地質(zhì)專業(yè)檔案來自日常匯交和歷史檔案的數(shù)字化掃描,在地質(zhì)專業(yè)檔案管理和信息服務(wù)的不同階段,自然語言處理技術(shù)都不可或缺。根據(jù)處理對象的粒度不同,自然語言處理在地質(zhì)專業(yè)檔案智能化服務(wù)中可以滲透在詞法分析、句法分析、語義分析及篇章分析的不同層次。

1.2 地質(zhì)領(lǐng)域知識圖譜

領(lǐng)域知識圖譜(Knowledge Graph,KG)又叫作特定行業(yè)知識圖譜或者垂直領(lǐng)域知識圖譜,指根據(jù)對某個行業(yè)或細(xì)分領(lǐng)域的深入研究而定制的版本,主要解決當(dāng)前行業(yè)或細(xì)分領(lǐng)域的專業(yè)問題,如軍事、公安、交通、醫(yī)療等特定領(lǐng)域,用于復(fù)雜的應(yīng)用分析或輔助決策,具有專家參與度高、知識結(jié)構(gòu)復(fù)雜、知識質(zhì)量要求高、知識粒度細(xì)等特點。典型的領(lǐng)域知識圖譜包括IBM Watson Health醫(yī)療知識圖譜、海致星圖金融知識圖譜等。本文的地質(zhì)檔案知識圖譜就屬于此類,領(lǐng)域知識圖譜中知識圖譜節(jié)點和關(guān)系類型有限,對準(zhǔn)確性和圖譜的質(zhì)量要求較高。地質(zhì)領(lǐng)域知識圖譜最大的問題是構(gòu)建圖譜所需的專業(yè)語言材料一般都比較缺乏,需要地質(zhì)領(lǐng)域?qū)<疫M(jìn)行人工干預(yù)。

2地質(zhì)專業(yè)檔案知識圖譜模式設(shè)計

地質(zhì)專業(yè)領(lǐng)域知識圖譜在邏輯結(jié)構(gòu)上可分為數(shù)據(jù)層和模式層。數(shù)據(jù)層包含大量的事實信息,即實體、關(guān)系、實體或者實體、屬性、屬性值等三元組表示形式,將這些數(shù)據(jù)存儲在圖數(shù)據(jù)庫中構(gòu)成大規(guī)模的實體關(guān)系網(wǎng)絡(luò),進(jìn)而形成知識圖譜。模式層建立在數(shù)據(jù)層之上,是知識圖譜的核心,通常使用本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關(guān)系以及實體的類型和屬性等。本文中,地質(zhì)專業(yè)檔案知識圖譜的模式框架由地質(zhì)專業(yè)案卷類和地學(xué)專業(yè)知識本體聯(lián)合而成,概念類型如下:(1)案卷類及關(guān)系定義:類之間存在相互的關(guān)系,類之間可以定義單向的關(guān)系,也可以定義雙向的關(guān)系。(2)案卷類屬性定義:與類相關(guān)的屬性,如案卷類的題名、形成單位、資料類別等。(3)地學(xué)專業(yè)知識類定義:定義多個地學(xué)專業(yè)領(lǐng)域便于將類進(jìn)行分組管理。如地質(zhì)勘探域之下有工程勘探、地質(zhì)評價、坑道鉆探等類,基礎(chǔ)地質(zhì)之下有地層、地質(zhì)構(gòu)造、地質(zhì)演變等類。

2.1 利用地質(zhì)檔案元數(shù)據(jù)對知識圖譜模式進(jìn)行初步描述

地質(zhì)檔案元數(shù)據(jù)可作為知識圖譜模式的第一描述來源。但為了知識圖譜的通用性,需要所有的關(guān)聯(lián)機(jī)構(gòu)采取相同的元數(shù)據(jù)規(guī)范。國土資源部于2001年制訂了《地質(zhì)資料檔案著錄細(xì)則》,對地質(zhì)檔案元數(shù)據(jù)進(jìn)行了統(tǒng)一規(guī)范,其中對地質(zhì)資料檔案著錄項目及其用文規(guī)范做了詳細(xì)約定,這給地質(zhì)案卷類的創(chuàng)建提供了重要依據(jù)。本文根據(jù)地質(zhì)檔案著錄規(guī)范中的元數(shù)據(jù)信息,把地質(zhì)檔案抽象為案卷、案卷屬性、案卷屬性類三個頂級類,構(gòu)成案卷的基本抽象模式。再加上后面將要提到的地學(xué)專業(yè)知識類,就構(gòu)成了地質(zhì)檔案知識圖譜模式的基本概念,如表1。

2.2 利用地學(xué)專業(yè)知識本體對知識圖譜模式進(jìn)一步補充

元數(shù)據(jù)只解決了知識圖譜中的案卷信息規(guī)范問題,未解決知識圖譜模式中的知識承載框架問題。地質(zhì)檔案知識圖譜由案卷和地質(zhì)專業(yè)知識兩個層面組成,專業(yè)知識本體可以彌補元數(shù)據(jù)在專業(yè)知識信息描述方面的不足,豐富地質(zhì)檔案資源的知識信息表達(dá)。本文采取建立地質(zhì)專業(yè)知識本體的方式來解決知識圖譜中知識承載的問題。在地礦領(lǐng)域,吳永亮等[1]通過對地質(zhì)數(shù)據(jù)的概念、屬性、關(guān)系、規(guī)則及相應(yīng)實例的詳細(xì)表達(dá),構(gòu)建了礦產(chǎn)資源預(yù)測部分的地質(zhì)數(shù)據(jù)本體。劉秀磊等[2]則針對煤礦典型動力災(zāi)害領(lǐng)域提出了一種本體構(gòu)建方法,并采用Jena工具實現(xiàn)了本體的形式化。侯志偉等[3]根據(jù)地質(zhì)年代時間屬性及其特征和地層劃分與對比、古生物、構(gòu)造地質(zhì)、地球化學(xué),并根據(jù)性質(zhì)和關(guān)系,產(chǎn)生一系列OWL或資源描述框架RDF文件。以《中國地層表》和《國際年代地層表》作為地質(zhì)年代本體的重要術(shù)語為來源,建立了地質(zhì)年代本。本文中,采用自上向下法對地質(zhì)專業(yè)相關(guān)概念進(jìn)行劃分,以地質(zhì)勘探主題為核心擴(kuò)展到其他地學(xué)領(lǐng)域,在一定程度上建立了跨學(xué)科的地學(xué)本體,以盡量覆蓋地質(zhì)檔案知識。具體通過地質(zhì)領(lǐng)域?qū)<艺硐嚓P(guān)概念和關(guān)系,利用本體建模軟件protégé構(gòu)建基于OWL文件格式的本體模型[4]。概念的頂層框架分為基礎(chǔ)地理、基礎(chǔ)地質(zhì)、地球物理、地球化學(xué)、礦產(chǎn)地質(zhì)、環(huán)境地質(zhì)、工程地質(zhì)、水文地質(zhì)、海洋地質(zhì)、地質(zhì)勘探、巖石學(xué)、測繪學(xué)、地質(zhì)資料等,然后逐級細(xì)分,最終形成地質(zhì)專業(yè)檔案知識體系本體框架。概念之間的關(guān)聯(lián)用關(guān)系描述,是地質(zhì)知識組織、分析、推理、關(guān)聯(lián)檢索的基本依據(jù)。主要的關(guān)系定義如下:(1)上下位關(guān)系,描述概念之間的層級關(guān)系,包括從屬關(guān)系(即部分與整體的關(guān)系)、繼承關(guān)系(父類與子類的關(guān)系),如“基礎(chǔ)地質(zhì)”與“地層”。(2)等同關(guān)系,描述同級地質(zhì)概念或?qū)嵗g的等價關(guān)系。同一概念的不同命名,如“槽探”與“探槽”等。 (3)交叉關(guān)系,有且只有部分內(nèi)涵相同的兩個概念之間的關(guān)系稱為交叉關(guān)系,如“破碎帶蝕變巖型金銀礦”與“蝕變破碎巖型鉛鋅銀礦”。 (4)實例關(guān)系,用來描述概念與相應(yīng)實例之間的關(guān)系,如“金屬礦產(chǎn)”與實例“鐵礦”。

2.3 地質(zhì)檔案知識圖譜數(shù)據(jù)模型與存儲機(jī)制

地質(zhì)檔案模型和地學(xué)專業(yè)知識本體融合后形成知識圖譜模式。知識圖譜存儲指專門為知識圖譜而設(shè)計的底層存儲管理方案,目前主流的知識圖譜數(shù)據(jù)模型有RDF圖模型和屬性圖模型。RDF(Resource Description Framework,資源描述框架)使用Web標(biāo)識符來標(biāo)識資源,使用屬性和屬性值來描述資源,是一種特殊的有向標(biāo)簽圖,即邊亦可作為頂點,頂點與邊交集非空。與RDF圖模型相比,屬性圖模型對于頂點屬性和邊屬性具備內(nèi)置的支持。目前,屬性圖模型被著名的圖數(shù)據(jù)庫Neo4j所采用,也是本文采用的方案。Neo4j圖數(shù)據(jù)庫遵循屬性圖模型來存儲和管理數(shù)據(jù),將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡(luò)而不是表中,具有“無索引鄰接”特性。每個頂點維護(hù)著指向其鄰接頂點的直接引用,用其查找鄰接頂點比使用“全局索引”節(jié)省大量時間。這就意味著圖導(dǎo)航操作代價與圖大小無關(guān),僅與圖的遍歷范圍成正比。在具體實現(xiàn)中,Neo4j將邊放到核心位置,并將屬性圖中的頂點、邊、標(biāo)簽和屬性分開存儲在不同文件中。這種將圖結(jié)構(gòu)與圖上標(biāo)簽和屬性分開存儲的策略,使其具有高效率的圖遍歷能力,如圖3所示。

3地質(zhì)檔案知識圖譜構(gòu)建技術(shù)流程

根據(jù)地質(zhì)檔案館數(shù)字資源的建設(shè)現(xiàn)狀,地質(zhì)檔案知識圖譜的建設(shè)主要包括地學(xué)專業(yè)知識本體構(gòu)建、結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取、圖譜節(jié)點創(chuàng)建和應(yīng)用開發(fā)幾個方面。地學(xué)專業(yè)知識本體的構(gòu)建采用地質(zhì)勘探領(lǐng)域?qū)I(yè)人員整理各專業(yè)的相關(guān)概念和關(guān)系,然后本體建模。在信息抽取環(huán)節(jié)對OWL文件格式進(jìn)行二次開發(fā),轉(zhuǎn)換成知識節(jié)點。同時,把知識詞匯補充到自然語言分詞處理的詞典中,供后續(xù)對非結(jié)構(gòu)化文本的分詞處理使用。非結(jié)構(gòu)化的信息來源主要是地質(zhì)檔案圖文數(shù)據(jù)庫中的正文、附圖、附表等內(nèi)容。結(jié)構(gòu)化數(shù)據(jù)主要是地質(zhì)檔案元數(shù)據(jù)庫中的案卷和文件信息,利用這些信息生成地質(zhì)檔案節(jié)點。地學(xué)專業(yè)知識節(jié)點和地質(zhì)檔案節(jié)點進(jìn)行融合關(guān)聯(lián)形成完整的知識圖譜。其中,在融合關(guān)聯(lián)的時候可以采用簡單的知識詞匯直接關(guān)聯(lián)的方式進(jìn)行,也可以進(jìn)行命名實體和關(guān)系抽取后關(guān)聯(lián)。知識圖譜生成后,需要面向問題開發(fā)智能檢索的API,因為地質(zhì)專業(yè)檔案涉及地質(zhì)、礦產(chǎn)、地球物理等很多專業(yè),通用的智能檢索實現(xiàn)起來難度大、周期長。分專題把熱門需求或者專業(yè)人員日常提問較多的問題進(jìn)行開發(fā),提供智能化的檢索接口。

4地質(zhì)檔案知識圖譜應(yīng)用

知識圖譜按照應(yīng)用方式可以分為語義搜索、知識問答、推薦系統(tǒng),以及基于知識的大數(shù)據(jù)分析與決策等。知識圖譜的應(yīng)用主要通過知識推理來實現(xiàn)。知識圖譜推理可以形式化定義為:給定一個知識圖譜KG=<E,R,T>和關(guān)系路徑P,E和T表示實體集合,R表示關(guān)系集合,R中的邊連接兩個節(jié)點來形成一個關(guān)系三元組(h,r,t)∈T,由此產(chǎn)生一個KG中不存在的三元組G'={(h,r,t)|h∈E,r∈R,t∈T,(h,r,t)∉G}。知識圖譜推理的目標(biāo)是基于已有的知識,使用自動化方法推理得到潛在的實體之間的關(guān)系。比如已知(金,屬于,貴金屬礦產(chǎn))和(貴金屬礦產(chǎn),屬于,金屬礦產(chǎn))可以推出(金,屬于,金屬礦產(chǎn))。知識推理的對象不僅包括實體之間的關(guān)系和屬性名稱,還包括實體的屬性值和本體的概念層次。如,已知一個案卷的檔號,就可以知曉該案卷的題名、編著者、資料類別等。本文基于地質(zhì)檔案知識圖譜,實現(xiàn)了面向部分地質(zhì)專業(yè)檢索需求的語義檢索。語義檢索是知識圖譜最典型的應(yīng)用,它首先將用戶輸入的問句或條件進(jìn)行解析,然后以有向圖的方式提供滿足用戶需求的結(jié)構(gòu)化語義內(nèi)容,最后通過一定的形式將結(jié)果呈現(xiàn)到用戶面前。通過對實際地質(zhì)專業(yè)借閱用戶分析,用戶所需要關(guān)注的問題都是跟后續(xù)將要開展的工作緊密相關(guān)的問題。地質(zhì)勘探手段、方法、實驗方法和工作方法以及取得的已有成果是用戶關(guān)注的重要內(nèi)容,表2是本文中梳理的專業(yè)問題和重要知識詞匯樣例。本文在原有地質(zhì)資料目錄數(shù)據(jù)庫和圖文數(shù)據(jù)庫的基礎(chǔ)上建立了基于圖數(shù)據(jù)庫的語義檢索服務(wù)。檢索的結(jié)果以圖譜的方式展示,在結(jié)果中可以進(jìn)一步顯示案卷級目錄信息、文件級信息、空間位置信息等,并能夠回答類似表2中的地質(zhì)專業(yè)問題,實現(xiàn)了使用了某種野外勘探手段的資料、根據(jù)礦產(chǎn)語義查詢涉及某種礦產(chǎn)或礦種的資料、查詢和某種礦床成因類型相關(guān)的資料等一系列傳統(tǒng)數(shù)據(jù)庫無法解決的問題。如,在檢索某地區(qū)內(nèi)和研究目標(biāo)詞匯“二疊系”地層相關(guān)的案卷時,同時會把“阿木山組”地層的資料檢索出來,因為在知識圖譜中存在“阿木山

5結(jié)論

通過對自然語言處理、知識圖譜技術(shù)的理解和分析,結(jié)合地質(zhì)專業(yè)檔案目錄庫、圖文數(shù)據(jù)庫,針對地質(zhì)專業(yè)檔案管理和服務(wù)的真實需求和面臨的問題,建立了面向借閱服務(wù)的地質(zhì)專業(yè)領(lǐng)域知識圖譜,實現(xiàn)了地質(zhì)專業(yè)檔案語義化檢索服務(wù)。領(lǐng)域知識圖譜的應(yīng)用效果很大程度上取決于知識圖譜的規(guī)模和對問題域的覆蓋程度。在后續(xù)研究中,需進(jìn)一步完善以地質(zhì)為核心覆蓋其他專業(yè)的專業(yè)知識本體結(jié)構(gòu),完善非結(jié)構(gòu)化信息抽取算法,實現(xiàn)地學(xué)專業(yè)知識本體構(gòu)建的自動化,形成較完善的大規(guī)模的地質(zhì)專業(yè)檔案知識圖譜,提高智能化服務(wù)能力。

參考文獻(xiàn):

[1]吳永亮,陳建平,等.地質(zhì)數(shù)據(jù)本體構(gòu)建及其在數(shù)據(jù)檢索中的應(yīng)用[J].地質(zhì)通報,2018,37(5):945-952

[2]高瑩,侯凌燕,劉秀磊.煤礦典型動力災(zāi)害知識庫建設(shè)現(xiàn)狀及發(fā)展方向[J].煤炭科學(xué)技術(shù),2018,46(S1).

[3]侯志偉,諸云強,高楹,等.地質(zhì)數(shù)據(jù)本體構(gòu)建及其在數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學(xué),2018,20(1):20-24.

[4]孫凱,諸云強,潘鵬,等.形態(tài)本體及其在地理空間數(shù)據(jù)發(fā)現(xiàn)中的應(yīng)用研究[J].地球信息科學(xué)學(xué)報,2016,18(8):1011-1021.

作者:張曄 單位:內(nèi)蒙古自然資源廳地質(zhì)資料館

文檔上傳者

相關(guān)期刊

海洋地質(zhì)與第四紀(jì)地質(zhì)

北大期刊 審核時間1-3個月

中國地質(zhì)調(diào)查局

北京地質(zhì)

省級期刊 審核時間1個月內(nèi)

北京市科委

地質(zhì)裝備

部級期刊 審核時間1個月內(nèi)

中國機(jī)械工業(yè)集團(tuán)有限公司