知識圖譜(Knowlegraph)首先是谷歌提出的,大家都知道谷歌是一款搜索引擎。知識圖譜出現(xiàn)前,使用谷歌、百度搜索時,搜索結(jié)果是很多頁面,根據(jù)搜索結(jié)果的頁面主題點擊鏈接,可以看到具體的內(nèi)容。知識圖譜出現(xiàn)之后,搜索結(jié)果會以一定的組織結(jié)構(gòu)呈現(xiàn)。那么知識圖譜構(gòu)建技術(shù)包括哪些?接下來小編為你詳細(xì)介紹。
知識圖譜構(gòu)建技術(shù)
資料獲取是建立知識圖譜的第一步。當(dāng)前,根據(jù)來源渠道的不同,知識圖譜數(shù)據(jù)源可以分為兩類:一類是業(yè)務(wù)本身的數(shù)據(jù),這些數(shù)據(jù)通常包含在行業(yè)內(nèi)的數(shù)據(jù)庫表中,并以結(jié)構(gòu)化的方式存儲,即非公開或半公開的數(shù)據(jù);另一類是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常以網(wǎng)頁的形式存在,是非結(jié)構(gòu)化的。
根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,可以分為三種類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)不同的數(shù)據(jù)類型,我們采用不同的方法進(jìn)行處理。
提取信息的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動提取信息以獲取候選知識單元。正如前面所說,獲取知識有兩種渠道,前者只需簡單的預(yù)處理就可以作為后續(xù)AI系統(tǒng)的輸入,但是后者通常需要借助自然語言處理等技術(shù)來提取結(jié)構(gòu)化信息,這就是提取信息的難點問題,所涉及的關(guān)鍵技術(shù)包括實體提取、關(guān)系提取和屬性提取。
(1)實體提取(EntityExtraction)/命名實體識別(NameEntityRecognition)
實體提取又稱命名實體識別(NER),是指從文本數(shù)據(jù)集中自動識別命名實體,其目的是在知識圖中建立節(jié)點。實體提取的質(zhì)量(精度和召回率)對后續(xù)知識的獲取效率和質(zhì)量有很大影響,因此是信息提取中最基本、最關(guān)鍵的部分。實體類型主要包括三類和七類:實體(包括姓名、地名、機(jī)構(gòu)名稱)、時間類別(日期、時間)、數(shù)字類別(貨幣,百分比)。
起初,實體識別通常采用人工預(yù)定義實體分類系統(tǒng)的方法,但隨著技術(shù)的不斷進(jìn)步,這種舊的方法已難以適應(yīng)時代的需要,因此面向開放領(lǐng)域的實體識別和分類具有很大的研究價值。
在開放域的實體識別和分類研究中,不需要也不可能為每個領(lǐng)域或?qū)嶓w類別建立單獨的語料庫作為培訓(xùn)集。因此,研究者面臨的主要挑戰(zhàn)是如何從給定的少量實體實例中自動找到具有區(qū)別力的模型。
一個想法是根據(jù)已知的實體實例進(jìn)行特征建模,利用該模型處理大量數(shù)據(jù)集,得到新的命名實體列表,對新的實體進(jìn)行建模,反復(fù)生成實體標(biāo)記語料庫。
另外一個想法是使用搜索引擎的服務(wù)器日志,事先不給出實體分類等信息,而是根據(jù)實體的語義特征,從搜索日志中識別出命名實體,然后用聚類算法對所識別的實體對象進(jìn)行聚類。
(2)關(guān)系抽取(RelationExtraction)
文實體中提取文本語料后,得到的是一系列離散的命名實體(節(jié)點),為了獲取語義信息,還需要從相關(guān)語料中提取實體之間的關(guān)聯(lián)(邊),以便將多個實體或概念聯(lián)系起來,形成網(wǎng)絡(luò)知識結(jié)構(gòu)。研究性關(guān)系抽取技術(shù),就是研究如何解決從文本語料中提取實體之間的關(guān)系。
(3)屬性提取(AttributeExtraction)
提取屬性的目的是從不同的信息源中收集具體實體的屬性信息,從而完成對實體屬性的完整描述。比如針對某個手機(jī),可以從互聯(lián)網(wǎng)上獲取多源(異構(gòu))數(shù)據(jù),獲取其品牌、配置等信息。
若將實體的屬性值視為一個特殊的實體,則屬性抽取實際上也是一個關(guān)系抽取。百科全書網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是通用領(lǐng)域?qū)傩猿槿⊙芯康闹饕獢?shù)據(jù)來源,但是具體到特定的應(yīng)用領(lǐng)域,涉及到大量的非結(jié)構(gòu)化數(shù)據(jù),屬性抽取仍是一個巨大的挑戰(zhàn)。
信息抽取后,信息單元之間的關(guān)系是扁平化的,缺乏層次性和邏輯性,同時存在大量冗余甚至錯誤的信息碎片。知識整合,簡單理解,就是整合多個知識庫中的知識,形成一個知識庫的過程。在這個過程中,主要的關(guān)鍵技術(shù)包括指代消解、實體消歧和實體鏈接。不同的知識庫收集知識有不同的側(cè)重點。對于同一個實體,有知識庫的可能側(cè)重于自一方面的描述,有些知識庫可能側(cè)重于描述實體與其他實體的關(guān)系。知識整合的目的是整合不同的知識庫,從而獲得實體的完整描述。
知識融合旨在解決如何整合同一實體或概念的多源描述信息。
(1)指代消解(CoreferenceResolution)
CoreferenceeResolution中,字面上的翻譯應(yīng)該是共指消解,但是在大多數(shù)博客或論壇中,通常被稱為指代消解。一般而言,指代分為三類(NLP領(lǐng)域通常只關(guān)注前兩類):
首先,回指(也稱為指示性指示),相應(yīng)的單詞是anaphora,指當(dāng)前的指示性單詞與上述單詞、短語或句子(句群)有密切的語義關(guān)聯(lián),它指向另一個單詞(稱為先行單詞),它依賴于先行單詞的解釋,具有不對稱性和非傳遞性;
第二,共指(又稱同指),相應(yīng)的詞為coreference,指的是兩個名詞(包括代名詞、名詞短語)指向現(xiàn)實世界中的同一參考體,這種指的是脫離上下文依然成立。共指消解技術(shù)主要用于解決多個指的對應(yīng)相同物體的問題。
第三,下指,相應(yīng)的單詞是cataphora,與回指正好相反,是指代詞的解釋取決于代詞后面的某些單詞、短語或句子(句群)的解釋。下面圖中的he和his都指的是后面的Lord:
因此,根據(jù)以上描述,個人認(rèn)為將CoreferenceResolution翻譯成指代消解更為合適。
(2)實體消歧(EntityDisambiguation)
有的實體寫法不同,但指向同一實體,如NewYork代表紐約,而NYC代表紐約。這樣,實體消歧就能減少實體的種類,減少圖譜的稀疏。
物理消歧是專門用來解決同名物理產(chǎn)生歧義的技術(shù),通過物理消歧,可以根據(jù)當(dāng)前的語境,準(zhǔn)確地建立物理鏈接,物理消歧主要采用聚類法。實際上還可以看作是基于上下文的分類問題,類似于詞性消歧和詞義消歧。
(3)實體鏈接(EntityLinking)
物理鏈接(entitylinking)是指從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中提取物理對象,并將其鏈接到知識庫中對應(yīng)的物理對象的操作。它的基本思想是先根據(jù)給定的物理指標(biāo)項目,從知識庫中選擇一組候選物理對象,然后通過相似度計算將指標(biāo)項目鏈接到正確的物理對象。
實體鏈接是從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中提取的數(shù)據(jù)。除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),還有一個更方便的數(shù)據(jù)源——結(jié)構(gòu)化數(shù)據(jù),比如外部知識庫和關(guān)系數(shù)據(jù)庫。這部分結(jié)構(gòu)化數(shù)據(jù)的處理是知識合并的內(nèi)容。一般來說,知識合并主要分為兩類:整合外部知識庫,主要處理數(shù)據(jù)層與模式層的沖突。有RDB2RDF等DB2RDF等方法。
以上就是知識圖譜構(gòu)建技術(shù)包括哪些的全部內(nèi)容,希望對你有所幫助。知識圖譜是一種特殊的語義網(wǎng)絡(luò),它利用實體、關(guān)系、屬性等基本單位,用符號的形式來描述物理世界中不同概念之間的關(guān)系。在信息搜索、推薦系統(tǒng)和問答系統(tǒng)中,知識圖譜有著重要的意義。
[免責(zé)聲明]
文章標(biāo)題: 知識圖譜構(gòu)建技術(shù)包括哪些?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。