国产69精品久久久久乱码,秋霞在线观看高清视频,一区二区三区在线 | 欧,freexxxx性特大另类,亚洲色偷拍区另类无码专区

知識圖譜(Knowlegraph)首先是谷歌提出的，大家都知道谷歌是一款搜索引擎。知識圖譜出現(xiàn)前，使用谷歌、百度搜索時，搜索結(jié)果是很多頁面，根據(jù)搜索結(jié)果的頁面主題點擊鏈接，可以看到具體的內(nèi)容。知識圖譜出現(xiàn)之后，搜索結(jié)果會以一定的組織結(jié)構(gòu)呈現(xiàn)。那么知識圖譜構(gòu)建技術(shù)包括哪些？接下來小編為你詳細(xì)介紹。

騰訊云

1條點評

咨詢產(chǎn)品

免費試用

解決用戶選型困難的好軟件，有各維度的信息

知識圖譜構(gòu)建技術(shù)包括哪些？知識圖譜構(gòu)建技術(shù)

知識圖譜構(gòu)建技術(shù)一：數(shù)據(jù)獲取(DataAcquisition)

資料獲取是建立知識圖譜的第一步。當(dāng)前，根據(jù)來源渠道的不同，知識圖譜數(shù)據(jù)源可以分為兩類：一類是業(yè)務(wù)本身的數(shù)據(jù)，這些數(shù)據(jù)通常包含在行業(yè)內(nèi)的數(shù)據(jù)庫表中，并以結(jié)構(gòu)化的方式存儲，即非公開或半公開的數(shù)據(jù)；另一類是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù)，這些數(shù)據(jù)通常以網(wǎng)頁的形式存在，是非結(jié)構(gòu)化的。
根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同，可以分為三種類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)不同的數(shù)據(jù)類型，我們采用不同的方法進(jìn)行處理。

知識圖譜構(gòu)建技術(shù)二：信息抽取(InformationExtraction)

提取信息的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動提取信息以獲取候選知識單元。正如前面所說，獲取知識有兩種渠道，前者只需簡單的預(yù)處理就可以作為后續(xù)AI系統(tǒng)的輸入，但是后者通常需要借助自然語言處理等技術(shù)來提取結(jié)構(gòu)化信息，這就是提取信息的難點問題，所涉及的關(guān)鍵技術(shù)包括實體提取、關(guān)系提取和屬性提取。

(1)實體提取(EntityExtraction)/命名實體識別(NameEntityRecognition)
實體提取又稱命名實體識別(NER)，是指從文本數(shù)據(jù)集中自動識別命名實體，其目的是在知識圖中建立節(jié)點。實體提取的質(zhì)量(精度和召回率)對后續(xù)知識的獲取效率和質(zhì)量有很大影響，因此是信息提取中最基本、最關(guān)鍵的部分。實體類型主要包括三類和七類:實體(包括姓名、地名、機(jī)構(gòu)名稱)、時間類別(日期、時間)、數(shù)字類別(貨幣，百分比)。
起初，實體識別通常采用人工預(yù)定義實體分類系統(tǒng)的方法，但隨著技術(shù)的不斷進(jìn)步，這種舊的方法已難以適應(yīng)時代的需要，因此面向開放領(lǐng)域的實體識別和分類具有很大的研究價值。
在開放域的實體識別和分類研究中，不需要也不可能為每個領(lǐng)域或?qū)嶓w類別建立單獨的語料庫作為培訓(xùn)集。因此，研究者面臨的主要挑戰(zhàn)是如何從給定的少量實體實例中自動找到具有區(qū)別力的模型。
一個想法是根據(jù)已知的實體實例進(jìn)行特征建模，利用該模型處理大量數(shù)據(jù)集，得到新的命名實體列表，對新的實體進(jìn)行建模，反復(fù)生成實體標(biāo)記語料庫。
另外一個想法是使用搜索引擎的服務(wù)器日志，事先不給出實體分類等信息，而是根據(jù)實體的語義特征，從搜索日志中識別出命名實體，然后用聚類算法對所識別的實體對象進(jìn)行聚類。

(2)關(guān)系抽取(RelationExtraction)
文實體中提取文本語料后，得到的是一系列離散的命名實體(節(jié)點)，為了獲取語義信息，還需要從相關(guān)語料中提取實體之間的關(guān)聯(lián)(邊)，以便將多個實體或概念聯(lián)系起來，形成網(wǎng)絡(luò)知識結(jié)構(gòu)。研究性關(guān)系抽取技術(shù)，就是研究如何解決從文本語料中提取實體之間的關(guān)系。

(3)屬性提取(AttributeExtraction)
提取屬性的目的是從不同的信息源中收集具體實體的屬性信息，從而完成對實體屬性的完整描述。比如針對某個手機(jī)，可以從互聯(lián)網(wǎng)上獲取多源(異構(gòu))數(shù)據(jù)，獲取其品牌、配置等信息。
若將實體的屬性值視為一個特殊的實體，則屬性抽取實際上也是一個關(guān)系抽取。百科全書網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是通用領(lǐng)域?qū)傩猿槿⊙芯康闹饕獢?shù)據(jù)來源，但是具體到特定的應(yīng)用領(lǐng)域，涉及到大量的非結(jié)構(gòu)化數(shù)據(jù)，屬性抽取仍是一個巨大的挑戰(zhàn)。

知識圖譜構(gòu)建技術(shù)三：知識融合(KnowledgeFusion)

信息抽取后，信息單元之間的關(guān)系是扁平化的，缺乏層次性和邏輯性，同時存在大量冗余甚至錯誤的信息碎片。知識整合，簡單理解，就是整合多個知識庫中的知識，形成一個知識庫的過程。在這個過程中，主要的關(guān)鍵技術(shù)包括指代消解、實體消歧和實體鏈接。不同的知識庫收集知識有不同的側(cè)重點。對于同一個實體，有知識庫的可能側(cè)重于自一方面的描述，有些知識庫可能側(cè)重于描述實體與其他實體的關(guān)系。知識整合的目的是整合不同的知識庫，從而獲得實體的完整描述。
知識融合旨在解決如何整合同一實體或概念的多源描述信息。

(1)指代消解(CoreferenceResolution)
CoreferenceeResolution中，字面上的翻譯應(yīng)該是共指消解，但是在大多數(shù)博客或論壇中，通常被稱為指代消解。一般而言，指代分為三類(NLP領(lǐng)域通常只關(guān)注前兩類)：
首先，回指(也稱為指示性指示)，相應(yīng)的單詞是anaphora，指當(dāng)前的指示性單詞與上述單詞、短語或句子(句群)有密切的語義關(guān)聯(lián)，它指向另一個單詞(稱為先行單詞)，它依賴于先行單詞的解釋，具有不對稱性和非傳遞性；
第二，共指(又稱同指)，相應(yīng)的詞為coreference，指的是兩個名詞(包括代名詞、名詞短語)指向現(xiàn)實世界中的同一參考體，這種指的是脫離上下文依然成立。共指消解技術(shù)主要用于解決多個指的對應(yīng)相同物體的問題。
第三，下指，相應(yīng)的單詞是cataphora，與回指正好相反，是指代詞的解釋取決于代詞后面的某些單詞、短語或句子(句群)的解釋。下面圖中的he和his都指的是后面的Lord：
因此，根據(jù)以上描述，個人認(rèn)為將CoreferenceResolution翻譯成指代消解更為合適。

(2)實體消歧(EntityDisambiguation)
有的實體寫法不同，但指向同一實體，如NewYork代表紐約，而NYC代表紐約。這樣，實體消歧就能減少實體的種類，減少圖譜的稀疏。
物理消歧是專門用來解決同名物理產(chǎn)生歧義的技術(shù)，通過物理消歧，可以根據(jù)當(dāng)前的語境，準(zhǔn)確地建立物理鏈接，物理消歧主要采用聚類法。實際上還可以看作是基于上下文的分類問題，類似于詞性消歧和詞義消歧。

(3)實體鏈接(EntityLinking)
物理鏈接(entitylinking)是指從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中提取物理對象，并將其鏈接到知識庫中對應(yīng)的物理對象的操作。它的基本思想是先根據(jù)給定的物理指標(biāo)項目，從知識庫中選擇一組候選物理對象，然后通過相似度計算將指標(biāo)項目鏈接到正確的物理對象。

知識圖譜構(gòu)建技術(shù)四：知識合并。

實體鏈接是從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中提取的數(shù)據(jù)。除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，還有一個更方便的數(shù)據(jù)源——結(jié)構(gòu)化數(shù)據(jù)，比如外部知識庫和關(guān)系數(shù)據(jù)庫。這部分結(jié)構(gòu)化數(shù)據(jù)的處理是知識合并的內(nèi)容。一般來說，知識合并主要分為兩類:整合外部知識庫，主要處理數(shù)據(jù)層與模式層的沖突。有RDB2RDF等DB2RDF等方法。

以上就是知識圖譜構(gòu)建技術(shù)包括哪些的全部內(nèi)容，希望對你有所幫助。知識圖譜是一種特殊的語義網(wǎng)絡(luò)，它利用實體、關(guān)系、屬性等基本單位，用符號的形式來描述物理世界中不同概念之間的關(guān)系。在信息搜索、推薦系統(tǒng)和問答系統(tǒng)中，知識圖譜有著重要的意義。