男女性潮高清免费网站,久久精品国产亚洲av麻豆图片,啊灬啊别停灬用力啊岳,国产天堂亚洲国产碰碰,亚洲精品一区二区久久,久久人人爽人人爽人人片av高清 ,久久本道综合久久伊人,伊人情涩网
熱門文章> 知識圖譜構(gòu)建技術(shù)包括哪些? >

知識圖譜構(gòu)建技術(shù)包括哪些?

36氪企服點評小編
2021-08-09 17:20
1780次閱讀

        知識圖譜(Knowlegraph)首先是谷歌提出的,大家都知道谷歌是一款搜索引擎。知識圖譜出現(xiàn)前,使用谷歌、百度搜索時,搜索結(jié)果是很多頁面,根據(jù)搜索結(jié)果的頁面主題點擊鏈接,可以看到具體的內(nèi)容。知識圖譜出現(xiàn)之后,搜索結(jié)果會以一定的組織結(jié)構(gòu)呈現(xiàn)。那么知識圖譜構(gòu)建技術(shù)包括哪些?接下來小編為你詳細(xì)介紹。

知識圖譜構(gòu)建技術(shù)包括哪些?知識圖譜構(gòu)建技術(shù)

知識圖譜構(gòu)建技術(shù)一:數(shù)據(jù)獲取(DataAcquisition)

        資料獲取是建立知識圖譜的第一步。當(dāng)前,根據(jù)來源渠道的不同,知識圖譜數(shù)據(jù)源可以分為兩類:一類是業(yè)務(wù)本身的數(shù)據(jù),這些數(shù)據(jù)通常包含在行業(yè)內(nèi)的數(shù)據(jù)庫表中,并以結(jié)構(gòu)化的方式存儲,即非公開或半公開的數(shù)據(jù);另一類是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常以網(wǎng)頁的形式存在,是非結(jié)構(gòu)化的。
根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,可以分為三種類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)不同的數(shù)據(jù)類型,我們采用不同的方法進(jìn)行處理。

知識圖譜構(gòu)建技術(shù)二:信息抽取(InformationExtraction)

       提取信息的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動提取信息以獲取候選知識單元。正如前面所說,獲取知識有兩種渠道,前者只需簡單的預(yù)處理就可以作為后續(xù)AI系統(tǒng)的輸入,但是后者通常需要借助自然語言處理等技術(shù)來提取結(jié)構(gòu)化信息,這就是提取信息的難點問題,所涉及的關(guān)鍵技術(shù)包括實體提取、關(guān)系提取和屬性提取。

(1)實體提取(EntityExtraction)/命名實體識別(NameEntityRecognition)
實體提取又稱命名實體識別(NER),是指從文本數(shù)據(jù)集中自動識別命名實體,其目的是在知識圖中建立節(jié)點。實體提取的質(zhì)量(精度和召回率)對后續(xù)知識的獲取效率和質(zhì)量有很大影響,因此是信息提取中最基本、最關(guān)鍵的部分。實體類型主要包括三類和七類:實體(包括姓名、地名、機(jī)構(gòu)名稱)、時間類別(日期、時間)、數(shù)字類別(貨幣,百分比)。
        起初,實體識別通常采用人工預(yù)定義實體分類系統(tǒng)的方法,但隨著技術(shù)的不斷進(jìn)步,這種舊的方法已難以適應(yīng)時代的需要,因此面向開放領(lǐng)域的實體識別和分類具有很大的研究價值。
在開放域的實體識別和分類研究中,不需要也不可能為每個領(lǐng)域或?qū)嶓w類別建立單獨的語料庫作為培訓(xùn)集。因此,研究者面臨的主要挑戰(zhàn)是如何從給定的少量實體實例中自動找到具有區(qū)別力的模型。
       一個想法是根據(jù)已知的實體實例進(jìn)行特征建模,利用該模型處理大量數(shù)據(jù)集,得到新的命名實體列表,對新的實體進(jìn)行建模,反復(fù)生成實體標(biāo)記語料庫。
另外一個想法是使用搜索引擎的服務(wù)器日志,事先不給出實體分類等信息,而是根據(jù)實體的語義特征,從搜索日志中識別出命名實體,然后用聚類算法對所識別的實體對象進(jìn)行聚類。

(2)關(guān)系抽取(RelationExtraction)
文實體中提取文本語料后,得到的是一系列離散的命名實體(節(jié)點),為了獲取語義信息,還需要從相關(guān)語料中提取實體之間的關(guān)聯(lián)(邊),以便將多個實體或概念聯(lián)系起來,形成網(wǎng)絡(luò)知識結(jié)構(gòu)。研究性關(guān)系抽取技術(shù),就是研究如何解決從文本語料中提取實體之間的關(guān)系。

(3)屬性提取(AttributeExtraction)
提取屬性的目的是從不同的信息源中收集具體實體的屬性信息,從而完成對實體屬性的完整描述。比如針對某個手機(jī),可以從互聯(lián)網(wǎng)上獲取多源(異構(gòu))數(shù)據(jù),獲取其品牌、配置等信息。
若將實體的屬性值視為一個特殊的實體,則屬性抽取實際上也是一個關(guān)系抽取。百科全書網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是通用領(lǐng)域?qū)傩猿槿⊙芯康闹饕獢?shù)據(jù)來源,但是具體到特定的應(yīng)用領(lǐng)域,涉及到大量的非結(jié)構(gòu)化數(shù)據(jù),屬性抽取仍是一個巨大的挑戰(zhàn)。

知識圖譜構(gòu)建技術(shù)三:知識融合(KnowledgeFusion)

       信息抽取后,信息單元之間的關(guān)系是扁平化的,缺乏層次性和邏輯性,同時存在大量冗余甚至錯誤的信息碎片。知識整合,簡單理解,就是整合多個知識庫中的知識,形成一個知識庫的過程。在這個過程中,主要的關(guān)鍵技術(shù)包括指代消解、實體消歧和實體鏈接。不同的知識庫收集知識有不同的側(cè)重點。對于同一個實體,有知識庫的可能側(cè)重于自一方面的描述,有些知識庫可能側(cè)重于描述實體與其他實體的關(guān)系。知識整合的目的是整合不同的知識庫,從而獲得實體的完整描述。
知識融合旨在解決如何整合同一實體或概念的多源描述信息。

(1)指代消解(CoreferenceResolution)
CoreferenceeResolution中,字面上的翻譯應(yīng)該是共指消解,但是在大多數(shù)博客或論壇中,通常被稱為指代消解。一般而言,指代分為三類(NLP領(lǐng)域通常只關(guān)注前兩類):
首先,回指(也稱為指示性指示),相應(yīng)的單詞是anaphora,指當(dāng)前的指示性單詞與上述單詞、短語或句子(句群)有密切的語義關(guān)聯(lián),它指向另一個單詞(稱為先行單詞),它依賴于先行單詞的解釋,具有不對稱性和非傳遞性;
第二,共指(又稱同指),相應(yīng)的詞為coreference,指的是兩個名詞(包括代名詞、名詞短語)指向現(xiàn)實世界中的同一參考體,這種指的是脫離上下文依然成立。共指消解技術(shù)主要用于解決多個指的對應(yīng)相同物體的問題。
第三,下指,相應(yīng)的單詞是cataphora,與回指正好相反,是指代詞的解釋取決于代詞后面的某些單詞、短語或句子(句群)的解釋。下面圖中的he和his都指的是后面的Lord:
因此,根據(jù)以上描述,個人認(rèn)為將CoreferenceResolution翻譯成指代消解更為合適。

(2)實體消歧(EntityDisambiguation)
有的實體寫法不同,但指向同一實體,如NewYork代表紐約,而NYC代表紐約。這樣,實體消歧就能減少實體的種類,減少圖譜的稀疏。
物理消歧是專門用來解決同名物理產(chǎn)生歧義的技術(shù),通過物理消歧,可以根據(jù)當(dāng)前的語境,準(zhǔn)確地建立物理鏈接,物理消歧主要采用聚類法。實際上還可以看作是基于上下文的分類問題,類似于詞性消歧和詞義消歧。

(3)實體鏈接(EntityLinking)
物理鏈接(entitylinking)是指從非結(jié)構(gòu)化數(shù)據(jù)(如文本)或半結(jié)構(gòu)化數(shù)據(jù)(如表格)中提取物理對象,并將其鏈接到知識庫中對應(yīng)的物理對象的操作。它的基本思想是先根據(jù)給定的物理指標(biāo)項目,從知識庫中選擇一組候選物理對象,然后通過相似度計算將指標(biāo)項目鏈接到正確的物理對象。

知識圖譜構(gòu)建技術(shù)四:知識合并。

       實體鏈接是從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中提取的數(shù)據(jù)。除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),還有一個更方便的數(shù)據(jù)源——結(jié)構(gòu)化數(shù)據(jù),比如外部知識庫和關(guān)系數(shù)據(jù)庫。這部分結(jié)構(gòu)化數(shù)據(jù)的處理是知識合并的內(nèi)容。一般來說,知識合并主要分為兩類:整合外部知識庫,主要處理數(shù)據(jù)層與模式層的沖突。有RDB2RDF等DB2RDF等方法。

       以上就是知識圖譜構(gòu)建技術(shù)包括哪些的全部內(nèi)容,希望對你有所幫助。知識圖譜是一種特殊的語義網(wǎng)絡(luò),它利用實體、關(guān)系、屬性等基本單位,用符號的形式來描述物理世界中不同概念之間的關(guān)系。在信息搜索、推薦系統(tǒng)和問答系統(tǒng)中,知識圖譜有著重要的意義。

[免責(zé)聲明]

文章標(biāo)題: 知識圖譜構(gòu)建技術(shù)包括哪些?

文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。

相關(guān)文章
最新文章
查看更多
關(guān)注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務(wù)合作
主站蜘蛛池模板: 久久天天躁狠狠躁夜夜av| 中文字幕欧美日韩va免费视频| 少妇愉情理伦片bd| 精品少妇人妻久久久久久人人玩| 国产毛多水多高潮高清| 国产麻豆精品一区二区三区v视界| 国产乱码人妻一区二区三区四区 | 国产精品久久久久久久免费看| 乱码午夜-极品国产内射| 国产午夜福利精品久久不卡| 国产精品亚洲成在人线 | 99精产国品一二三产区| 天天躁日日躁狠狠躁视频2021| 无码精品一区二区三区在线| 亚洲国内精品自在线影院| 337p粉嫩大胆色噜噜噜| 国产精成人品日日拍夜夜免费| 亚洲av久久久噜噜噜噜| 欧美午夜片欧美片在线观看| 国产乱妇乱子在线播视频播放网站 | 成人午夜福利视频| 老鸭窝在钱视频| 吃瓜爆料就看黑料社区| 青青青爽在线视频免费观看| 东京一本一道一二三区| 国产麻豆成人av色影视| 久久人妻av无码中文专区| 欧美疯狂xxxxbbbb喷潮| 成熟丰满熟妇av无码区| 东北丰满老熟女| 国产女人高潮抽搐喷水免费视频 | h纯肉无遮掩3d动漫免费网站| 亚洲尺码和欧洲大专线| 高潮又爽又无遮挡又免费| 国产精品免费久久久久影院 | 亚洲成a人片在线观看| 免费av大片在线观看入口| 日本丰满岳乱妇在线观看| 久久久国产精品无码免费专区| 国产精品美女久久久久av爽| 欧美ⅴdeσsex性欧美|