男女性潮高清免费网站,久久精品国产亚洲av麻豆图片,啊灬啊别停灬用力啊岳,国产天堂亚洲国产碰碰,亚洲精品一区二区久久,久久人人爽人人爽人人片av高清 ,久久本道综合久久伊人,伊人情涩网

圖行業(yè)的一些觀察:以圖數(shù)據(jù)庫為例|NUC 2022

吳敏
+ 關(guān)注
2022-12-20 14:14
620次閱讀

本次分享的內(nèi)容本來是圖行業(yè)發(fā)展及標準的深度解讀,這其實是個很大的話題,所以我把標題換成了一個小一點的標題。因為我覺得整個圖行業(yè)它其實是一個非常大的行業(yè)。每個人在里面其實只是在盲人摸象,我可能只是摸過大腿而已,其他部分我也沒有摸過。說不上做一個深度的解讀,只是說我在這個行業(yè)的一些觀察,因為我覺得我只摸過四條大腿的其中一條,所以又加一個副標題,以圖數(shù)據(jù)庫為例。

圖的思想,哪怕這個術(shù)語出現(xiàn)的很晚,但是人類早就已經(jīng)有這個概念了,或者早就已經(jīng)有這個認知了。就是大家會發(fā)現(xiàn)其實光有這些零散的知識是不夠的,需要把這些知識給關(guān)聯(lián)起來,關(guān)聯(lián)之后才能變成指導我們?nèi)粘I畹慕?jīng)驗。所以一個概念很早的時候就已經(jīng)有了:"關(guān)聯(lián)"是很重要的。

Graphs-are-everywhere

我剛才說圖這個領(lǐng)域是非常非常的大,在 2020 年的時候,有一家公司GraphAware,他曾經(jīng)嘗試想把整個圖領(lǐng)域里面的一些公司或者產(chǎn)品給列舉一下,這其實是很難的,因為實在太多了。他大概做了一個分類,有基礎(chǔ)設(shè)施的、應用的、開發(fā)者工具的,還有一些會議之類的。比如說在20年的時候,當時有NebulaGraph、GQL、DGL了,這些都是我們今天可以聽到的。其實想把整個圖完全整理出來是挺難的,我稍微做了一點點總結(jié)和濃縮。在圖領(lǐng)域的話,大概有四個大的部分:基礎(chǔ)設(shè)施、開發(fā)者工具、應用和信息資源。

圖領(lǐng)域的公司和產(chǎn)品Graph-Technology-Landscape

圖數(shù)據(jù)庫的行業(yè)版圖:基礎(chǔ)設(shè)施、開發(fā)者工具、應用和信息資源

像基礎(chǔ)設(shè)施的部分,比如說今天我們要談的 Graph Database,還有一些可能會涉及到圖 Processing 和 Computing 的系統(tǒng)。然后像圖神經(jīng)網(wǎng)絡(luò)、可視化分析和云服務(wù)商,這些基本可以分類為整個圖領(lǐng)域的基礎(chǔ)設(shè)施部分,他們是基礎(chǔ)設(shè)施的提供商。

然后接下來說開發(fā)者工具,一般主要是建模的工具,圖分析和可視化的函數(shù)庫、工具或者 SDK,還有一些 BI 場景的工具。當然還有其他的一些開發(fā)者工具,就不一一列舉了。

還有應用領(lǐng)域,比如說圖譜。圖譜本身是一個很大的領(lǐng)域,圖只是為圖譜提供一些基礎(chǔ)設(shè)施的服務(wù)。還有一些常見的,比如說欺詐檢測、網(wǎng)絡(luò)安全,或者是社交網(wǎng)絡(luò)、商業(yè)網(wǎng)絡(luò)的圖。這些是圖比較常見的一些應用領(lǐng)域。

還有一些是圖領(lǐng)域的信息資源。比如會議、書籍、論文。九月份的時候,VLDB 的 Research Session,大概有 1/5 都是和圖相關(guān)的;還有今天我們的 NUC,這也是圖領(lǐng)域的一個會議。還有一些國際化的組織,比如說像國際化的 ISO、IEC,他們在為國際標準做一些努力。還有一些民間的組織或者第三方的組織,比如說 LDBC,可以為這個領(lǐng)域的發(fā)展做一些貢獻。這些挺好地反映了圖行業(yè)現(xiàn)在的成熟程度。

圖這個話題還是挺大的,所以先看一點簡單的歷史。可能大家都聽說過七橋問題,或者是西爾威斯特提出的矩陣和圖論這兩個名詞,這都是歷史上的概念,不是我們計算機學科要談的。

1960-1980s: 數(shù)據(jù)模型與數(shù)據(jù)系統(tǒng)的定義

計算機系統(tǒng)里面的圖,有這么一個歷史,在 60-80 年代的時候,其實大家的主要工作都是著重在圖模型和數(shù)據(jù)系統(tǒng)該怎么定義上面。最早我能查到的是巴赫曼,1960 年的時候,當時他在 GE 的開關(guān)電器廠工作,發(fā)明了 IDS 系統(tǒng)。這個系統(tǒng)對后世所有的數(shù)據(jù)管理系統(tǒng)都有很大的影響。巴赫曼應該是最早的先驅(qū),當時他所采用的模型后面被稱為稱為 Network Model 或者 Network Data Model。它本身的特點是把記錄 record 通過Linkage 關(guān)聯(lián)起來。比如上面這個例子,一個記錄可以和很多其他的記錄相互關(guān)聯(lián)。這應該是在計算機系統(tǒng)里面最早實現(xiàn)的一個圖模型系統(tǒng)。當然后來巴赫曼獲得了圖靈獎。

1970年代科德發(fā)明關(guān)系模型

60年代的時候,大家重點工作是放在圖或者網(wǎng)絡(luò)模型上面。到70年代的時候,最著名的成果就是科德發(fā)明的關(guān)系模型了。從關(guān)系模型到關(guān)系代數(shù),一路演變成了RDBMS的這一整套技術(shù)。科德在70年代發(fā)明的關(guān)系模型相比60年代的網(wǎng)絡(luò)模型,他認為自己的進步在哪里:就是60年代的網(wǎng)絡(luò)模型,或者說那個時候的圖系統(tǒng),只能夠處理一系列確定主鍵的記錄之間的關(guān)聯(lián);而他所發(fā)明的這個Relational Model,他可以對任意的值進行匹配。如果用數(shù)據(jù)庫的話,就是value-based join。這樣整個模型會更加地通用。因此在后來很長的一段時間,可能有三四十年的歷史里面,RDBMS基本上主導了整個數(shù)據(jù)處理市場。

1980-90年代的Logical-Data-Model

整個圖相關(guān)的模型還在繼續(xù)往前走,比如說到 80-90 年代的時候,有了Logical Data Model。再比如說標簽圖或者標簽網(wǎng)絡(luò),這也是現(xiàn)在我們常用的 LPG(labelled property graph)概念中的一部分。因為 90 年代的時候面向?qū)ο蠛芰餍校灿腥藝L試想把面向?qū)ο蟮倪@個概念引入到數(shù)據(jù)庫系統(tǒng)里面,比如說數(shù)據(jù)庫原來已經(jīng)有這些ACID的功能,嘗試想把這種多態(tài)、繼承或者封裝功能引入到數(shù)據(jù)庫系統(tǒng)里面。當然,其實多態(tài)或者繼承本身也是帶一定的圖關(guān)系的,當然今天看有些探索并不是成功,但也是往前的一些進步。

大約在05年的時候,后來的 Neo4j 首席執(zhí)行官 Emil Eifrem 聽說在哈佛有個軟件挺流行的,叫 The Facebook Social Graph,然后他覺得自己正在做的一個媒體管理軟件也是一個 Graph 結(jié)構(gòu)。他當時在飛機上,突然就靈光一閃,自創(chuàng)了一個新的名詞 Graph Database。這應該是我能查到的這個單詞(Graph Database)最早的起源了,后來這個名詞也是過了很久才慢慢為大家所知。

到12年的時候工業(yè)界大部分采用的是 Labelled Property Graph模型。相比基本的網(wǎng)絡(luò)模型做了一些擴充,比如說 label 加上了,把 property 加上了,這個概念到今天為止也是在圖數(shù)據(jù)庫這個領(lǐng)域里面比較常見的模型之一。另外一個比較常見的模型就是 W3C 為 RDF 所做的這一套定義。這兩種模型到目前為止還是比較常見的。

整個數(shù)據(jù)模型還在繼續(xù)向前進步,大約到18年左右的時候,嘗試為圖或者網(wǎng)絡(luò)的模型添加 streaming 或者 temporal 的時序能力。相關(guān)工作還在繼續(xù)開展,也有一些論文再發(fā)布,能看到一些相關(guān)產(chǎn)品。

2010s: 圖數(shù)據(jù)庫與圖計算系統(tǒng)的相互促進

圖數(shù)據(jù)庫行業(yè)的發(fā)展曲線

剛才提到的這些模型,可能是很久之前的歷史了。大約在2010年前后開始,在圖這個模型里面,出現(xiàn)了兩個比較重要的分支,圖數(shù)據(jù)庫系統(tǒng)和圖計算系統(tǒng)。這兩個分支先是獨立發(fā)展,之后是相互促進。雖然數(shù)據(jù)模型是一步步演進過來的,但是圖數(shù)據(jù)庫和圖計算系統(tǒng)兩種系統(tǒng)最初是各自獨立發(fā)展的。

圖數(shù)據(jù)庫系統(tǒng)基本上和數(shù)據(jù)庫系統(tǒng)的關(guān)系會更大一點。在 2000 年到2010 年之間,圖數(shù)據(jù)庫系統(tǒng)基本上還是 NoSQL 系統(tǒng)中的一種嘗試。他們面對的還是想解決 RDBMS 中有些不好解決的一些小的細分領(lǐng)域問題。

而圖計算系統(tǒng),它當時能解決的都是一些小規(guī)模的圖。比如單機處理一個圖計算的場景,或者是使用 Boost 里面的 Graph Library,或者MapReduce 來非常原始的方式來實現(xiàn)圖計算。

從大概10年開始,兩種系統(tǒng)都得到比較大的發(fā)展。圖數(shù)據(jù)庫對于分布式架構(gòu)、多模支持和圖查詢語言設(shè)計這些方面都開始進入技術(shù)成熟階段,也出現(xiàn)了很多新的商業(yè)公司開始進入這個領(lǐng)域。對于圖計算系統(tǒng)來說,出現(xiàn)了兩個比較重要的計算模型,BSP 模型和 GAS 模型,這兩個模型使得大規(guī)模并行地分布式圖計算變得可能。當然也產(chǎn)生了一系列圖計算和分析為主要目的商業(yè)公司。

這兩種系統(tǒng)在 15 年前后,技術(shù)開始相互促進和融合。商業(yè)公司會相互借鑒對方的技術(shù),把對方技術(shù)引入自己的產(chǎn)品里,然后去服務(wù)更多的場景。在 15 年前后行業(yè)的入局者開始迅速地增加。不光光是國外,國內(nèi)也出現(xiàn)了更多的公司。原有的數(shù)據(jù)庫公司和云廠商也開始進入這個領(lǐng)域。國內(nèi)的學術(shù)機構(gòu)和產(chǎn)業(yè)界也有比較明顯的進步。已經(jīng)可以逐步接近和達到世界的前列。所以對 15 年之后的總結(jié)就是技術(shù)上相互促進,商業(yè)市場已經(jīng)開始增長。

2018- Graph + AI 的快速興起

然后在 18 年前后,在技術(shù)上又發(fā)生了一些變化。Graph+AI 的領(lǐng)域開始快速興起,這里的 AI 比如說像連結(jié)主義為主的神經(jīng)網(wǎng)絡(luò),或者是符號主義為主的 Knowledge Graph。

publications-of-graph

world-patents-applications-of-graph

Graph和AI的結(jié)合使得這個領(lǐng)域出現(xiàn)了很多新的研究。有幾個例子,一個是我從Web of Science拉了一下論文的情況。大約從10年到15年左右,Graph Database、Graph Computing、Graph Neural Network和Knowledge Graph總體來說都保持了一個相對平穩(wěn)的增長,但是到18年左右,和 AI 相關(guān)的 Graph 的論文數(shù)量就發(fā)生了明顯的提升,這說明了學術(shù)界研究熱點的變化。還有一個是專利的情況,這是我從 WIPO 拉取的和 Graph 相關(guān)的專利申請情況。在前期的時候,Graph Database 和Graph Computing 的專利申請會明顯多一些。然后到18年左右開始的時候,和AI相關(guān)的Graph Neural Network和Knowledge Graph專利申請有明顯的提升,這說明了工業(yè)界的變化。一般來說,工業(yè)界會更關(guān)注專利一些,學術(shù)界會更關(guān)注論文一些。可以說Graph+AI在最近這幾年都得到極大的發(fā)展,不管是在學術(shù)界還是工業(yè)界。

在前期的時候,Graph Database 和 Graph Computing 的專利申請會明顯多一些

 多年以來,GraphDBMS都是DB-engines上增速最快的分支

因為我們想談的是 Graph Database,所以從 Database 領(lǐng)域來簡單看一下。在 Database 領(lǐng)域有很多的分支,DB-engines 網(wǎng)站會對不同的分支品類統(tǒng)計流行情況,反應流行度的增長趨勢。比如說 Relational DBMS(下面這個紅色的曲線),他的基數(shù)已經(jīng)很大,增長趨勢不會很大。但是對于 Graph DBMS 來說,這么多年以來,都是增速最快的分支。所以從Database這個角度來看,Graph 領(lǐng)域也是增速最快的。

2013-2022:Hyper Cycle of Graph Databases

2013年Gartner發(fā)布的Hyper Cycle 曲線

然后我還去找了一些研報或者三方研究機構(gòu)對這個領(lǐng)域的一些看法。其中最著名的就是Gartner。Gartner從13年開始,每年都會去研究Graph這種領(lǐng)域的進展。它有一個非常著名的 Gartner Hyper Cycle 曲線。簡單說一下,Gartner 認為一個技術(shù)會有兩個 Cycle。第一個 Cycle 是從萌芽期進入過熱期再進入幻滅期,這期間會有大量的智力和資本進入這個領(lǐng)域。然后第二個 Cycle 是從復蘇期進入成熟期,這個技術(shù)成為整個商業(yè)日常運營的一部分,不再作為一個新的技術(shù)名詞出現(xiàn)。

Gartner對Graph DBMS從2013年開始的跟蹤與觀察

圖數(shù)據(jù)庫GraphDBMS的萌芽期、過熱期和幻滅期

Gartner 對于 Graph DBMS 從 2013 年開始一直有跟蹤,我把它稍微重新整理了一下。在Gartner看來,整個Graph領(lǐng)域的情況是這樣子的。大約從13年到16年,這是第一個Hyper Cycle的萌芽期,大家在嘗試探索說哪些領(lǐng)域或者哪些新的技術(shù)可以被引入和使用。在17年左右的時候,這是第一個 Cycle 的高峰,之后的三年時間,進入第一個Cycle的幻滅期。從21年到22年開始進入第二個Cycle的爬升期。根據(jù)Gartner的預測,他認為在未來的3-5年內(nèi),Graph Database 這個領(lǐng)域會進入一個技術(shù)的成熟期。

Graph Database 圖數(shù)據(jù)庫的市場營收情況

對于整個 Graph Database 的市場營收情況的一些預計,不同的研究機構(gòu)給出的研報可能不太一樣。但是大體上數(shù)據(jù)都是最近20 21這兩年有十幾億美元的營收,并且大約保持 20%+ 的年復合增長率。這個增速大概我看了一下,略高于一點點 RDBMS 市場的增速。當然這是一個全球的情況,那如果看國內(nèi)的情況,獨立的研報比較少,但從我們內(nèi)部拿到的數(shù)據(jù)和幾家證券公司給的研報來看,國內(nèi)的數(shù)據(jù)應該比國際數(shù)據(jù)的增速至少高一倍以上,內(nèi)部能看到數(shù)據(jù)都是 50%~100%。所以國內(nèi)會更樂觀一些,大概可能的原因還是國內(nèi)相對基數(shù)更小,導入和起步也更晚一點。

對于圖數(shù)據(jù)庫未來的猜想

最后一個部分是對未來做一些預測,當然預測還是很難的,所以我把它改一個名詞,叫做猜想。猜想分為三個部分,一個技術(shù)部分,一個產(chǎn)品部分,還有一個產(chǎn)業(yè)部分。

對于圖數(shù)據(jù)庫未來技術(shù)的猜想

關(guān)于圖數(shù)據(jù)庫未來技術(shù)的猜想

關(guān)于技術(shù)部分,Graph Database 這個名詞本身其實已經(jīng)出現(xiàn)快20年了。然后我想引用一個隱喻:一艘船它的木頭逐漸被全部替代了之后,木頭還是不是原來的木頭,船還是不是原來的船?我想說就是 Graph Database從最初只是一個Graph Model 外加 Graph Visualization 的一個數(shù)據(jù)存儲系統(tǒng),到后面逐步增加圖語言 Pattern Matching 能力、大規(guī)模的 Computing 能力,以及對于業(yè)務(wù)人員用的 Data Science 能力,加上時序、Neural Network 這些能力。是不是可以考慮為它創(chuàng)造一個新的技術(shù)名詞了。

關(guān)于圖數(shù)據(jù)庫未來產(chǎn)品的猜想

關(guān)于圖數(shù)據(jù)庫未來技術(shù)的猜想

第二個是產(chǎn)品部分。關(guān)于Graph領(lǐng)域我覺得有一些問題。最前面說到要把知識串聯(lián)起來才能變成經(jīng)驗。對于任何一個技術(shù)來說,都有這么一個Time to Market的過程。先有一個想法idea,然后要試一試這個想法行不行。如果這個想法行,再把它變成一個生產(chǎn)的部署,最后再進行運維;如果不行,我可以再返回再來一個循環(huán)。這整個過程Time-to-market其實速度是最重要的。其實Graph領(lǐng)域來說,它在idea這個階段是最適合的,因為即使業(yè)務(wù)人員不懂技術(shù),對他來說也是很容易理解的,所以可以非常快的產(chǎn)生一個新想法。但是Graph領(lǐng)域目前的問題是在Create到 Release這個階段速度太慢。具體來說為什么速度太慢,就是整個Graph領(lǐng)域的技術(shù)對于用戶暴露的細節(jié)還是太多。不管是從OLTP的這個角度(上面),比如整個數(shù)據(jù)流的流程很長,加工完數(shù)據(jù)(ETL)要反饋到前面。對于OLAP這種分析為目的流程,也一樣有個抄長的流程。在這樣的整個流程里面,任何一個環(huán)節(jié)即使技術(shù)上極大進步,進步1倍或者10倍,但對于整個流程,特別是對于整個Time to Market的流程,其實可能只提升了5%。

另外一個問題是人員,因為如果對于一些小型的公司來說,他需要有數(shù)據(jù)科學家,要有DBA,要有業(yè)務(wù)人員,對他們來說可能人力成本就太大。每個人那么多細節(jié)要學習,對于公司決策者來說就很不經(jīng)濟。這兩個階段的劣勢就抵消了Idea這個階段的優(yōu)勢。

所以我的期望是說會有一些集成度更好的、對用戶更友好的產(chǎn)品。不管這些商業(yè)分析的用戶,他想用哪種數(shù)據(jù)模型、想要哪些算法,產(chǎn)品可以更好的提取出來,把這些復雜度包裝在后面,減輕用戶的心智負擔,讓用戶更快地去發(fā)現(xiàn)他所需要的商業(yè)價值,而不是把大量的精力都花在搭建一套甚至幾套很復雜的圖系統(tǒng)上面——這種事情只有大廠或者大型項目才做得到。技術(shù)目的應該是發(fā)現(xiàn)商業(yè)的價值。而這樣一個復雜的流程降低了整個圖技術(shù)在全市場普及的門檻。

圖數(shù)據(jù)庫行業(yè)標準化的發(fā)展

然后是關(guān)于標準化部分。標準化其實和整個行業(yè)是有些重大影響的,比如ISO-GQL其實是一個很好的事,因為這對于所有的行業(yè)的使用者來說,它可以不再去學習每一個不同的vendor所提供的語言,當然是一件非常好的事。當然圖領(lǐng)域不只是一個語言,其實圖領(lǐng)域有很多的算法,除了大家常見的那幾個圖算法之外,還有大量的長尾的圖算法。而那些圖算法,每個vendor給的接口、給的數(shù)據(jù)導入的方式,它的工作流都是千奇百怪的。對于整個領(lǐng)域的開發(fā)者來說,他必須得為這些 vendor 去適配自己的系統(tǒng),這也是一個很大的成本。還有就是關(guān)于整個行業(yè)的 Benchmark 的情況,這對于甲方或者應用來說是有意義的。但現(xiàn)在整個行業(yè)的 Benchmark 還是非常的少,只能體現(xiàn)產(chǎn)品在非常少的幾個場景下(比如社交、金融個別場景)的讀或者寫能力是個什么樣子。這對于甲方的決策來說還是不夠的,因為甲方需要有更貼近于他的業(yè)務(wù)場景的一些 Benchmark 供他參考。否則對于他來說,每個項目只能拉著 vendor 來一起設(shè)計 POC,對整個采購流程也有很大的阻礙,這里面就有很多商業(yè)運作的空間。所以我對于標準化的期望,就是能夠有更多的工作能夠使得整個行業(yè)的范式發(fā)生一個遷移。

關(guān)于圖數(shù)據(jù)庫未來產(chǎn)業(yè)的猜想

最后一個部分是關(guān)于產(chǎn)業(yè)的,特別是關(guān)于中美市場。大家可以看到中美市場在第一個 Cycle 的時候,因為受益于理論部分的工作,兩個市場對于技術(shù)的接受程度比較一致。但在第二個 Cycle,就是技術(shù)成熟商業(yè)化階段,中美市場是不太一樣的。因為兩個市場的政治沖突,產(chǎn)業(yè)結(jié)構(gòu)、市場化程度等等的差異性,會導致在第二個 Cycle 的時候,中美在整個圖領(lǐng)域會走上分叉,可能會走上導致不同的技術(shù)和商業(yè)化的可能性,而且目前看技術(shù)與商業(yè)都分叉的趨勢還是挺明顯的。

預祝NebulaGraph在這個充滿不確定的世界揚帆起航

這個世界充滿不確定,最初開篇說到這里只是對于圖這個行業(yè)的一個小小的觀察和認識,所以希望上面這些內(nèi)容能為大家提供更多的確定性,當然也有可能為大家提供了更多的不確定性。

[免責聲明]

原文標題: 圖行業(yè)的一些觀察:以圖數(shù)據(jù)庫為例|NUC 2022

本文由作者原創(chuàng)發(fā)布于36氪企服點評;未經(jīng)許可,禁止轉(zhuǎn)載。

資深作者吳敏
吳敏
0
杭州悅數(shù)科技有限公司
實力廠商
實力廠商
優(yōu)質(zhì)服務(wù)
優(yōu)質(zhì)服務(wù)
及時響應
及時響應
立即詢價
相關(guān)文章
最新文章
查看更多
關(guān)注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務(wù)合作
主站蜘蛛池模板: 日韩av无码精品人妻系列| 无码精品久久一区二区三区| 女公务员人妻呻吟求饶| 成人性生交大片免费看r链接| 少妇被cao高潮呻吟声| 漂亮的保姆hd完整版免费韩国| 国产精品久久久久9999赢消| 啊轻点灬大巴太粗太长了视频 | 免费大片黄在线观看18中文| ww污污污网站在线看com| 中文字幕乱码一区二区免费| 高h秘书不许穿内裤1vh| 美女视频| 婷婷涩涩五月天综合蜜桃| 成人性生交大片免费看r男欢女爱 《漂亮的女邻居》三级 | 亚洲成人网| 两个人看的www视频| 麻豆精产国品一二三产区风险| 国产精品99久久99久久久动漫| chinese熟女老女人hd视频| 成人无码视频| 伦理片免费完整片在线观看| 丰满年轻岳欲乱中文字幕电视| 欧美丰满熟妇xxxx| 四虎www永久在线精品| 窝窝影院午夜看片| а√天堂中文资源| 最近中文字幕2019免费版日本| 成熟人妻换xxxx| 亚洲国产av玩弄放荡人妇系列| 富婆性猛交ⅹxxx乱大交| 日本xxxx裸体xxxx| 色一乱一伦一图一区二区精品| 国产国产成人久久精品| 久久人妻无码一区二区三区av| 日本一道高清一区二区三区| 亚洲午夜久久久久久久久电影网 | 亚洲av一区中文精品字幕| 午夜成人理论无码电影在线播放| 三级全黄的视频在线观看| 成人精品视频99在线观看免费|