男女性潮高清免费网站,久久精品国产亚洲av麻豆图片,啊灬啊别停灬用力啊岳,国产天堂亚洲国产碰碰,亚洲精品一区二区久久,久久人人爽人人爽人人片av高清 ,久久本道综合久久伊人,伊人情涩网

開源大模型領(lǐng)域最重要的玩家們,在關(guān)心/擔(dān)心什么

極客公園
+ 關(guān)注
2023-07-26 10:03
1.6w次閱讀
開源大模型成為 AI 行業(yè)的重要變量。

開源模型與閉源模型,正成為兩股并行的力量。

從 2 月份 Meta 發(fā)布的 Llama,到 3 月份斯坦福大學(xué)微調(diào) Llama 后發(fā)布的 Alpaca,再到 5 月份出現(xiàn)的 Falcon,世界各地的開源模型在「內(nèi)卷」中快速進步。 

7 月 18 日,Llama2 的出現(xiàn),更是直接讓大模型的競爭格局變天了。 

開源模型作為大模型領(lǐng)域的「地板」,Llama2 開源且有條件地開放了商業(yè)使用后,很多「水平有限」的大模型還沒商用,就已過時。「接下來,會有一大批人用自己的數(shù)據(jù)訓(xùn)練這個模型,從 Bert、到Llama系列,每一個強大的基座模型被放到開源社區(qū)后,都會有一大波寒武紀(jì)生命大爆發(fā)的現(xiàn)象。」 

見過「歷史」的尹一峰(Hugging Face 工程師)認為,「模型每天都在變化,隨時會被更新掉,但是建立很好的數(shù)據(jù)集,能讓你接下來很長一段時間受用。」 

然而,一個不常被討論和關(guān)注的事實是:「現(xiàn)在開源社區(qū)用的數(shù)據(jù)都是 ChatGPT 對話的數(shù)據(jù)」,RWKV 羅璇說,「這是很大的問題,數(shù)據(jù)不會開源,而開源社區(qū)應(yīng)該更關(guān)注數(shù)據(jù)的建立」。 

數(shù)據(jù)的瓶頸一旦被破除,開源社區(qū)可以發(fā)揮極佳的組織優(yōu)勢,在大模型能力上接近甚至超過閉源大模型。比如,在 AI 編程場景,開源遙遙領(lǐng)先。對于開源社區(qū)而言,沒有明顯的編程數(shù)據(jù)劣勢,很多超越了閉源模型在 AI 編程場景的質(zhì)量。 

另一方面,開源模型,企業(yè)客戶用起來放心。相比閉源大模型的黑箱,「透明化的文章都出來了,代碼也發(fā)出來了,用起來你放心,知道里面有什么」。像 Llama2 這樣的開源模型,公布了訓(xùn)練數(shù)據(jù)、方法、標(biāo)注等細節(jié)。 

7 月 23 日,在極客公園主辦的 AGI Playground 大會上,來自 Hugging Face、RWKV、Stability AI 等幾家知名開源大模型公司的從業(yè)者,分享了在這波 AI 浪潮中,開源模型的優(yōu)勢,以及未來的發(fā)展趨勢。 

開源大模型領(lǐng)域最重要的玩家們,在關(guān)心/擔(dān)心什么

本場圓桌嘉賓簡介(從左到右依次為): 

陳昱:云啟資本 合伙人,圓桌主持人。云啟長期關(guān)注 AI 技術(shù)發(fā)展和產(chǎn)業(yè)迭代,在早期領(lǐng)投了 PingCAP、Ziliiz、Jina AI、RisingWave、TabbyML 等開源公司和大模型公司 MiniMax

劉聰:BentoML 亞太區(qū)負責(zé)人。BentoML 為開發(fā)者和企業(yè)提供構(gòu)建部署和擴展 AI 應(yīng)用程序的能力,其開源項目已經(jīng)有上千家海外公司在使用。

羅璇:RWKV、Syrius 炬星 聯(lián)合創(chuàng)始人。RWKV 是一個開源大模型,開源可商用,其最大特點是,采用了一種新的模型架構(gòu),計算效率遠比 Transformer 更高。同時,RWKV 也是全球的開發(fā)者社區(qū),在 Github 上有兩百多個項目。

尹一峰:Hugging Face 機器學(xué)習(xí)工程師。Hugging Face 是一個專門針對機器學(xué)習(xí)的開源平臺和社區(qū)。

鄭屹州:Stability AI 技術(shù)產(chǎn)品總監(jiān)。Stability AI 主要做開源的基礎(chǔ)模型,其中最為熟知的是 Stable Diffusion。

張萌:TabbyML 創(chuàng)始人。TabbyML 的業(yè)務(wù)是做開源 AI coding 助理的解決方案。

陳昱:無論是 RWKV,還是Stable Diffusion,都有自己的開源模型。大廠像 Meta 上周剛發(fā)布了 Llama2。怎么看開源模型或者開放模型這件事情?它會不會對 OpenAI 或者 Google 的閉源模型帶來一些沖擊?

劉聰:我們是幫助大模型上線的一家公司,最近海外客戶的需求變化很快,從一開始 Llama-based,然后 Falcon-based,最近很多客戶又讓我們幫忙上線 Llama 2。 

我們感覺開源的模型能力變得越來越好,但還是限于私有化部署以及商業(yè)公司內(nèi)部的一些用例。普適化的用例可能還是依賴 OpenAI 這種大模型的能力。 

羅璇:為什么 OpenAI 不開源,我之前也問過陸奇老師這個問題,他是擔(dān)心開源會導(dǎo)致一些人把它用到壞的地方。閉源有可能更安全,但是我們認為,閉源是閉不住的,因為實際沒有門檻,現(xiàn)在 Llama 也開源了更好的模型。開源可能是真正讓大家都能夠普惠地用到未來 AI 技術(shù)的方向。 

我們開源的初衷也很簡單,我們認為 OpenAI 的閉源違背了它的初衷,所以我們從 2020 年開始開源,也得到了像 Stability AI 和 Hugging Face 的支持。 

其實現(xiàn)在很多商業(yè)公司也開始開源,但實際上是把一些效果比較差的模型開源,真正好的模型并不會開源,而且數(shù)據(jù)不會開源,數(shù)據(jù)是大家要關(guān)注的問題。現(xiàn)在大家開源社區(qū)用的數(shù)據(jù)都是ChatGPT對話的數(shù)據(jù),這個是很大的問題。我認為開源社區(qū)應(yīng)該更關(guān)注數(shù)據(jù)的建立,也希望所有的開源社區(qū)一起做這個事情。

尹一峰:從當(dāng)年的 BERT 到 Llama,F(xiàn)alcon 到現(xiàn)在的 Llama2,每一次有這么強大的基礎(chǔ)模型之后,都會有一大批人用自己的數(shù)據(jù)去微調(diào)這個模型,導(dǎo)致每一次有這么一個強大的基座模型被放到開源社區(qū)之后,就會有一大波寒武紀(jì)生命大爆發(fā)一樣的現(xiàn)象。這個現(xiàn)象被命名為「The Llama Moment」。 

第一,這一定會對 OpenAI 和大廠產(chǎn)生影響,因為開源在不斷在能力上接近閉源大模型。而且開源最大的優(yōu)勢是透明化的,文章都寫出來了,代碼也發(fā)出來了,用起來你放心,知道里面有什么。但是閉源的大模型有些事情你不敢相信。 

第二,其實最重要的東西還是數(shù)據(jù),因為 Llama1 出來之后你去微調(diào)它一下,Llama2 出來你再去微調(diào)它一下,其實可以用同一批數(shù)據(jù)。模型這個東西每一天都在變化,時不時就會被更新掉,但是建立一個很好的數(shù)據(jù)集,能讓你接下來很長一段時間受用。 

鄭屹州:我從兩個角度看這個東西。首先,基礎(chǔ)模型可以看成生產(chǎn)工具,這個生產(chǎn)工具到底在誰的手里,在不同的人手里會有什么不同的效果。

如果在大公司,作為閉源的基礎(chǔ)模型,讓大量的人使用生產(chǎn)工具自己發(fā)展,這樣會讓這個生產(chǎn)工具變得更高效,比如我們現(xiàn)在看到的 GPT-4。這樣的模型會持續(xù)存在,并且對于很多直接 C 端的應(yīng)用、或者不是特別 critical(嚴(yán)肅的)的應(yīng)用非常有意義,這種比較好的性能也是大家會永遠追求的東西。 

開源模型是公有的生產(chǎn)工具,大家都拿到自己的手里,它相對比較分散,沒有那么集中的資源,大家在上面做各種各樣不同的事情,用力的方向也不太一樣。好處是生態(tài)會變得特別繁榮,這種繁榮的生態(tài)里可以看到很多不同的東西。 

模型在這個時代不單單是生產(chǎn)工具,它可以是你表達的渠道,是你思想的反映。如果是閉源模型,那這個模型不屬于你,而開源可以讓你用屬于自己的模型。不管 Stable Diffusion,創(chuàng)造者用他自己的畫風(fēng)定制模型,做符合自己表達習(xí)慣的模型,還是像文本,我把我的思想,我之前的聊天記錄,各種各樣的信息喂到這個模型里。因為這個模型屬于我,我不用擔(dān)心數(shù)據(jù)所有權(quán)的問題,也不擔(dān)心自己的想法會不會泄露出去,在這上面定制的一個模型是自己思想的反映。 

想象一個全閉源的世界,如果你不擁有自己的模型,當(dāng)未來真的走到了 AGI 時代,你怎么擁有自己的思想,怎么擁有自己能夠 embody(象征)自己的一個模型呢? 

張萌:現(xiàn)在開源模型和閉源模型在質(zhì)量上有差異,但 AI 編程這個場景非常有意思。它是少數(shù)社區(qū)視角或者研究機構(gòu)視角,在面對大廠像 OpenAI 或者 Google 這樣的超級研究機構(gòu)時,沒有顯著的數(shù)據(jù)劣勢(的場景)。這也是為什么過去 3 到 6 個月里,除了常規(guī)的語言模型之外,coding 場景在社區(qū)層面發(fā)展得非常快,像 CodeGen2.5、WizardCoder、Phi-1 這樣的模型都紛紛其實超越了這幾個閉源模型在 coding 這個場景上的質(zhì)量。 

這是(我們公司)TabbyML 為什么在第一天就決定做開源很重要的原因,當(dāng)這個生態(tài)相對多元,或者模型本身快速被變成標(biāo)品。我們預(yù)期未來生態(tài)會比較多元,大家作為開發(fā)者工具部署的時候會有很多種選項。而且開發(fā)者場景里,開源本身就是在商業(yè)化獲客角度非常理想的選項。在未來,尤其是 coding 這個場景,因為下游的用例太多種多樣了,所以我們相信它會是一個開源模型主導(dǎo),閉源模型很難追得上的狀態(tài)。 

陳昱:AI開源這個東西也是過去一年才火熱的,大家有沒有印象特別深刻的項目或者標(biāo)志性的事件?

劉聰:標(biāo)志性事件比較重要的是,當(dāng) Falcon 最開始發(fā)布的時候要收你 10% 的 royalty(使用費)。他說他是一個開源模型,但收你 10% 的 royalty。最后社區(qū)和公眾對這個事情的反應(yīng)很大,F(xiàn)alcon 最后又把這個東西去掉,完全改成 apache 兼容的 license。

但是最近 Llama2 發(fā)布之后,license 里有一個商用條款,但是大家好像都沒有再討論這個事情,因為在他的條款里明確表示——如果你的月活超過 7 億,你需要再找 Facebook 要 grant(授權(quán)),而且他沒有具體寫出這個 grant 到底是什么,我覺得這是開源社區(qū)需要急需解決的,大模型的開源 license。 

羅璇:關(guān)于 license 這個事情,因為我們一直都是 apache 2.0 開源可商用的,我認為 Llama 還是給自己留了一些空間,Meta 畢竟是一家商業(yè)公司,我了解到他還是希望通過 Llama2 能夠拉近更多的開發(fā)資源、開發(fā)者生態(tài)做元宇宙那塊的事情。 

我更想聊的是另外一個話題,我希望大家更關(guān)注在端側(cè),在終端上,比如手機、電腦、機器人、XR 上面跑的大模型,像海外上有開發(fā)者做了 Llama.CPP,也有人幫我們做 RWKV.cpp,這個是跟開發(fā)者和更多的創(chuàng)業(yè)者更相關(guān)的事情。只要在終端上能夠跑大模型,整個對算力的需求,包括對進入的門檻拉了很低,這是非常好的事情。 

另外一方面,我發(fā)現(xiàn)近期很多開源社區(qū)目標(biāo)越來越明確,這是非常好的事情。在開源的生態(tài),跟閉源的商業(yè)生態(tài)如果要做競爭,目標(biāo)明確、路徑明確以及執(zhí)行力強,這是非常重要的事情。

尹一峰:最近最火的項目就是 Llama2,但是在 Llama2 這方面能看到一個趨勢,現(xiàn)在在 70B 左右的模型已經(jīng)在很多方面能跟 175B 的 OpenAI 的閉源模型可以拼一拼,這應(yīng)該是一個趨勢。 

首先,OpenAI 的模型 2021 年就訓(xùn)練完了,有很多這兩年出現(xiàn)的新技術(shù)、新架構(gòu)他沒有加進去。第二,像 Llama 這樣的模型有這幾年的技術(shù)經(jīng)驗積累,可以讓一個小的模型做到之前大的模型才可以做到的事情。我覺得之后的趨勢:可能強大到一定程度的模型,比如 100 分的模型,可能從 70B 降到 50B 也可以做到 100 分,最后可能 13B 也可以做到 100 分,最后模型越做越小,硬件越做越強大,很快就可以做到端了,等它到了端上之后 To C 的應(yīng)用就可以做起來了。這也是我目前看到在商業(yè)化上面,在模型技術(shù)上面的趨勢。 

鄭屹州:我現(xiàn)在觀察到的一個非常有意思的現(xiàn)象是從 Stable Diffusion 開始,開源社區(qū)的參與者的 profile(背景)發(fā)生了變化。之前的開源社區(qū)參與者,特別是 ML(機器學(xué)習(xí))相關(guān)的開源社區(qū)參與者,大多應(yīng)該都是 ML Engineer 或者是工程師,非常非常技術(shù)導(dǎo)向的人。 

但 SD(Stable Diffusion)可能是一個爆發(fā)點,開源社區(qū)的參與者里開始出現(xiàn):大量以興趣為驅(qū)動的人和很多草根研究者,有很多本身不是 ML(機器學(xué)習(xí))領(lǐng)域但有一定研究能力的人進來。這樣豐富的社區(qū)就開始涌現(xiàn),比如剛才提到端上的部署,Llama.cpp、ExLlama,這些全都是開源社區(qū)自己做出來的。當(dāng)社區(qū)開始變得更跨界,社區(qū)的范圍變得更廣,是現(xiàn)在 AGI 時代或者走向 AGI 的時代里面,看到的一個比較有趣的 pattern。 

張萌:我們作為語言模型的應(yīng)用層,特別關(guān)注的一點就是開源大語言模型的 serving layer(服務(wù)部署層)。我分享兩個我們比較關(guān)注的項目,一個是 Hugging Face 的 text generation inference,它現(xiàn)在是一個工程化非常好,支持、可觀測性都做得非常完善的項目,我覺得已經(jīng)接近于現(xiàn)在開源大語言模型 serving 的實施標(biāo)準(zhǔn),它關(guān)注度也非常高。 

另外有一個比較新一點的叫 vllm.ai,是伯克利的 Sky Computing Lab 在做的項目。讓人驚訝的是他們應(yīng)該也是打算在全方位競爭 serving layer,他們的特點是通過內(nèi)存分頁應(yīng)用到 attention 的想法,去更容易的做 continuous patching,更容易去做吞吐量的提升。我們希望這些 serving layer 競爭的格局能夠比較良性競爭,我們在應(yīng)用層的角度就可以得到更好的開發(fā)者體驗。 

陳昱:剛才大家提到了很多商業(yè)化的點,在大模型時代,如果真正要做好商業(yè)化,前提是什么?有什么好的商業(yè)模式?以及作為一個開源公司,內(nèi)部怎么平衡自己的商業(yè)化版本和開源版本?

劉聰:我簡單從 BentoML 的角度來回答這個問題。BentoML 其實是一個很典型的開源 3.0 公司。所謂 1.0 可能就是 Red Hat(紅帽),賣 support 和賣 license 的模式,2.0 更多是 OpenCore 模式,賣一些 premium 的功能。3. 0 可能就像 Databricks 和云平臺強綁定的模式,它的收費和用量可以和云平臺分享。 

BentoML 有一個開源的框架,可以幫助開發(fā)者構(gòu)建 AI 應(yīng)用,幫助大模型上線。我們商業(yè)化產(chǎn)品也在上個月進行了發(fā)布,和云平臺有一個非常好的合作。用開源框架構(gòu)建 AI 應(yīng)用之后,部署到云平臺,我們幫助你做服務(wù)(serving) 和規(guī)模化 (Scale)。這樣的模式對于我們小公司會更友善一些,因為我們可以和云平臺共享客戶的收益。 

回到最開始開源公司做商業(yè)化的問題,我們認為開源產(chǎn)品需要幫助開發(fā)者去解決非常棘手問題,也可以順著這些功能和云平臺做一些結(jié)合,這樣可能會是一個比較好的發(fā)展路徑。 

羅璇:作為 RWKV,基底模型永遠都會開源、免費可商用。我們也成立了商業(yè)公司,是整個開源生態(tài)的一部分,會去做垂類的一些優(yōu)化。 

現(xiàn)階段大模型這個領(lǐng)域,大家還是為效果付費,語言模型是 ChatGPT,文生圖就是 Midjourney 更多一些,現(xiàn)在買單的基本上都是個人或者企業(yè),做效率提升。未來還會有增量,增量的點在于會有新的計算平臺、互聯(lián)網(wǎng)出來。我覺得會有更多的想象空間在,現(xiàn)階段還是在效率提升上。 

尹一峰:現(xiàn)在大模型越做越小,也越做越強,可能到最后每個人都會想擁有自己的大模型。但問題是,在端上不一定有自己的硬件去跑模型。 

有一個商業(yè)模式,就是我給你看一下我的模型有多么強大,你用我的這個模型,我?guī)湍銇?host,相當(dāng)于 Infra as Service。Hugging Face 也在做這個事情,我們會幫你 host model,訓(xùn)練完了之后就掛在那里。這樣的話,我們有模型,有數(shù)據(jù)庫,然后也有 Infra,就是一條龍服務(wù),不需要去別的地方了。 

如果把大模型類比為當(dāng)年的互聯(lián)網(wǎng),下一波創(chuàng)業(yè)就類似于當(dāng)年的互聯(lián)網(wǎng)+,互聯(lián)網(wǎng)加上外賣就有了美團,加上購物以及有了淘寶。 

因為互聯(lián)網(wǎng)是一個具有顛覆性的技術(shù),可以顛覆外賣,也可以顛覆購物。我覺得現(xiàn)在有一個很尖銳的問題,就是我們要找到大模型它到底可以顛覆啥?如果大模型可以顛覆某一個行業(yè)的話,這里是可以出巨頭的。如果找不到這個可以顛覆的東西,找到可以增量的東西,至少能掙到錢。

鄭屹州:開源要做商業(yè)化的一個基礎(chǔ)是什么?我會比較想說一件事情,是關(guān)于這個開源社區(qū)大家是否遵守游戲規(guī)則的這個問題。最近我們也有觀察到一些 pattern,比如說我們的模型最終都會走到商業(yè)開源,但在商業(yè)開源之前可能會有一段 research 開放的時間,比如說現(xiàn)在大家見到的 SDXL 0.9 這個版本,還目前是 research 開放,還沒有開源,不能商業(yè)化。但已經(jīng)有很多公司不管是國外還是國內(nèi),直接拿過來做商業(yè)化 API 等等,但這個模型其實并不 ready for 商業(yè)化的,這一系列的破壞規(guī)則的做法,可能會對整個開源的商業(yè)環(huán)境產(chǎn)生一定的破壞。 

張萌:在開發(fā)者工具這個開源生態(tài)里,商業(yè)化是跑得比較通的一個模式。大家基本上根據(jù)席位、根據(jù)年付費,在海外是一個非常通順的商業(yè)模式。對我們來說,比較核心的點在于怎么區(qū)分開源版和商業(yè)版功能的差別。TabbyML 本質(zhì)上是給開發(fā)者提效的工具,那么我們在開源的這個 OpenCore 里,所有對開發(fā)者的提效包括補全、問答、一些簡單的分析。這些功能都是被開源版本所覆蓋,永久免費的一個能力。 

在面對企業(yè)做商業(yè)化,面向 CTO 或者 Engineering Manager 的時候,我們會提供的你團隊使用 Tabby 產(chǎn)品之后整體提效的狀況,你的整個 workflow,用 language model 做完分析之后,告訴你每個 issue 花了多少時間卡在哪里,這樣一些偏生產(chǎn)力協(xié)作和 insight 層面的能力,我們會把它作為一個商業(yè)版能力,去對企業(yè)客戶進行額外的收費。 

陳昱:大家怎么看開源社區(qū)在這一波AI開源創(chuàng)業(yè)中扮演的角色?

劉聰:開源是很重要的。現(xiàn)在不管是大模型,還是工具鏈都有很多新的項目出來。從我們創(chuàng)業(yè)公司的角度來說,我們沒有足夠的工程師能力覆蓋到所有用例。舉個例子,在我們社區(qū)里,對百川模型的支持就是社區(qū)開發(fā)者做的貢獻。從開源大模型的角度來說,這個是非常重要的能力,需要比較透明的協(xié)作的方式做這個事情。從工具鏈的角度來說,在 Open MLL 上,是一個非常百花齊放的過程,很多人用不同的工具,做不同的功能。在開源協(xié)作的角度而言,會讓這個生態(tài)變得發(fā)展更好,更 open,這樣也會更易于后面的進展。 

羅璇:RWKV 一直注重全球的開發(fā)者生態(tài),一開始就是全球化的,born in Global。開發(fā)者為什么用 RWKV,為什么加入一個開源社區(qū),初衷是非常簡單的,覺得你這個項目有意思,有前景,值得投入。這是非常樸素的出發(fā)點。 

我們希望讓 AI 更加平權(quán),最近也在組織一些線上閉門會,包括 Hackthon 的項目,希望讓更多的開發(fā)者找到更多的資源,我們給開發(fā)者提供一些資源對接。 

尹一峰:我覺得開源社區(qū)應(yīng)該是催化劑的作用。從 0 到 1 的工作,可能需要一幫特別聰明的大佬關(guān)起門來搞。但是從 1 到 100 的工作,扔給開源社區(qū)就很快。當(dāng)時 Llama2 一出大家很驚艷,我們覺得這個模型肯定能在榜首上待幾天。真的就只呆了幾天就被超越了。 

從另一種角度來說,哪怕你在做閉源的工作,開源社區(qū)對你也有很大的幫助,因為開源算是閉源的地板。假如公司 A 做了一個閉源的模型,跑出來一看比這個 Llama2 低了 50 分,你直接去 Hugging face 下載 Llama2。無論是從創(chuàng)新上,對商業(yè)化公司的影響上,都起到了一個加速的作用。所以哪怕開源社區(qū)現(xiàn)在商業(yè)化上多多少少都會面臨一些問題,但是這個事情真的是值得去做的。 

鄭屹州:不知道大家有沒有看過黏菌尋找食物的視頻,我想到一個比方,開源社區(qū)有點像一團黏菌。雖然黏菌是一個個體,但是我們可以把它比喻成群體。一開始方向是特別發(fā)散的,這個群體在四處探索不同的方向,逐漸擴散。這時候大家都沒有明確的凝聚方向,但是只要有一個點接觸到了食物,拿到了最終目標(biāo),很快其他路徑會退化,會有一條非常粗的主干直接連向那個目標(biāo)。開源社區(qū)在這個地方扮演了探索的過程。黏菌即便抵達了一個食物,大量的主干形成以后,還會有非常多的枝干去探索其他的地方,去找到更多的食物。 

開源社區(qū)可以避免發(fā)生「局部最優(yōu)化」的狀況。Transformer 是不是局部最優(yōu),我們現(xiàn)在還沒有答案;RNN 是不是下一個答案我們也不知道。但是現(xiàn)在因為開源社區(qū)的存在,會有多個枝干在做不同的探索,有意義的枝干上面都會形成一股力量,在這個枝干上面更好做發(fā)展。這是我看到開源社區(qū)在這個時代最大的意義,讓技術(shù)多樣,不至于陷入局部最優(yōu),最終卡死。 

開源大模型領(lǐng)域最重要的玩家們,在關(guān)心/擔(dān)心什么

黏菌走迷宮|圖片來源:Google 

張萌:開源社區(qū)的存在,是開源項目從商業(yè)上的角度本質(zhì)區(qū)別于其他所有商業(yè)模式的一個核心點。開源社區(qū)使得潛在用戶,即使是不愿意付費的用戶,都有機會變成一個社區(qū)的 contributor(貢獻者),產(chǎn)生價值。

舉一個例子,大家可能都做過國內(nèi)互聯(lián)網(wǎng)大廠的生意,國內(nèi)互聯(lián)網(wǎng)大廠基本是不太有付費意愿的客戶群體,我們很難在他身上賺到錢。但是客觀行為上,國內(nèi)互聯(lián)網(wǎng)大廠有技術(shù)能力,也有技術(shù)意愿去使用先進的開源生產(chǎn)力工具。 

我們在策略上,從一開始就不指望從互聯(lián)網(wǎng)大廠賺到錢,而是通過他們的使用,把他們 on board 進來,讓他們作為社區(qū)的參與者,真正能夠把 Tabby 這樣產(chǎn)品在自己內(nèi)部用起來,有機會成為這個社區(qū)的 contributor,然后從本質(zhì)上就把這個商業(yè)模式的路拓寬了很多。 

所以做開源商業(yè)化的時候,不得不去做的一個 engagement strategy 的判斷就是,當(dāng)一個客戶顯然不會付費的時候,我們的主要目標(biāo)就是把它變成社區(qū)的 contributor。

陳昱:最后談一個話題,大家都知道開源無國界,在座的嘉賓在做開源社區(qū)時都有全球化的目標(biāo),開源項目怎么做好全球化?中國和海外開源的氛圍有什么不一樣?

劉聰:非常同意開源就是一個無國界的事情。開源軟件可能是要分兩塊,一塊是基礎(chǔ)設(shè)施相關(guān)的開源軟件,一塊是事務(wù)性的開源軟件,這個 Panel 我們可能更多談到基礎(chǔ)設(shè)施的開源軟件。 

基礎(chǔ)設(shè)施的開發(fā)軟件,中國創(chuàng)業(yè)者或者開發(fā)者是有一定優(yōu)勢的。因為從互聯(lián)網(wǎng)公司的角度,我們的用戶量更多,并發(fā)和遇到困難的場景,比海外剛起步的開源項目更復(fù)雜。 

我其實很建議國內(nèi)的開發(fā)者,或者創(chuàng)業(yè)者,從一開始就去做全球的開發(fā)者社區(qū),而不是專注中文開發(fā)者社區(qū)。其實海外的開發(fā)者也想要用我們中國的創(chuàng)業(yè)者、基礎(chǔ)設(shè)施開發(fā)者創(chuàng)建的基礎(chǔ)軟件,但是因為語言原因而錯過,我覺得是非常可惜的。 

羅璇:Stable Diffusion 開源以后,國內(nèi)開源熱情就非常高了。我覺得國內(nèi)對開源是非常有熱情的,只是過去沒有一個很好的閉環(huán)或者產(chǎn)品,或者是生態(tài)上的商業(yè)。現(xiàn)在 RWKV 在國內(nèi)開發(fā)者也很多,在國內(nèi) QQ 群開發(fā)者也超過一萬人了。 

商業(yè)公司現(xiàn)在的開源是另外一條路,不會把最好的模型開源出來,或者有些商業(yè)公司發(fā)現(xiàn)自己的模型落后了,會把模型開源出來。我覺得這是接下來會發(fā)生的事情。我們更多要跳出時間和空間的約束,想想未來三到五年,AI 會發(fā)生什么變化。 

尹一峰:做開源模型的人能很容易把模型放上去,下模型的人把它下下來,這樣很容易形成社區(qū)。但是社區(qū)又有一些障礙和分界線。Stable Diffusion 開源后,之所以全世界都在用,很大程度上是因為圖誰都能看得懂。 

如果是語言模型可能會有語言障礙,英語(社區(qū))會更多做英語模型,中文(社區(qū))會更容易去做中文模型。Llama2 之所以這么火可能也是沾了英語的光,因為全世界都會說英語。我覺得這一方面也是會造成山頭主義。如果要做國際化,我覺得最大問題是要打通語言壁壘。第一點,讓別人學(xué)中文;第二點,自己的模型多放一點語言進去。 

鄭屹州:中國其實是開源社區(qū)特別重要的貢獻者。舉一個例子,Stable Diffusion 的 Dpmpp 采樣算法是清華團隊做的,這可以說是最重要的采樣算法之一;而我們模型用的 Resnet 層來自微軟亞研院的華人研究者。這些對于開源社區(qū)是非常核心的貢獻。國內(nèi)的開發(fā)者在做很多事情,因為語言的壁壘沒有能夠真的傳到全球社區(qū)里面去;在語言模型上可能就更明顯,因為模型底層的語言都不一樣。 

如果我們拋開所有地域政治話題,就談?wù)Z言壁壘會存在多久,可能在近兩三年內(nèi),這個問題會被各種各樣的工具和現(xiàn)在的模型來解決。開源社區(qū)培養(yǎng)了一堆開源模型,可以幫助我們把巴別塔重建,讓我們能夠真正實現(xiàn)跨越語言壁壘去做合作,這是一個我特別興奮的事情。未來半年或一年,可以看到更多的趨勢,讓跨語言的開發(fā)更多聯(lián)合起來。 

張萌:我們視角里面,中文社區(qū)和海外社區(qū)最大的問題還是因為互聯(lián)網(wǎng)環(huán)境,導(dǎo)致不得不去做適配的一些事情,導(dǎo)致中文社區(qū)平白多了更多的障礙。海外的開源項目很多時候是不感興趣解決中文社區(qū)特有的問題。這些問題只有靠中文開發(fā)者自己解決,也只有這樣的問題解決了,國內(nèi)才能夠真正在工具鏈上跟海外保持持平,在解決語言問題后,我相信國內(nèi)社區(qū)會更磅礴發(fā)展起來。 

本文來自微信公眾號“極客公園”(ID:geekpark),作者:宛辰、凌梓郡,36氪經(jīng)授權(quán)發(fā)布。

[免責(zé)聲明]

原文標(biāo)題: 開源大模型領(lǐng)域最重要的玩家們,在關(guān)心/擔(dān)心什么

本文由作者原創(chuàng)發(fā)布于36氪企服點評;未經(jīng)許可,禁止轉(zhuǎn)載。

資深作者極客公園
0
消息通知
咨詢?nèi)腭v
商務(wù)合作
主站蜘蛛池模板: 少妇自慰流白口浆21p| 久久久久亚洲精品无码网址色欲| 国产欧美激情网| 啦啦啦在线观看播放视频www| 欧美激情黑人极品hd| 久久亚洲色www成人欧美| 任我爽精品视频在线观看| 夜夜躁狠狠躁日日躁202| 欧洲vat一区二区三区| 丰满老熟女毛片| 亚洲国产最大av| 国产成人av综合色| 久久国产热这里只有精品| 浮力影院50826| 欧美40老熟妇色xxxxx| 老熟妇毛茸茸bbw| 国产精品成人av在线观看| 亚洲国产精品毛片av不卡在线| 亚洲欧美中文字幕在线一区二区| 免费视频网站在线看视频| 精品久久久bbbb人妻| 亚洲国产av久久久| 日本高清免费毛片久久| 快穿名器高h喷水荡肉爽文| 久久人人妻人人做人人爽| 老师粉嫩小泬喷水视频90| 啦啦啦视频在线播放免费| 好男人在线社区www在线播放| 男人j桶进女人p无遮挡免费| 超碰caoporon入口| 上司的丰满人妻| 机机对机机免费30分钟| 樱花草在线播放免费高清观看 | 欧美男男gaygay巨大粗长肥| 成人区精品一区二区不卡| 国产成人精品综合在线观看| 亚洲av永久无无码精品一区二区三区| 肉色超薄丝袜脚交一区二区| 国产精品 高清 尿 小便 嘘嘘| 在线视频观看| 无套内射在线观看theporn|