開源,會(huì)是對(duì)手打敗 ChatGPT 的絕招嗎?
周二,Meta 發(fā)布了最新一代的開源大語(yǔ)言模型 Llama 2。
與 Meta 在 2 月發(fā)布的第一代大模型 Llama 1 相比,Llama 2 在許多方面得到提升,比如訓(xùn)練數(shù)據(jù)比 Llama 1 多了 40%、訓(xùn)練所用的 token 翻了一倍,增加至 2 萬(wàn)億、上下文長(zhǎng)度限制也翻了一倍……總而言之,就是 Llama 變得更強(qiáng)了。
不過(guò),使整個(gè)行業(yè)震驚的不是 Llama 2 的強(qiáng)大——當(dāng)然,它足夠強(qiáng)——而是 Meta 宣布 Llama 2 對(duì)研究和商用都是免費(fèi)。
這也意味著眾多研究機(jī)構(gòu)和商業(yè)公司可免費(fèi)使用開源的 Llama 2,無(wú)需自己耗費(fèi)巨大的成本來(lái)開發(fā)一個(gè)大模型,降低了企業(yè)的研發(fā)成本,有利于 Meta 爭(zhēng)取更多的合作伙伴。
目前與 Llama 2 合作的就包括了微軟、亞馬遜、IBM、高通、Spotify 等知名企業(yè)。
關(guān)于 Llama 2 的介紹網(wǎng)上已經(jīng)足夠多了,這里不再贅述,而本文,老狐想來(lái)介紹一下“開源”,這個(gè)在當(dāng)今互聯(lián)網(wǎng)十分常見,但大家對(duì)它卻比較陌生的概念。
所謂“開源”,即開放源代碼,也稱源代碼公開,是軟件的一種散布形式,而開源軟件即公開源代碼的軟件。
一般的軟件他人僅可取得已經(jīng)編譯過(guò)的二進(jìn)制可執(zhí)行檔,只有軟件的作者或著作權(quán)所有者等擁有程序的源代碼,這類軟件稱為閉源軟件。
開源軟件不僅僅是源代碼公開,更重要的是其他人可以在開源協(xié)議的規(guī)定內(nèi)對(duì)軟件進(jìn)行學(xué)習(xí),修改以及出于任何目的的再分發(fā)。
開放源代碼的定義最先由 Bruce Perens 提出,經(jīng)由 Eric S.Raymond 發(fā)展,主要有以下十條:
雖然現(xiàn)在人們用到的軟件,閉源居多,但最早期的軟件開發(fā),軟件都是開源的,因?yàn)樵缙谟布l(fā)達(dá),而軟件只是附屬品。
例如在 1970 年之前,IBM 出售的大規(guī)模計(jì)算機(jī),采用的部分軟件,軟件公司會(huì)提供源代碼,讓懂程序的維護(hù)人員知道軟件是如何運(yùn)作的,方便修正或添加想要的功能。
*IBM S/360 計(jì)算機(jī),于 1964 年推出
后來(lái)隨著軟件行業(yè)的發(fā)展,軟件公司意識(shí)到其中的商業(yè)利益,開始進(jìn)入封閉式的開發(fā)模式,不再提供軟件的源代碼,人們稱其為“教堂式”。
所謂教堂式,就是將軟件開發(fā)比作建造一座教堂,應(yīng)該由高手或?qū)<襾?lái)設(shè)計(jì)并建造,等到版本成熟時(shí)才開放提供給用戶,并利用知識(shí)產(chǎn)權(quán)制度將開放的軟件私有財(cái)產(chǎn)化,將其閉源,不被他人模仿,以滿足企業(yè)的商業(yè)利益。
我們熟悉的 Windows 系統(tǒng)便是閉源軟件開發(fā)模式的代表。
*Windows3.0
但閉源軟件開發(fā)模式帶來(lái)了一系列問(wèn)題,比如軟件費(fèi)用高、安全漏洞多、新舊版支持問(wèn)題、不符合個(gè)人需求等等,一部分軟件開發(fā)者對(duì)其不滿意,于是興起了“開放源代碼運(yùn)動(dòng)”。
開放源代碼運(yùn)動(dòng)的支持者認(rèn)為不阻礙合作、可共享的研究風(fēng)氣才是軟件開發(fā)應(yīng)有的路徑,反對(duì)把軟件建立在知識(shí)產(chǎn)權(quán)與許可證的基礎(chǔ)之上,認(rèn)為這樣限制了他人利用源代碼修改、調(diào)整軟件以適應(yīng)自身的需要,阻礙了軟件的進(jìn)一步完善和發(fā)展,導(dǎo)致軟件安全性下降、創(chuàng)新減少、不兼容等問(wèn)題。
隨著開放源代碼運(yùn)動(dòng)的進(jìn)行,產(chǎn)生了許多實(shí)際性成果。
Richard M.Stallman 于 1985 年創(chuàng)立了自由軟件基金會(huì),并開啟了 GUN 項(xiàng)目,后者是一個(gè)自由的操作系統(tǒng),其內(nèi)容軟件完全以 GPL 的方式發(fā)布。
*Richard M.Stallman
加州伯克利大學(xué)的計(jì)算機(jī)研究團(tuán)隊(duì)發(fā)展并改進(jìn)了 AT&T 的 Unix 系統(tǒng),建立許多應(yīng)用程序,并迅速成為“BSD Unix”,后來(lái)“BSD Unix”被蘋果的 macOS 采用。
1991 年,Linux 內(nèi)核被芬蘭一名大二學(xué)生編寫出來(lái)。
1999 年,Eric S.Raymond 出版了著作《大教堂與市集》,該書講述了黑客文化史、Linux的開發(fā)過(guò)程、以及作者本人主持開發(fā)的開放源代碼軟件 Fetchmail 的經(jīng)歷,并討論了軟件開發(fā)的方法論。
*Eric S.Raymond
與“教堂式”對(duì)應(yīng)的,開源軟件開發(fā)模式被稱為“市集式”,就是通過(guò)不同的軟件開發(fā)愛(ài)好者,組成一個(gè)不同流程和不同方式的市集,共同開發(fā)軟件。
市集式的代表便是 Linux,最初由芬蘭大二學(xué)生 Linus Torvalds 于 1991 年首次發(fā)布 Linux 的內(nèi)核,后來(lái)無(wú)數(shù)人加入合作使其可用性增強(qiáng)。現(xiàn)如今,采用 Linux 內(nèi)核的系統(tǒng)已經(jīng)運(yùn)行在很多的設(shè)備上,比如大型計(jì)算機(jī)和超級(jí)計(jì)算機(jī)、服務(wù)器、手機(jī)(安卓)、路由器、電視等等。
*Linux 創(chuàng)始人 Linus Torvalds
在前面提到了,開放源代碼運(yùn)動(dòng)旨在追求不阻礙合作、可共享的軟件開發(fā)路徑,并認(rèn)為開放源代碼更有利于提高軟件的安全性、創(chuàng)新性和兼容性,這是開放源代碼最直接的意義。
*Github 上的開源項(xiàng)目
將軟件源代碼公之于眾,使得所有開發(fā)者都成為軟件的潛在開發(fā)者,其中不乏許多優(yōu)秀的網(wǎng)絡(luò)人才,共同開發(fā)軟件,能夠讓軟件存在的漏洞很快被發(fā)現(xiàn)并彌補(bǔ),同時(shí),每個(gè)人的想法也能在軟件上實(shí)現(xiàn),促進(jìn)了軟件的發(fā)展和迭代,有利于軟件的發(fā)展。
以上是軟件開源在軟件層面的意義,而像 Meta 將 Llama 2 開源,更多的是商業(yè)層面的考量,因?yàn)檎驹?Meta Llama 前面的是 ChatGPT 這個(gè)巨頭。
Meta 將 Llama 2 開源,能爭(zhēng)取更多的開發(fā)者支持,包括那些知名的合作企業(yè),從而促進(jìn) Llama 的發(fā)展,提高市場(chǎng)占有率。過(guò)往不乏類似的案例。
Windows 從 3.0 開始取得了廣泛的成功,占據(jù)了個(gè)人電腦操作系統(tǒng)的大部分市場(chǎng),對(duì)微軟不滿的科技行業(yè)從業(yè)者,在 Linux 的基礎(chǔ)上開發(fā),將后者變成了網(wǎng)站和互聯(lián)網(wǎng)應(yīng)用的運(yùn)行系統(tǒng)。
2007 年 1 月,蘋果發(fā)布了初代 iPhone,并展示了強(qiáng)大的 iOS 系統(tǒng)。該年11月,谷歌向外界公布了安卓系統(tǒng),與 84 家軟、硬件企業(yè)以及電信運(yùn)營(yíng)商組成“開放手持設(shè)備聯(lián)盟”,并以免費(fèi)開源的方式,發(fā)布了 安卓的源代碼,以此來(lái)與 iOS 競(jìng)爭(zhēng)。
從互聯(lián)網(wǎng)發(fā)展史來(lái)看,行業(yè)領(lǐng)先的巨頭往往會(huì)選擇閉源式開發(fā),以保證技術(shù)領(lǐng)先,賺取更多的商業(yè)利益,而后來(lái)者選擇開源,爭(zhēng)取更多的市場(chǎng)和合作伙伴,以此抗衡行業(yè)領(lǐng)先者。
因此,“開源”成為部分企業(yè)以小博大的戰(zhàn)略選擇。
例如谷歌雖然不直接通過(guò)安卓系統(tǒng)授權(quán)獲利,但卻可以賺取 GMS 的授權(quán)服務(wù)費(fèi),而 Llama 如果取得成功,Meta 未來(lái)也能通過(guò)其他方式取得收益。
不過(guò),現(xiàn)在站在 Meta 的 Llama 2 前面的巨頭不只是 OpenAI 的 ChatGPT,還有 Google 的大語(yǔ)言模型 Bard——是的,將安卓開源的谷歌,在大語(yǔ)言模型開發(fā)上選擇將 Bard 閉源。
對(duì)企業(yè)來(lái)說(shuō),開發(fā)軟件選擇開源還是閉源不是基于主義,商業(yè)利益才是最主要的考量因素。
不過(guò)值得一提的是,Meta 的 AI 首席科學(xué)家楊立昆是一名開源主義者,當(dāng)初扎克伯格邀請(qǐng)他出任臉書的 AI 實(shí)驗(yàn)室主任一職時(shí),他曾要求研究成果必須開源。
*楊立昆Yann LeCun
在前面,老狐介紹的都是開源的優(yōu)點(diǎn),事實(shí)上,開源的缺點(diǎn)某種程度上也是其優(yōu)點(diǎn)帶來(lái)的,體現(xiàn)了一個(gè)事物的兩面性。
首先是開源項(xiàng)目參與人數(shù)眾多,且自發(fā)進(jìn)行,這必然造成管理困難,需要項(xiàng)目領(lǐng)導(dǎo)者付出更多精力去整合項(xiàng)目,做好決策。
例如 80 年代與比爾·蓋茨齊名的技術(shù)天才米切爾·卡普爾曾出資幾百萬(wàn)美元啟動(dòng)一個(gè)名為 Chandler 的開源項(xiàng)目,旨在開發(fā)一個(gè)個(gè)人信息管理軟件,但因?yàn)轫?xiàng)目管理混亂,開發(fā)人員更迭,項(xiàng)目最后失敗。
*米切爾·卡普爾
其次,開源項(xiàng)目迭代頻繁,不斷有新版本被開發(fā)出來(lái),這需要軟件用戶不斷安裝新版本,這給用戶帶來(lái)了更高的使用成本。
最后則是開源軟件未來(lái)的不確定性,因?yàn)槠涑蓡T來(lái)自不同的人,軟件的質(zhì)量和未來(lái)發(fā)展都沒(méi)法得到保證,一款軟件用戶正用著可能就沒(méi)下文了。
以上開源的三個(gè)缺點(diǎn)恰好是閉源的商業(yè)軟件的優(yōu)勢(shì),以 Windows 為例,微軟有專業(yè)團(tuán)隊(duì)負(fù)責(zé)開發(fā),后期有穩(wěn)定的更新和維護(hù),能給用戶減少許多的麻煩。
讀到這里,我想大家對(duì)“開源”已經(jīng)有了大概的了解。
近些年,伴隨著互聯(lián)網(wǎng)的快速發(fā)展,尤其是大數(shù)據(jù)、物聯(lián)網(wǎng)、AI 等技術(shù)的火熱,開源軟件的開發(fā)者逐漸增多,相關(guān)的開源項(xiàng)目也越來(lái)越多,促進(jìn)了開源軟件行業(yè)的發(fā)展。
一向封閉的微軟,也在納德拉上任后開始擁抱開源。2014 年,微軟在開源社區(qū) Github 上開設(shè)了賬戶,并成為社區(qū)的最大貢獻(xiàn)者;2018 年,微軟花費(fèi) 75 億美元收購(gòu)了 Github,后者當(dāng)時(shí)已是全球最大的開源社區(qū)和代碼托管平臺(tái);如今,微軟也將與 Meta 的 Llama 展開合作。
*納德拉和扎克伯格
開源社區(qū) Hugging Face 伴隨著 AI 的興起,成為了開源社區(qū)的頂流,如今 Hugging Face 上有超過(guò) 25 萬(wàn)個(gè)模型,包括 Meta 的 Llama 2、國(guó)內(nèi)王小川創(chuàng)立的百川智能的大語(yǔ)言模型“百川”。
*Hugging Face上的大模型
現(xiàn)在回到文章開頭的話題上來(lái),小伙伴們認(rèn)為 Llama 能通過(guò)開源的方式,擊敗閉源的 ChatGPT 和 Bard 么?
雖然結(jié)果老狐也無(wú)法預(yù)測(cè),但非常樂(lè)意見到這樣的競(jìng)爭(zhēng),這是一場(chǎng)技術(shù)落后者借助群眾力量與技術(shù)領(lǐng)先者的競(jìng)爭(zhēng),也是開源的理想主義者與閉源的現(xiàn)實(shí)主義者的競(jìng)爭(zhēng),結(jié)果會(huì)怎樣呢?
答案在時(shí)間里。
參考資料
財(cái)聯(lián)社:Meta 發(fā)布 Llama 2 模型 與微軟、高通展開合作
晚點(diǎn) LastPost:Llama 2 發(fā)布,一夜之間,大模型競(jìng)爭(zhēng)來(lái)到新起點(diǎn)
維基百科:“開放源代碼”
石娟:開放源代碼及相關(guān)知識(shí)產(chǎn)權(quán)法理芻論[D].重慶:西南政法大學(xué),2007.
遠(yuǎn)川研究所:差一步稱霸AI:歷史進(jìn)程中的扎克伯格
Web3 天空之城:楊立昆最新訪談:AI 威脅論是蒙昧主義,控制欲只有人才有
維基百科:《Dreaming in code》
虎嗅:Github 50 億美元把自己賣了,為什么是微軟呢?
極客公園: 為了中國(guó)市場(chǎng),Hugging Face 甚至玩上了小紅書
本文來(lái)自微信公眾號(hào)“科技狐”(ID:kejihutv),作者:老狐,36氪經(jīng)授權(quán)發(fā)布。
[免責(zé)聲明]
原文標(biāo)題: 開源,會(huì)是對(duì)手打敗 ChatGPT 的絕招嗎?
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。
