一覽科技羅江春:過去30年唯有www/http可與ChatGPT相比

2023 年開年以來,ChatGPT猶如心間振翅的蝴蝶,一刻不停地撩動(dòng)著全體科技從業(yè)者,其強(qiáng)大的產(chǎn)品力和想象力在全球范圍內(nèi)快速形成高度共識(shí)。有人將其稱為人工智能領(lǐng)域的 iPhone 時(shí)刻,有人認(rèn)為,這是 AGI(通用人工智能)發(fā)展的里程碑。
時(shí)間回到 5 年前,2018 年烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì),一覽科技創(chuàng)始人&CEO 羅江春預(yù)言,未來5年內(nèi),機(jī)器生產(chǎn)視頻內(nèi)容RGC(Robotics Generated Content)就會(huì)實(shí)現(xiàn),視頻內(nèi)容會(huì)更豐富,制作更簡(jiǎn)單,業(yè)態(tài)也會(huì)更靈活,優(yōu)秀的視頻生產(chǎn)商將會(huì)有更多機(jī)會(huì)。
回到當(dāng)下,這個(gè)預(yù)言的準(zhǔn)確性趨近于100%,羅江春口中的 RGC 與當(dāng)下熱議的 AIGC并無區(qū)別。ChatGPT 出圈,智能對(duì)話式語言模型完成技術(shù)飛躍,大幅解放內(nèi)容創(chuàng)作的效率生產(chǎn)力。除了文字以外,圖片、音樂、甚至視頻,多模態(tài)AIGC同樣熱鬧非凡。
機(jī)器生產(chǎn)視頻內(nèi)容(RGC/AIGC)的春天真的到了嗎?還有哪些關(guān)鍵挑戰(zhàn)?3D 方向有哪些關(guān)鍵進(jìn)展值得關(guān)注?
2 月 26 日下午,極客公園創(chuàng)始人&總裁張鵬和「亂翻書」主理人潘亂,就《聊聊 ChatGPT 火爆背后,大模型的底層邏輯和未來應(yīng)用》在 @Founder Park 視頻號(hào)開啟直播討論,一覽科技創(chuàng)始人&CEO 羅江春受邀參加對(duì)話,結(jié)合二十多年視頻行業(yè)經(jīng)驗(yàn),就人工智能生產(chǎn)視頻內(nèi)容(RGC/AIGC)相關(guān)話題進(jìn)行分享,并認(rèn)為“過去 30 年唯有 www/http 可與ChatGPT相比。”
以下為羅江春分享全文:
大家好,我是羅江春,很高興能和大家見面,剛才我也一直在聽各位的討論,收獲頗多。那么一覽科技實(shí)際上做的是VaaS,什么叫VaaS呢?就是video as a service。
過去這些年,中國的視頻產(chǎn)業(yè)主要是娛樂化的視頻,但其實(shí)這個(gè)產(chǎn)業(yè)結(jié)構(gòu)已經(jīng)到天花板了,視頻產(chǎn)業(yè)必然要向上探索ToB商用。一個(gè)商用視頻的時(shí)代即將開啟,未來視頻會(huì)像水和電一樣,變成一種基礎(chǔ)設(shè)施,任何一個(gè)人、任何一個(gè)企業(yè)、組織都會(huì)需要基礎(chǔ)的視頻能力。所以,從2017、2018年開始,一覽公司所有的力量都在集中做VaaS,video as a service。
做視頻離不開內(nèi)容,那么內(nèi)容創(chuàng)作的主體逐漸從PGC慢慢轉(zhuǎn)變到UGC ,隨著人工智能的發(fā)展,又衍生出了新的趨勢(shì)。在2018年烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,我預(yù)測(cè)未來5年內(nèi),機(jī)器生產(chǎn)視頻內(nèi)容RGC(Robotics Generated Content)就會(huì)實(shí)現(xiàn),到時(shí)候視頻內(nèi)容會(huì)更豐富,制作更簡(jiǎn)單,業(yè)態(tài)也會(huì)更靈活,優(yōu)秀的視頻生產(chǎn)商將會(huì)有更多機(jī)會(huì)。
當(dāng)時(shí)講的RGC,其實(shí)和現(xiàn)在的AIGC是一個(gè)意思。AIGC現(xiàn)在確實(shí)已經(jīng)到來了,所以在整個(gè)視頻的應(yīng)用上,我們是希望用人工智能技術(shù)在內(nèi)容生產(chǎn)上做更多賦能。
1997年到2000年,我在美國萊斯大學(xué)就讀人工智能AI專業(yè)。人工智能這個(gè)領(lǐng)域我一直在看,我們團(tuán)隊(duì)也一直在看。包括一覽這個(gè)公司名字,取自一覽無余,我們就是希望通過AI把視頻里面每個(gè)元素、每個(gè)元數(shù)據(jù)、每個(gè)標(biāo)簽,每個(gè)內(nèi)容都看清楚。那么其實(shí)我從GPT1.0就開始關(guān)注,2.0之后就不開源了,現(xiàn)在大家看到的ChatGPT確實(shí)是一個(gè)非常震撼的東西,對(duì)我們整個(gè)視頻內(nèi)容的生產(chǎn)有根本性的改變。當(dāng)然,我們今天不要去貿(mào)然地預(yù)測(cè),它會(huì)不會(huì)直接一步就能做到,輸入一段文字就能把視頻做出來,現(xiàn)在肯定是做不到的,還需要跟各種圖片生成視頻模型、視頻生成視頻模型、以及音頻混音的工具去結(jié)合。
先不談電影電視這種更復(fù)雜的視頻產(chǎn)品,如果我們把一個(gè)三五分鐘的短視頻解構(gòu)開,至少有這么幾類基本的元素:第一,腳本相關(guān),從故事大綱到腳本等;第二,素材,包括圖片、鏡頭等;第三,我們會(huì)把音軌單獨(dú)拎出來,音軌包含了配音,配樂,特效等聲音相關(guān)的一系列東西。當(dāng)然,最后你還需要剪輯拼接在一起。這是一個(gè)視頻制作的基本原理,那么AIGC生成視頻都要從這幾方面去下手,無論從腳本的智能化的生成,到是否有海量的、可應(yīng)用的、高質(zhì)量的素材庫,以及音頻也是一樣。最后還涉及到拼接剪輯。這些方面涉及的難點(diǎn)在AI 研究領(lǐng)域大家其實(shí)都比較明確。比如從靜態(tài)到動(dòng)態(tài)的模擬,情緒的匹配,以及3D建模。
據(jù)說OpenAI將要發(fā)布基于視頻的大模型的應(yīng)用,我們也很期待,為什么期待呢?這里有一個(gè)很核心的原因。智能手機(jī)的普及,使得能在抖音、快手、Tiktok這樣的視頻APP上做內(nèi)容的人越來越多,實(shí)際上降低了內(nèi)容生產(chǎn)的門檻。如果AIGC在 video這個(gè)領(lǐng)域能夠成為現(xiàn)實(shí),那門檻又進(jìn)一步降低。不管是用prompt還是其他提示語言,更多的人能更方便地做出更好的視頻的話,視頻產(chǎn)業(yè)未來會(huì)跟游戲一樣非常吸引人,會(huì)產(chǎn)生豐富多樣的video,而且生產(chǎn)成本極低。
當(dāng)然,就視頻應(yīng)用這個(gè)領(lǐng)域,我認(rèn)為不應(yīng)該再去做這種底層的通用大模型。不管我們國內(nèi)有幾個(gè)團(tuán)隊(duì)去做這件事,但肯定不是在垂直領(lǐng)域做,而是應(yīng)該在大模型的基礎(chǔ)上去提升我們的效能,在垂直的AIGC這個(gè)領(lǐng)域上真正地做出有效的應(yīng)用,有效的內(nèi)容。
關(guān)于創(chuàng)業(yè)公司是否要投身大模型,我一直有個(gè)觀點(diǎn),包括這幾天跟很多大基金的老大溝通的時(shí)候也在反復(fù)說,這種基礎(chǔ)能力的大模型,一般創(chuàng)業(yè)公司可能做不了。我們先不說情懷,先不說理想主義,我們先說本身的能力,就是往里面投入的資金和人才密度的要求是很高的。而且關(guān)鍵是這些做基礎(chǔ)設(shè)施的人,咱們回顧過去二十年、三十年,真正在互聯(lián)網(wǎng)上做基礎(chǔ)設(shè)施的人往往是不賺錢的,都是一群非常理想主義的人在支撐做這個(gè)事兒,真正賺到錢的人是在基礎(chǔ)設(shè)施之上做應(yīng)用的人。
那么在這波大的浪潮下,創(chuàng)業(yè)公司現(xiàn)在需要做什么?
我覺得應(yīng)該馬上調(diào)整, 在GPT這樣的大模型上面All in去創(chuàng)造應(yīng)用,創(chuàng)造內(nèi)容。順便說一句我們目前在做的事。去年一覽推出了一個(gè)給MCN機(jī)構(gòu)和視頻創(chuàng)作者做內(nèi)容創(chuàng)作賦能的工具,叫一覽運(yùn)營寶。還沒有啟動(dòng)大規(guī)模的推廣,但是已經(jīng)有上千家專業(yè)的創(chuàng)作機(jī)構(gòu)入駐使用,我們陸續(xù)在添加很多基于GPT的AIGC能力應(yīng)用,比如說用 AI幫他們寫腳本、做圖片素材等等。隨著整個(gè)工具的不斷進(jìn)化,就能把AIGC 完全賦能給創(chuàng)作者,做出更好的內(nèi)容,更好的視頻。
現(xiàn)在其實(shí)是一個(gè)新時(shí)代的開啟,有點(diǎn)類似94年、95年的時(shí)候, 是一個(gè)荒蕪的時(shí)代,同樣一片混沌。這個(gè)時(shí)候我們應(yīng)該抓緊在上面建新浪,建雅虎,建Google,建eBay等等,不管你想做客服系統(tǒng),還是想做教育,這個(gè)時(shí)候都應(yīng)該全力以赴在GPT或者其他大模型的基礎(chǔ)上做內(nèi)容、做應(yīng)用。上周我見了一堆教育的公司,都準(zhǔn)備重新再?zèng)_進(jìn)去,把以前標(biāo)注的素材重新再生成基于AI的教培。包括視頻行業(yè),像原來我們說PGC、UGC,現(xiàn)在是AIGC,這都是我說的應(yīng)用和內(nèi)容。
有很多人說ChatGPT像iPhone,像搜索引擎,我覺得都不太對(duì),搜索引擎、iPhone其實(shí)只是半個(gè)時(shí)代。對(duì)我來說,在我從業(yè)二十多年的時(shí)間里,只看見過一個(gè)東西可以跟它相比,就是真正開啟整個(gè)互聯(lián)網(wǎng)時(shí)代的http和www。
為什么可以這樣相比呢?
因?yàn)閔ttp和www改變了人們獲取信息的方式。你可以通過一臺(tái)電腦,不管通過瀏覽器Netscape還是IE,你可以得到信息,得到支持,得到商品信息可以購買等等。但是ChatGPT出來以后,跟你對(duì)話的不再是一個(gè)機(jī)器,你獲取信息的方式不再是單向的。你是在跟一個(gè)人,跟一個(gè)專家,甚至跟一個(gè)God對(duì)話。我不認(rèn)為他只是大學(xué)生的水平,剛才我也聽了大家在這個(gè)問題上的討論,我覺得這取決于你怎么和他溝通,如果溝通得對(duì),他表現(xiàn)出來的能力還是非常強(qiáng)大的。
至于GPT這樣的大模型,未來的商業(yè)以及背后的技術(shù)會(huì)如何演進(jìn)。拋開自身業(yè)務(wù),拋開內(nèi)容,拋開AIGC,拋開視頻來說。剛才我反復(fù)提到prompt engineer的這個(gè)職業(yè),這個(gè)職業(yè)就像念咒語一樣,你不斷地去調(diào)各種詞,用不同的模型,得到不同的結(jié)果,就像一個(gè)念咒師。所以,如果讓我選一個(gè)video之外的方向,我覺得辦一個(gè)prompt engineer的學(xué)?;蛘吲嘤?xùn)機(jī)構(gòu)會(huì)很有意思,真的去培養(yǎng)出來數(shù)以千萬計(jì)的prompt engineer去改變世界,會(huì)是一件很有意義的事情。
最后一個(gè)問題,對(duì)于硅基生命和碳基生命,未來的走向會(huì)是怎么樣的。 剛才評(píng)論區(qū)有人引用了馬斯克的一個(gè)觀點(diǎn),“某種程度而言,人類作為碳基生命就是一種生物引導(dǎo)程序,或者說是一段非常小的代碼,其使命是為了引出一種超級(jí)數(shù)字生物,硅基生命。”
我有一些不同的觀點(diǎn),我認(rèn)為碳基生命更聰明,當(dāng)然這個(gè)更聰明不一定是全部人,可能只是少數(shù)人,少數(shù)頂尖的工程師和科學(xué)家,他們是長在硅基生命之上的。所以硅基生命是否能超越碳基生命,要取決于真正能控制這些硅基生命的科學(xué)家和工程師,他能通過硅基生命學(xué)到什么。OpenAI 近期也發(fā)布了針對(duì)安全性、管理、規(guī)則、應(yīng)用的一系列文件,雖然單個(gè)人類可能比不上 OpenAI的GPT大模型,但實(shí)際上這個(gè)東西還是人造出來的。那么不管是我們還是那些頂尖的科學(xué)家和工程師,還是要去學(xué)習(xí)它會(huì)有什么樣的能力,那么碳基生命的能力就始終可以建立在硅基的基礎(chǔ)之上。
當(dāng)然,我第一次見到GPT的感覺其實(shí)是“This is God”,他無所不知。雖然他在一本正經(jīng)地胡說八道,但是當(dāng)時(shí)我真的覺得他無所不知。那也許我們碳基生命又生活在另外一個(gè)God的管控之下,猶未可知。這可能是一個(gè)哲學(xué)的問題,留給大家去探討思考。
[免責(zé)聲明]
原文標(biāo)題: 一覽科技羅江春:過去30年唯有www/http可與ChatGPT相比
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。




