真不是凡爾賽！ChatGPT如此成功，OpenAI也不理解

新智元

+ 關(guān)注

2023-03-09 11:28

1320次閱讀

新智元報(bào)道

編輯：Aeneas Britta

【新智元導(dǎo)讀】ChatGPT的爆火，是OpenAI完全沒有想到的是?，F(xiàn)在，對(duì)于自家模型的人氣和種種問題，他們還在慢慢適應(yīng)中……

這家公司做出了或許能引爆第四次工業(yè)革命的產(chǎn)品，但他們卻百思不得其解：為啥自家的產(chǎn)品能這么火？

就，真的不是凡爾賽。

最近，MIT Technology Review采訪了ChatGPT的幾位開發(fā)者，讓我們近距離地了解了這個(gè)大爆的AI產(chǎn)品背后的故事。

火成這樣，沒有絲毫防備

當(dāng)OpenAI在202211月下旬悄無聲息地推出ChatGPT時(shí)，這家初創(chuàng)公司并沒有報(bào)多大的期望。

OpenAI的員工也沒想過，自家模型即將走上的，是一條屬于頂流的爆紅之路。

ChatGPT仿佛在一夜間大紅大紫，還引發(fā)了關(guān)于大語言模型的一場(chǎng)全球淘金熱，而OpenAI還沒有絲毫準(zhǔn)備，只能匆忙地趕上自己頂流模型的腳步，試圖抓住商機(jī)。

在OpenAI從事政策工作的Sandhini Agarwal說，在OpenAI內(nèi)部，ChatGPT一直被視為「研究預(yù)覽」——它是一個(gè)兩年前技術(shù)的更完善的版本，更重要的是，公司試圖通過公眾的反饋，來消除模型的一些缺陷。

誰能想到，這樣一個(gè)「預(yù)覽」產(chǎn)品，陰差陽錯(cuò)出道后就爆紅了呢。

對(duì)此，OpenAI的科學(xué)家很懵逼，對(duì)于外界的鮮花和掌聲，他們也很清醒。

「我們不想把它夸大為一個(gè)巨大的基礎(chǔ)性進(jìn)步，」參與研發(fā)ChatGPT的OpenAI科學(xué)家Liam Fedus說。

真不是凡爾賽！ChatGPT如此成功，OpenAI也不理解

ChatGPT團(tuán)隊(duì)成員當(dāng)中，有5位被評(píng)為2023年度 AI 2000 全球人工智能學(xué)者

為此，MIT Technology Review的記者Will Douglas Heaven采訪了OpenAI的聯(lián)合創(chuàng)始人John Schulman、開發(fā)者Agarwal和Fedus、對(duì)齊團(tuán)隊(duì)的負(fù)責(zé)人Jan Leike。

ChatGPT為什么這么火，我們自己都不明白

創(chuàng)始人John Schulman表示，ChatGPT發(fā)布后幾天，他時(shí)不時(shí)就會(huì)刷推特。有那么一段瘋狂的時(shí)期，推特信息流中全是ChatGPT的截圖。

他想到了這是一個(gè)對(duì)用戶很直觀的產(chǎn)品，也想到它會(huì)有一些粉絲，但沒想到它會(huì)變得這么主流。

Jan Leike表示，一切都太突然了，所有人都很驚訝，努力地跟上ChatGPT爆火的節(jié)奏。他很好奇，到底是什么在推動(dòng)它的人氣飆升，難道有什么幕后推手？畢竟，OpenAI自己都搞不清為什么ChatGPT能這么火。

Liam Fedus解釋了他們?nèi)绱梭@訝的原因，因?yàn)镃hatGPT并不是第一個(gè)通用的聊天機(jī)器人，此前就已經(jīng)有很多人嘗試過了，所以Liam Fedus覺得他們的機(jī)會(huì)并不大。不過，私人測(cè)試版也給了他信心——或許，這款A(yù)是用戶們真心會(huì)喜歡的東西。

Sandhini Agarwal總結(jié)道，對(duì)所有人來說，ChatGPT一炮而紅都是個(gè)驚喜。此前，大家在這些模型上做了太多的工作了，以至于都忘記了對(duì)于公司外部的普羅大眾來說，它是這么驚人。

的確，ChatGPT內(nèi)的大部分技術(shù)并不新鮮。它是GPT-3.5的一個(gè)微調(diào)版本，而在ChatGPT幾個(gè)月前，OpenAI就發(fā)布了GPT-3.5。而GPT-3.5本身就是GPT-3的更新版本，GPT-3出現(xiàn)于2020年。

真不是凡爾賽！ChatGPT如此成功，OpenAI也不理解

ChatGPT團(tuán)隊(duì)參與此前七大技術(shù)研發(fā)人數(shù)

在網(wǎng)站上，OpenAI以應(yīng)用編程接口或API的形式提供了這些模型，其他開發(fā)者可以很輕易地將模型插入自己的代碼中。

在2022年1月，OpenAI還發(fā)布了GPT-3.5的前一個(gè)微調(diào)版本InstructGPT。只不過，這些技術(shù)沒有向公眾推介罷了。

微調(diào)過程

根據(jù)Liam Fedus的介紹，ChatGPT模型是由與InstructGPT相同的語言模型微調(diào)而來的，使用的微調(diào)方法類似。研究人員增加了一些對(duì)話數(shù)據(jù)，并對(duì)訓(xùn)練過程進(jìn)行了一些調(diào)整。所以他們不想把它夸大為一個(gè)巨大的基礎(chǔ)性進(jìn)步。

事實(shí)證明，對(duì)ChatGPT起了大作用的，是對(duì)話數(shù)據(jù)。

根據(jù)標(biāo)準(zhǔn)基準(zhǔn)的評(píng)估，實(shí)際上兩個(gè)模型之間的原始技術(shù)能力并沒有很大差別，ChatGPT最大的不同是，更容易獲得和使用。

Jan Leike解釋說，在某種意義上，可以把ChatGPT理解為OpenAI已有一段時(shí)間的AI系統(tǒng)的一個(gè)版本。ChatGPT的能力并沒有更強(qiáng)。在ChatGPT問世之前，同樣的基本模型已經(jīng)在API上使用了將近一年時(shí)間。

而研究者們的改進(jìn)可以概括為，在某種意義上，讓它更符合人類想用它做什么。它會(huì)在對(duì)話中和用戶交談，是一個(gè)聊天界面，很容易訪問。它更容易推斷出意圖，而用戶可以通過來回試探，來達(dá)到自己想要的目的。

秘訣就是，人類反饋強(qiáng)化學(xué)習(xí)（RLHF）技術(shù)，這和InstructGPT的訓(xùn)練方式很像——教會(huì)它人類用戶實(shí)際喜歡的樣子。

Jan Leike介紹說，他們讓一大群人閱讀了ChatGPT的提示和回應(yīng)，然后對(duì)回應(yīng)進(jìn)行二選一的選擇，看看大家認(rèn)為哪個(gè)回應(yīng)更好。然后，所有這些數(shù)據(jù)都被合并到一次訓(xùn)練中。

它的大部分內(nèi)容與他們?cè)贗nstructGPT上所做的是一樣的。比如你希望它有幫助的，希望它是真實(shí)的，希望它不會(huì)惡毒。

另外還有一些細(xì)節(jié)，比如如果用戶的詢問不清楚，它應(yīng)該問后續(xù)的問題去細(xì)化。它還應(yīng)該澄清，自己是一個(gè)人工智能系統(tǒng)，不應(yīng)該承擔(dān)它沒有的身份，不應(yīng)該聲稱擁有它不具備的能力。當(dāng)用戶要求它做它不該做的任務(wù)時(shí)，它必須明確拒絕。

也就是有一個(gè)清單，列出了人類評(píng)分員必須對(duì)模型進(jìn)行排名的各種標(biāo)準(zhǔn)，比如真實(shí)性。但他們也會(huì)偏愛某些做法，比如AI不要假裝自己是人。

準(zhǔn)備發(fā)布

總的來說，ChatGPT用的都是OpenAI已經(jīng)使用過的技術(shù)，所以團(tuán)隊(duì)在準(zhǔn)備向公眾發(fā)布這個(gè)模型時(shí)，沒有做任何特別的事情。在他們看來，為以前的模型設(shè)定的標(biāo)準(zhǔn)已經(jīng)足夠了，GPT-3.5已經(jīng)足夠安全。

而在ChatGPT對(duì)人類偏好的訓(xùn)練中，它自學(xué)了拒絕行為，拒絕了很多請(qǐng)求。

OpenAI為ChatGPT組建了一些「唱紅臉的」人：公司里的每個(gè)人都坐下來，試圖打破這個(gè)模型。也有外部團(tuán)體做同樣的事情。值得信賴的早期用戶也會(huì)提供反饋。

Sandhini Agarwal介紹道，他們確實(shí)發(fā)現(xiàn)了它會(huì)產(chǎn)生某些不需要的輸出，但這些都是GPT-3.5也產(chǎn)生的東西。因此，只看風(fēng)險(xiǎn)的話，作為一個(gè)「研究預(yù)覽」，ChatGPT已經(jīng)夠好了。

John Schulman也表示，不可能等到一個(gè)系統(tǒng)100%完美了，才去發(fā)布它。幾個(gè)月來，他們對(duì)早期版本進(jìn)行了beta測(cè)試，beta測(cè)試人員對(duì)ChatGPT的印象很好。

OpenAI最擔(dān)心的，其實(shí)是事實(shí)性的問題，因?yàn)镃hatGPT太喜歡捏造東西了。但是這些問題在InstructGPT和其他大型語言模型中都存在，所以在研究者們看來，只要ChatGPT在事實(shí)性和其他安全問題上比那些模型更好，就已經(jīng)足夠了。

而根據(jù)有限的評(píng)估，在發(fā)布之前，可以確認(rèn)ChatGPT比其他模型更真實(shí)，更安全，因此，OpenAI決定繼續(xù)發(fā)布。

發(fā)布后的反饋

ChatGPT發(fā)布后，OpenAI一直在觀察用戶是如何使用它的。

一個(gè)大型語言模型被放在數(shù)以千萬計(jì)的用戶手中，這種事還是史上第一次。

用戶們也玩瘋了，想測(cè)試ChatGPT的極限在哪里，bug在哪里。

當(dāng)然，問題很多，比如ChatGPT給黑客們大開方便之門，幫忙竊取信用卡號(hào)的惡意軟件代碼，OpenAI也在針對(duì)這些問題不斷改進(jìn)。

ChaatGPT的走紅，也讓許多問題涌現(xiàn)出來，比如偏見問題，比如黑客通過prompt誘導(dǎo)的問題。

Jan Leike表示，某些在推特上瘋傳的東西，其實(shí)OpenAI已經(jīng)有人悄悄出手了。

比如越獄問題，絕對(duì)是他們需要解決的。用戶就是喜歡嘗試通過一些彎彎繞繞讓模型說不好的話，這在OpenAI的意料之內(nèi)，也是一條必經(jīng)之路。

當(dāng)發(fā)現(xiàn)越獄時(shí)，OpenAI會(huì)把這些情況添加到訓(xùn)練和測(cè)試數(shù)據(jù)中，所有數(shù)據(jù)都會(huì)被納入未來的模型。

Jan Leike表示，每當(dāng)有一個(gè)更好的模型，他們都會(huì)想把它拿出來測(cè)試。

他們非常樂觀地認(rèn)為，一些有針對(duì)性的對(duì)抗性訓(xùn)練，可以使越獄的情況得到很大的改善。雖然目前還不清楚這些問題是否會(huì)完全消失，但他們認(rèn)為，自己可以使很多越獄行為變得困難。

當(dāng)一個(gè)系統(tǒng)「正式出道」時(shí)，很難預(yù)見到所有實(shí)際會(huì)發(fā)生的事情。

因此，他們只能把重點(diǎn)放在監(jiān)測(cè)人們使用該系統(tǒng)的目的上，看看會(huì)發(fā)生什么，然后對(duì)此作出反應(yīng)。

如今，微軟已經(jīng)推出了必應(yīng)Chat，很多人認(rèn)為它是OpenAI官方未宣布的GPT-4的一個(gè)版本。

在這個(gè)前提下，Sandhini Agarwal表示，現(xiàn)在他們面臨的賭注，肯定比六個(gè)月前高得多，但仍然低于一年后的水平。

這些模型是在什么背景下被使用的，有極其重要的意義。

對(duì)于谷歌和微軟這樣的大公司，即使有一件事不符合事實(shí)，也會(huì)成為巨大的問題，因?yàn)樗麄儽旧砭褪撬阉饕妗?/span>

真不是凡爾賽！ChatGPT如此成功，OpenAI也不理解

谷歌的第23位員工、創(chuàng)建了Gmail的Paul Buchheit，對(duì)谷歌持悲觀態(tài)度

作為搜索引擎的大語言模型，和一個(gè)只為了好玩的聊天機(jī)器人是完全不同的。OpenAI的研究者們也在努力弄清楚，如何在不同用途之間游走，創(chuàng)造出真正對(duì)用戶有用的東西。

John Schulman承認(rèn)，OpenAI低估了人們對(duì)于ChatGPT政治問題的關(guān)心程度。為此，在收集訓(xùn)練數(shù)據(jù)時(shí)，他們希望做出一些更好的決定，來減少這方面的問題。

Jan Leike表示，從自己的角度來看，ChatGPT經(jīng)常出現(xiàn)失敗。有太多問題需要解決了，但OpenAI并沒有解決。這一點(diǎn)，他坦誠(chéng)地承認(rèn)。

盡管語言模型已經(jīng)存在了一段時(shí)間，但仍然處于早期。

接下來，OpenAI需要做的事情，就更多了。

參考資料：

https://futurism.com/the-byte/openai-confused-people-impressed-chatgpt

https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/

本文來自微信公眾號(hào)“新智元”（ID:AI_era），作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

新智元

Copy.ai

3.7

40條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

體驗(yàn)AI內(nèi)容生成器的全部功能，可以在幾秒鐘內(nèi)提供優(yōu)質(zhì)結(jié)果。

樹熊文思捕手

2.0

6條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

文思捕手是全球同步采用驅(qū)動(dòng)ChatGPT的OpenAI原生API的商用AI人工智能創(chuàng)作平臺(tái)。

客戶案例

暫無

合作品牌

DOCQ

3條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

一家文檔辦公服務(wù)提供商，為用戶提供多樣的云端存儲(chǔ)與辦公條件

火龍果寫作

1條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

AI驅(qū)動(dòng)的文字生產(chǎn)力工具

快文CopyDone

0條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

AIGC原創(chuàng)內(nèi)容創(chuàng)作和營(yíng)銷文案生成

相關(guān)產(chǎn)品

查看更多同類產(chǎn)品

真不是凡爾賽！ChatGPT如此成功，OpenAI也不理解

【新智元導(dǎo)讀】ChatGPT的爆火，是OpenAI完全沒有想到的是?，F(xiàn)在，對(duì)于自家模型的人氣和種種問題，他們還在慢慢適應(yīng)中……

ChatGPT為什么這么火，我們自己都不明白

微調(diào)過程

項(xiàng)目管理SaaS為什么很難一家獨(dú)大？答案藏在中小企業(yè)的痛點(diǎn)里

2021年玩私域：不懂這些你就OUT了！

企業(yè)為什么要買SaaS？| 專家視角

SCRM如何幫助李佳琦們布局私域流量？

“救命文檔”打破信息孤島，讓受災(zāi)群眾不再成為“孤島”

真不是凡爾賽！ChatGPT如此成功，OpenAI也不理解

【新智元導(dǎo)讀】ChatGPT的爆火，是OpenAI完全沒有想到的是?，F(xiàn)在，對(duì)于自家模型的人氣和種種問題，他們還在慢慢適應(yīng)中……

ChatGPT為什么這么火，我們自己都不明白

項(xiàng)目管理SaaS為什么很難一家獨(dú)大？答案藏在中小企業(yè)的痛點(diǎn)里

2021年玩私域：不懂這些你就OUT了！

“救命文檔”打破信息孤島，讓受災(zāi)群眾不再成為“孤島”