男女性潮高清免费网站,久久精品国产亚洲av麻豆图片,啊灬啊别停灬用力啊岳,国产天堂亚洲国产碰碰,亚洲精品一区二区久久,久久人人爽人人爽人人片av高清 ,久久本道综合久久伊人,伊人情涩网

^{<style id="eafrf"></style>}

<style id="eafrf"><tbody id="eafrf"><noframes id="eafrf"></noframes></tbody></style>

用AI生成數(shù)據(jù)訓(xùn)練AI，最終只會(huì)“模型崩潰”

DoNews

+ 關(guān)注

2023-06-20 13:54

732次閱讀

你是如何看待這件事的？

人盡皆知：過去的科幻文學(xué)家預(yù)言了潛艇、衛(wèi)星、人工智能等后世科技里程碑。然而科幻文學(xué)家們的預(yù)言中，其實(shí)應(yīng)驗(yàn)的烏鴉嘴不比正面成就少，比如 DDOS網(wǎng)絡(luò)攻擊、個(gè)人生物信息盜竊、和人工智能模型的退化。

2023年2月，美國華裔科幻文學(xué)家特德·姜發(fā)表文章稱：ChatGPT等大語言模型，實(shí)質(zhì)是對(duì)互聯(lián)網(wǎng)語料庫的有損模糊壓縮，如同JPEG格式之于原始高清圖片。

按特德·姜的觀點(diǎn)，用大語言模型生成的文本來訓(xùn)練新的模型，如同反復(fù)以JPEG格式存儲(chǔ)同一圖像，每次都會(huì)丟失更多的信息，最終成品質(zhì)量只會(huì)越來越差。大語言模型生成的文本在網(wǎng)絡(luò)上發(fā)布得越多，信息網(wǎng)絡(luò)本身就變得越發(fā)模糊、難以獲取有效真實(shí)信息。

2023年6月中，牛津、劍橋、倫敦帝國學(xué)院、愛丁堡大學(xué)、多倫多大學(xué)等高校的AI研究者發(fā)布的論文預(yù)印本《遞歸之詛咒：用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》在業(yè)界流傳開來。論文中用實(shí)驗(yàn)結(jié)果證明了特德·姜的預(yù)言：用AI生成數(shù)據(jù)訓(xùn)練新的AI，最終會(huì)讓新的AI模型退化以至崩潰。

01.“糞口循環(huán)”9次，就能讓大語言模型崩潰

這些研究者們發(fā)現(xiàn)，在訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)AI模型時(shí)，使用大語言模型生成的內(nèi)容作為訓(xùn)練數(shù)據(jù)集，會(huì)導(dǎo)致訓(xùn)練出的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷，即使模型最初的基礎(chǔ)架構(gòu)原始數(shù)據(jù)來自真實(shí)世界的實(shí)際數(shù)據(jù)。研究者們將這一新模型的退化過程與結(jié)果稱為“模型崩潰”。

按論文所述，不管受訓(xùn)的新模型功能是以文字生成文字還是以圖片生成圖片，只要使用其他模型生成的內(nèi)容來訓(xùn)練，這個(gè)過程是不可避免的，即使模型處在近乎理想狀態(tài)的長時(shí)間學(xué)習(xí)條件亦如此。

論文一作伊利亞·蘇瑪利沃夫（Ilia Shumailov）稱，AI生成數(shù)據(jù)中的錯(cuò)誤會(huì)極快沉淀，最終導(dǎo)致從生成數(shù)據(jù)中學(xué)習(xí)的模型進(jìn)一步錯(cuò)誤地感知現(xiàn)實(shí)。

“模型崩潰”分為早期與晚期兩種。在早期時(shí)，被喂生成數(shù)據(jù)的AI模型會(huì)開始失去原初數(shù)據(jù)分布的信息；在晚期，被喂生成數(shù)據(jù)的AI模型會(huì)吐出完全不符合現(xiàn)實(shí)、不相關(guān)原初底層數(shù)據(jù)的結(jié)果。

而且與癥狀類似的“災(zāi)難性遺忘”不同，“模型崩潰”的AI一直保有對(duì)之前學(xué)習(xí)過的原初底層數(shù)據(jù)的記憶，但極其固執(zhí)，錯(cuò)誤會(huì)千篇一律且難以矯正，模型將持續(xù)甚至強(qiáng)化將錯(cuò)誤結(jié)果認(rèn)為是正確的結(jié)論。

用AI生成數(shù)據(jù)訓(xùn)練AI，最終只會(huì)“模型崩潰”

論文中“模型崩潰”過程的示意圖

研究者們先用小模型試驗(yàn)起，用相同模型生成的數(shù)據(jù)訓(xùn)練同一模型。以此方法在高斯混合模型（GMM）上實(shí)驗(yàn)，拿AI分辨人工生成的不同正態(tài)分布。結(jié)果是在如此訓(xùn)練50次后模型開始出錯(cuò)到無法分辨原初底層數(shù)據(jù)。訓(xùn)練到兩千次后，模型的錯(cuò)誤結(jié)果收斂到每次基本雷同毫無變化。

以同樣方法訓(xùn)練變分自編碼器（VAE）模型，訓(xùn)練5次后模型開始出錯(cuò)，10次后模型的錯(cuò)誤結(jié)果開始與原初底層數(shù)據(jù)無關(guān)，20次后錯(cuò)誤結(jié)果就開始收斂至基本雷同。

以上的小模型的原初數(shù)據(jù)量小，或許易于迷惑。研究者再用現(xiàn)在商用廣泛的OPT-125m文本生成模型實(shí)驗(yàn)，此模型由Meta 公司開發(fā)，參數(shù)量1.25億。研究者先用有1億詞元的“維基文本庫2”數(shù)據(jù)集喂給模型，跑出同樣詞元量的生成結(jié)果數(shù)據(jù)集。再用生成結(jié)果數(shù)據(jù)集反復(fù)訓(xùn)練OPT-125m模型。

結(jié)果是，在研究者輸入提示詞之后，起初的OPT-125m模型吐出的是帶有亂碼但大體成文的語句。被如此訓(xùn)練1次的大模型吐出的是帶有瞎編內(nèi)容的幻覺性文本，但仍然成文。被如此訓(xùn)練7次的大模型吐出的是完全與初始提示詞無關(guān)的文本，9次后大模型的生成文本就是完全不知所云的車轱轆話。

02.“模型崩潰”，是因?yàn)锳I與生俱來的的統(tǒng)計(jì)特性

“模型崩潰”的原因其實(shí)并不難懂。概言之，與特德·姜、馬斯克這些名人們嘲笑生成式AI的說辭很相近：這些大模型本質(zhì)上是高端統(tǒng)計(jì)學(xué)應(yīng)用，離“智能”的實(shí)質(zhì)還差得遠(yuǎn)。

用AI生成內(nèi)容來訓(xùn)練AI的話，無可避免就會(huì)踩進(jìn)“統(tǒng)計(jì)近似值偏差”的坑里。實(shí)質(zhì)是高端統(tǒng)計(jì)程序的神經(jīng)網(wǎng)絡(luò)模型們，天然會(huì)高估、過于重視大概率的通常值，也會(huì)低估、過于忽視小概率的非常值。

這些模型生成的結(jié)果無法規(guī)避以上缺陷，持續(xù)用來再訓(xùn)練新模型，數(shù)據(jù)的多樣性會(huì)越來越小、符合真實(shí)的正確度會(huì)越來越有限、“近似值擬合”會(huì)越來越嚴(yán)重。用研究者的話來說，用AI生成數(shù)據(jù)來訓(xùn)練新的AI，是在毒化模型對(duì)真實(shí)世界的認(rèn)知。

用AI生成數(shù)據(jù)訓(xùn)練AI，最終只會(huì)“模型崩潰”

論文中“模型崩潰”成因的示意圖

用論文作者之一羅斯·安德森（Ross Anderson）的話說，這就如同用莫扎特作品來訓(xùn)練AI，結(jié)果會(huì)得出一個(gè)風(fēng)格類似莫扎特但缺乏靈氣的“薩列尼”模型。再用“薩列尼”模型的作品訓(xùn)練新的模型，如此反復(fù)五六次后，最終模型的音樂作品既不會(huì)有莫扎特的風(fēng)格也不會(huì)有莫扎特的靈光。

除了這一主因外，“函數(shù)近似值誤差”也會(huì)為“模型崩潰”推波助瀾。任何神經(jīng)網(wǎng)絡(luò)AI在本質(zhì)都算是有限的通用函數(shù)近似器，但總會(huì)出現(xiàn)函數(shù)近似值過度表達(dá)或不充分表達(dá)帶來的結(jié)果不精確。

理論上來說，“統(tǒng)計(jì)近似值偏差”與“函數(shù)近似值誤差”并不必然會(huì)帶來惡果，有少許可能，這些偏差恰好會(huì)消除真實(shí)數(shù)據(jù)中的噪音值，讓AI模型的生成結(jié)果更符合真實(shí)數(shù)據(jù)分布。然而更大的可能是，這些誤差會(huì)放大、加乘數(shù)據(jù)噪音。

在羅斯·安德森的個(gè)人博客中，有人評(píng)論這是熱力學(xué)中的熵、生物學(xué)中的近親繁殖退化，在AI界的復(fù)現(xiàn)。

03.模型生成內(nèi)容充斥網(wǎng)絡(luò)后，真人數(shù)據(jù)將成AI維生必需

對(duì)于業(yè)界，此發(fā)現(xiàn)再次凸顯了真實(shí)人類創(chuàng)造的數(shù)據(jù)的稀缺性。羅斯·安德森戲稱，在海洋布滿不可降解塑料垃圾、空氣里充滿二氧化碳排放物后，互聯(lián)網(wǎng)以后也會(huì)被大語言模型生成的低質(zhì)量結(jié)果污染。反過來說，真實(shí)人類創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水，是日后生成式AI必須依賴的維生補(bǔ)給。

在如此背景下，不難理解為何推特與Reddit這些用戶活躍的社交媒體紛紛取消應(yīng)用程序接口扒數(shù)據(jù)的權(quán)限。這些社交媒體上的真人互動(dòng)內(nèi)容都是以后越來越值錢的不可再生資源，馬斯克們是絕不愿繼續(xù)免費(fèi)讓OpenAI們拿去用的。

用AI生成數(shù)據(jù)訓(xùn)練AI，最終只會(huì)“模型崩潰”

數(shù)據(jù)饑渴的AI公司們，現(xiàn)在兩種繼續(xù)發(fā)掘高質(zhì)量數(shù)據(jù)的辦法都在用。

一是扒完當(dāng)代互聯(lián)網(wǎng)數(shù)據(jù)后，繼續(xù)扒古舊文本與圖像數(shù)據(jù)。保存了遠(yuǎn)至兩百年前書籍掃描件的“互聯(lián)網(wǎng)檔案館”，在5月底稱網(wǎng)站之前短暫崩潰，是因?yàn)橥泄茉趤嗰R遜云服務(wù)器上的數(shù)十個(gè)虛擬接口做出了每秒數(shù)萬次的數(shù)據(jù)查詢請(qǐng)求，導(dǎo)致網(wǎng)站無法承載。

二是老實(shí)花錢買。北京時(shí)間6月17日0點(diǎn)，《金融時(shí)報(bào)》獨(dú)家報(bào)道，稱最近數(shù)月內(nèi)，谷歌、OpenAI、微軟等公司在與新聞業(yè)界的大企業(yè)，如新聞集團(tuán)(News Corp)、紐約時(shí)報(bào)和衛(wèi)報(bào)在內(nèi)的出版商接觸，尋求AI訓(xùn)練數(shù)據(jù)材料的持續(xù)來源并避免未來的版權(quán)糾紛。

雖然商洽還在早期階段，但信源透露出的信息是AI巨頭企業(yè)們?cè)敢鉃樽鳛锳I 模型訓(xùn)練數(shù)據(jù)的新聞內(nèi)容向媒體巨頭們支付定期訂閱費(fèi)用，媒體巨頭們開出的價(jià)位是年均500-2000萬美元。

本文來自微信公眾號(hào)“DoNews”（ID：ilovedonews），作者：李熙，編輯：楊博丞，36氪經(jīng)授權(quán)發(fā)布。

[免責(zé)聲明]

原文標(biāo)題：用AI生成數(shù)據(jù)訓(xùn)練AI，最終只會(huì)“模型崩潰”

本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng)；未經(jīng)許可，禁止轉(zhuǎn)載。

0

最新文章

關(guān)注 36氪企服點(diǎn)評(píng) 公眾號(hào)

打開微信掃一掃

為您推送企服點(diǎn)評(píng)最新內(nèi)容

消息通知

咨詢?nèi)腭v

商務(wù)合作

主站蜘蛛池模板： а√中文在线资源库| 欧美一进一出抽搐大尺度视频| 久久伊人精品影院一本到综合| 久久精品无码一区二区三区免费 | 毛片大全真人在线| 老板办公室乳摸gif动态图| 久久99精品国产99久久6尤物| 亚洲va中文字幕无码| 天堂网在线最新版www| 亚洲gv猛男gv无码男同| 中文字幕乱码人妻综合二区三区 | 欧美综合在线激情专区| 婷婷色婷婷开心五月| 国语对白做受xxxxx在线| 日本高清不卡aⅴ免费网站| 女人把腿张开男人来桶| 成年女人a毛片免费视频| h纯肉无遮掩3d动漫免费网站| 少妇激情一区二区三区视频 | 樱桃视频高清免费观看在线| 国产乱子伦xxxx| 天天综合天天爱天天做| 污污污污污污www网站免费| 欧妇女乱妇女乱视频| 女人乱人伦| 免费观看的av毛片的网站| h纯肉无遮掩3d动漫免费网站| 国产成人精品综合在线观看| 玩弄丰满少妇人妻视频| 中文字幕大看焦在线看| 欧美疯狂性受xxxxx另类| 五十路熟女一区二区三区| 免费特级毛片| 国产97色在线 | 免费 | 婷婷色国产精品视频一区| 激情人妻绿帽王八系列| 国产精品久久久久久2021| 亚洲熟熟妇xxxx| 国产精品无码久久综合网| 婷婷色香五月综合缴缴情香蕉| 国产av办公室丝袜秘书|

<small id="mmpou"><tbody id="mmpou"></tbody></small>

<style id="mmpou"><mark id="mmpou"><dfn id="mmpou"></dfn></mark></style>

<style id="mmpou"><tbody id="mmpou"><dfn id="mmpou"></dfn></tbody></style>