人工智能技術趨勢的六大影響:從大數據到大模型,從UGC到AIGC
曹建峰 騰訊研究院高級研究員
胡 璇 騰訊研究院高級研究員
人工智能將給互聯網和數字經濟的創新發展提供強大動力,諸如支撐空間計算、給創作者提供強大助手、提供新的、復雜的敘事方式等等。在內容生產層面,生成性AI、數字虛擬人等人工智能和機器學習模型將帶來一場零邊際成本的內容生產變革,可以自主生成文本、圖像、音頻、視頻、虛擬場景等各類數字內容,這將帶來人工智能生成內容(AIGC)的蓬勃發展,打造新的數字內容生成與交互形態。人工智能和AIGC帶來的內容生產變革也將讓VR/AR、元宇宙等未來互聯網應用成為可期待的現實:元宇宙中的虛擬世界需要能夠以零邊際成本創造的、滿足海量用戶的個性化需求的虛擬內容。[1]
AI領域的兩個發展方向與互聯網和數字經濟發展應用趨勢密切相關。
首先是生成性AI(Generative AI),該技術被認為是AI領域過去10年最有前景的進展,代表著人工智能的未來發展方向。[2]Gartner將生成性AI列為2022年5大影響力技術之一,并預測到2025年生成性AI所創造的數據將占到所有已生產數據的10%,而如今只占到不足1%。[3]
簡單來說,生成性AI是指,AI和機器學習算法基于訓練數據,自主生成新的文本、圖像、音頻、視頻等內容。換句話說,生成性AI可以學習并抽象出輸入數據的內在模式,并利用這些模式生成新的類似內容。從技術上看,生成性AI包括多種AI技術:1)GAN(生成對抗網絡)、VAE(變分自動編碼器)等深度合成模型;2)Transformer模型,此類大模型或者說基礎模型(foundation models)被訓練來理解語言或圖片,比較典型的大模型包括GPT-3、DALL·E-2、LaMDA、悟道2.0等。此類預訓練的大模型往往包括數以億計的參數,比如谷歌最新的PaLM模型包含5400億個參數,谷歌大腦則聲稱訓練出了萬億參數的模型。生成性AI正在往多模型、多任務的通用性智能體的方向發展。
就目前而言,生成性AI幾乎不需要人類參與就可以生成高質量的創造性內容,實現圖片風格轉化、文本轉圖像、圖片轉表情包、圖片或影片修復、合成逼真人類語音、生成人臉或其他視覺對象、創建3D虛擬環境等結果。人類只需設置好場景,生成性AI就會自主輸出想要的結果,這不僅將帶來零邊際成本的內容生產變革,而且在某種程度上也可以避免來自人類思想和經驗的偏見。
其次是數字虛擬人。數字虛擬人是通過計算機3D圖像軟件制作的數字化人形角色。虛擬人與過往影視特效中“阿凡達”等虛擬角色相比,結合AI合成、實時動作捕捉等技術,可以更加智能、實時地與我們進行語言、表情、動作的互動交流。虛擬人正逐步成為一門融合計算機圖形學、AI和VR、運動學、多功能感知等多學科的前沿交叉領域,并從線上文娛向更多線下功能性場景遷移。
虛擬人的形態豐富多樣:按美術類型,可分為影視級高保真、寫實、卡通等不同風格;按需要輸入的信息分類,包括預先制作動畫、實時“復制”演員表演、文字/語音驅動等;按應用場景,包括虛擬主播、虛擬偶像、虛擬主持人、虛擬客服等。
虛擬人進化的趨勢,一是融入會話式AI系統(Conversational AI),給傳統的Siri等虛擬助手、智能客服等聊天機器人以一個具象化、有親和力的人類形象,提升交流中情感的連接,有望給這一領域帶來更大的市場前景。據機構統計,2021年會話式AI的全球市場規模為68億美元,預計到2026年將增長到184億美元。
隨著線上空間日益豐富,更多普通用戶也希望擁有自己的個性化虛擬形象,因此,虛擬人進化的第二個方向是制作工具更豐富、更易用。例如Epic在虛幻引擎中集成的虛擬人工具Metahuman,用戶可以在系統提供的基礎形象模板上修改參數,僅用30分鐘就能“捏”成獨一無二的形象。可調節內容既包括整體的膚色、身材,也包括細節的面龐輪廓、五官大小等。
第一,帶來更包容性的用戶交互方式,幫助彌合數字鴻溝。
消除數字鴻溝,打造更具包容性的數字社會,是數字技術的應有之義。AI技術將助力互聯網應用的包容性、普惠性發展,確保每個人都可以進入互聯網應用并獲得更自然的交互體驗。一個典型的例子是即時翻譯,機器翻譯、語音識別與合成、對話式AI系統的結合,可以讓講不同語言的用戶彼此之間進行更自然的交流。例如,Meta公司(原Facebook)為其元宇宙平臺開發的“通用語言翻譯器”(Universal Speech Translator,UST),該AI系統將能夠針對所有的語言提供即時的語音到語音翻譯。[4]AI系統驅動的即時翻譯將成為互聯網應用的標配。此外,動作識別、眼神追蹤、腦機接口等技術應用也將給VR/AR、元宇宙等未來互聯網應用帶來更優化的交互方式。[5]
第二,帶來零邊際成本的內容生產變革,規模化創造虛擬環境、AI藝術等AI生成內容(AIGC)。
VR/AR、元宇宙等未來互聯網應用正在演變成一個富媒體平臺,用戶在其中可以獲得、體驗豐富多樣的、沉浸式的內容。為了在元宇宙中創造能夠滿足海量用戶的不同需求的內容,除了依靠不可或缺的人類創作者,人工智能作為虛擬創作者將扮演越來越重要的角色,將在為元宇宙創造數字空間、數字物品等上面發揮關鍵作用。可以說,AIGC(AI生成內容)對于VR/AR、元宇宙等未來互聯網應用的意義,正如UGC(用戶生產內容)對于現在的互聯網應用的意義。生成性AI現在已經能夠生成人臉、物品、場景等各類逼真內容。例如,Meta公司的元宇宙AI應用BuilderBot能夠根據用戶的語音指令自動生成相應的場景。基于GAN的AI生成藝術已經跟區塊鏈NFT結合起來,帶來新的數字藝術潮流。生成性AI不僅可以生成創造性的文字內容,而且可以從文字描述或者簡單的勾勒中生成逼真的圖像,例如OpenAI的AI模型DALL·E-2[6]、英偉達的深度學習模型GauGAN2[7],都可以將簡單的文字描述或語句轉化為逼真的、高清的圖像,而且目前已經可以達到4k以上分辨率。這些進展意味著,通過融合人工智能與AR/VR,元宇宙將創造出大規模的、逼真的虛擬世界。總之,對于元宇宙而言,生成性AI的變革性意義在于其將帶來零邊際成本的內容生產,這是一場內容生產革命,只有通過AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。
第三,帶來更加智能化的虛擬化身(avatar)。
在未來的3D化的互聯網應用中,用戶通過一個虛擬化身在其中體驗各種內容與服務,用戶的虛擬形象(avatar)的準確性將決定用戶之間體驗的質量。AI引擎可以分析用戶的2D圖片或3D掃描,然后形成高度逼真的仿真渲染,同時結合臉部表情、情緒、發型、年齡特征等因素讓用戶的虛擬形象更具活力。目前,Meta、英偉達等眾多科技公司已經在利用AI技術幫助用戶在虛擬世界打造虛擬化身,例如英偉達的omniverse avatar可以生成、模擬、渲染可互動的虛擬形象。[8]當然,生成性AI創造的虛擬化身,以及合成的人類語音,在很多情況下也可以給用戶的身份和隱私提供一層安全保障。
第四,驅動數字人等下一代AI角色,打造更具沉浸感的元宇宙使用體驗。
對話式AI系統、先進的實時圖形處理等技術的結合,將使得數字人、虛擬助手、虛擬伴侶、NPC等數字智能體(digital agent)能夠逼真地模仿人類的音容笑貌,變得更加智能化、人性化。例如,Epic的MetaHuman工具可以把創造數字人的時間從數月減少到數分鐘,并且可以給數字人注入活力,實現逼真的運動、行動、語言表達等。這將帶來更復雜的、自然交互的AI虛擬角色,除了模仿人類的語言表達,還具有表情、肢體語言、情緒甚至物理交互等能力,給用戶在元宇宙中提供更直觀的、更具沉浸感的數字化體驗。可以說,數字人等新型AI角色將決定VR/AR、元宇宙等未來互聯網應用的體驗質量和吸引力。[9]國內的一個典型案例是冬奧手語人。虛擬人在實時手語翻譯領域初試啼聲,大有可為。根據抽樣調查,我國有聽障人士2780萬人。實時手語翻譯是聽障人士理解語音、視頻信息的重要橋梁,而手語主持人長期“供不應求”,僅新聞等少數節目配備。2022年北京冬奧會期間,央視頻與騰訊3D手語數智人“聆語”合作,提供多場直播賽事的實時手語支持。針對體育賽事進行專門訓練后的“聆語”的翻譯能力已非常接近真人,手語可懂度90%以上,未來進一步豐富專業語料庫后可拓展到更多視頻場景。
第五,支持未來互聯網應用中個性化的內容與服務提供。
信息大爆炸的互聯網時代,AI推薦算法無疑是最成功、最具商業價值的AI應用之一。可以肯定的是,當前的互聯網時代所面臨的的信息大爆炸、信息過載等問題,VR/AR、元宇宙等未來互聯網應用中依然存在,甚至可能會變得更為突出,因此高性能AI推薦系統驅動的個性化推薦仍將發揮關鍵作用。正因如此,Meta公司的元宇宙AI布局也涉及AI推薦系統,包括將推薦系統開源給其機器學習框架PyTorch。
第六,識別、打擊惡意行為。
在VR/AR、元宇宙等未來互聯網應用中,不僅內容的種類會更加豐富,而且內容的數量也將呈指數級增長。這意味著色情、暴力、恐怖等違法有害內容可能在元宇宙中變得更加突出,而且生成性AI被濫用來對音視頻進行偽造或篡改有可能帶來新的安全問題。因此,利用AI技術來識別、打擊元宇宙中的惡意行為將變得越來越重要和必要。例如,對于圖片、視頻的篡改問題,騰訊優圖實驗室開發的換臉甄別模型,基于圖像算法和視覺AI技術,可以實現對視頻中的人臉真偽進行高效快速的檢測和分析,鑒別視頻、圖片中的人臉是否為AI換臉算法所生成的假臉。
包括生成性AI、數字虛擬人等在內的AI技術突破將給互聯網和數字經濟的創新發展與應用提供強大動力,幫助創造出更加真實的虛擬世界,推動虛擬世界真實化。但AI、VR/AR等新技術的結合帶來的虛擬真實(virtual realness)在增強用戶在VR/AR、元宇宙等未來互聯網應用中的使用體驗的同時,也可能帶來新的挑戰。
例如,權利歸屬的問題,AI創作內容的知識產權如何保護?隱私保護的問題,VR/AR、元宇宙等應用形態應該可能涉及收集用戶的更私密的生物識別數據,給用戶的隱私和數據安全提出新的挑戰。新型違法犯罪活動,例如惡意分子可能擅自使用他人的肖像、聲音等,利用生成性AI和數字虛擬人技術從事偽造、仿冒、欺騙、詐騙等非法活動。AI應用的透明度和可解釋性,如何確保用戶知道其在與人工智能而非人類互動,如何讓用戶理解、信任推薦系統等AI應用。算法歧視問題,數字人和其他的AI算法應用也可能出現歧視性行為,影響用戶權益。
因此,各界需要負責任地發展應用生成性AI、數字虛擬人等AI技術,在VR/AR、元宇宙等未來互聯網應用中打造負責任的、可信的、以人為本的虛擬真實體驗。更加重視科技倫理與風險管理,踐行科技向善,將科技倫理治理貫穿到AI應用的全生命周期,同時以技術創新的方式應對隱私保護、安全、違法犯罪等問題,消除算法歧視,打造更加透明、可解釋的AI應用,促進用戶的理解與信任。
[1]https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/
[2]https://www.technologyreview.com/2021/05/27/1025453/artificial-intelligence-learning-create-itself-agi/
[3]https://www.cloverinfotech.com/blog/generative-ai-explained-gartners-top-strategic-technology-trend-for-2022/
[4]https://about.fb.com/news/2022/02/inside-the-lab-building-for-the-metaverse-with-ai/
[5]https://towardsdatascience.com/how-ai-will-shape-the-metaverse-4ea7ae20c99
本文來自微信公眾號 “騰訊研究院”(ID:cyberlawrc),作者: ,36氪經授權發布。