男女性潮高清免费网站,久久精品国产亚洲av麻豆图片,啊灬啊别停灬用力啊岳,国产天堂亚洲国产碰碰,亚洲精品一区二区久久,久久人人爽人人爽人人片av高清 ,久久本道综合久久伊人,伊人情涩网

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

新智元
+ 關注
2022-10-09 14:58
949次閱讀
谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

  新智元報道  

編輯:David 桃子
【新智元導讀】最近,谷歌研究團隊推出了一種語音生成的AI模型——AudioLM。只需幾秒音頻提示,便可生成高質量連貫的語音,甚至還可以生成鋼琴音樂。

圖像生成模型卷起來了!視頻生成模型卷起來了!

下一個,便是音頻生成模型。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

近日,谷歌研究團隊推出了一種語音生成的AI模型——AudioLM。

只需幾秒音頻提示,它不僅可以生成高質量,連貫的語音,還可以生成鋼琴音樂。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

論文地址:https://arxiv.org/pdf/2209.03143.pdf

AudioLM是一個具有長期一致性的高質量音頻生成框架,將輸入的音頻映射為一串離散的標記,并將音頻生成任務轉化為語言建模任務。

現有的音頻標記器在音頻生成質量和穩定的長期結構之間必須做出權衡,無法兼顧。

為了解決這個矛盾,谷歌采用「混合標記化」方案,利用預訓練好的掩膜語言模型的離散化激活,并利用神經音頻編解碼器產生的離散代碼來實現高質量的合成。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

AudioLM模型可以基于簡短的提示,學習生成自然和連貫的連續詞,當對語音進行訓練時,在沒有任何記錄或注釋的情況下,生成了語法上通順、語義上合理的連續語音,同時保持說話人的身份和語調。

除了語音之外,AudioLM還能生成連貫的鋼琴音樂,甚至不需要在任何音樂符號來進行訓練。

從文本到鋼琴曲:兩大問題

近年來,在海量的文本語料庫中訓練出來的語言模型已經顯示出其卓越的生成能力,實現了開放式對話、機器翻譯,甚至常識推理,還能對文本以外的其他信號進行建模,比如自然圖像。

AudioLM的思路是,利用語言建模方面的這些進展來生成音頻,而無需在注釋數據上進行訓練。

不過這需要面對兩個問題。

首先,音頻的數據率要高得多,單元序列也更長。比如一個句子包含幾十個字符表示,但轉換成音頻波形后,一般要包含數十萬個值。

另外,文本和音頻之間存在著一對多的關系。同一個句子可以由不同的說話人以不同的風格、情感內容和環境來呈現。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

為了克服這兩個挑戰,AudioLM利用了兩種音頻標記。

首先,語義標記是從w2v-BERT這個自監督的音頻模型中提取的。

這些標記既能捕捉到局部的依賴關系(如語音中的語音,鋼琴音樂中的局部旋律),又能捕捉到全局的長期結構(如語音中的語言句法和語義內容,鋼琴音樂中的和聲和節奏),同時對音頻信號進行大量的降采樣,以便對長序列進行建模。

不過,從這些token中重建的音頻的保真度不高。

為了提高音質,除了語義標記外,AudioLM還利用了SoundStream神經編解碼器產生的聲學標記,捕捉音頻波形的細節(如揚聲器特征或錄音條件),進行高質量的合成。

如何訓練?

AudioLM是一個純音頻模型,在沒有任何文本或音樂的符號表示下進行訓練。

它通過鏈接多個Transformer模型(每個階段一個)從語義標記到精細的聲學標記對音頻序列進行分層建模。

每個階段都會根據上次的標記為下一個標記預測進行訓練,就像訓練一個語言模型一樣。

第一階段在語義標記上執行此任務,以對音頻序列的高級結構進行建模。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

到了第二階段,通過將整個語義標記序列與過去的粗聲標記連接起來,并將兩者作為條件反饋給粗聲模型,然后預測未來的標記。

這個步驟模擬了聲學特性,例如說話者特性或音樂中的音色。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

在第三階段,使用精細的聲學模型來處理粗糙的聲學信號,從而為最終的音頻增加了更多的細節。

最后,將聲學標記輸入SoundStream解碼器以重建波形。

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

訓練完成后,可以在幾秒鐘音頻上調整AudioLM,這能夠讓其生成連續性的音頻。

為了展示AudioLM的普遍適用性,研究人員通過在不同音頻領域的2個任務對其進行檢驗。

一是Speech continuation,該模型保留提示的說話人特征、韻律,同時還能輸出語法正確且語義一致的新內容。

二是Piano continuation,該模型會生成在旋律、和聲和節奏方面與提示一致的鋼琴音樂。

如下所示,你聽到的所有灰色垂直線之后的聲音都是由AudioLM生成的。

為了驗證效果如何,研究人員讓人類評分者去聽簡短的音頻片段,去判斷是人類語音的原始錄音還是由 AudioLM生成的錄音。

根據收集到的評分,可以看到AudioLM有51.2%的成功率,意味著這一AI模型生成的語音對于普通聽眾來說很難與真正的語音區分開來。

在東北大學研究信息和語言科學的Rupal Patel表示,之前使用人工智能生成音頻的工作,只有在訓練數據中明確注釋這些細微差別,才能捕捉到這些差別。

相比之下,AudioLM從輸入數據中自動學習這些特征,同樣達到了高保真效果。

隨著 GPT3 和 Bloom(文本生成)、 DALLE和Stable Diffusion(圖像生成)、RunwayML和Make-A-Video(視頻生成)等多模態 ML 模型的出現,關于內容創建和創意工作正在發生變化。

未來的世界,便是人工智能生成的世界。

參考資料:
https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
https://arxiv.org/pdf/2209.03143.pdf
https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html
https://google-research.github.io/seanet/audiolm/examples

本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經授權發布。

資深作者新智元
0
相關話題
AIGC賽道追蹤
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作
主站蜘蛛池模板: chinese国产av| 国产激情久久久久久熟女老人av| 一二三四电影在线观看视频播放免费 | 久久久久久人妻一区精品| 好男人在线观看免费视频| 午夜福制92视频| 国产伦子沙发午休系列资源曝光| 少妇激情一区二区三区视频| 国产超碰人人做人人爱| 欧美乱大交aaaa片if| 亚洲av首页在线| 被灌满精子的波多野结衣| 最新中文字幕av专区| 国产成人国拍亚洲精品| 无码国产精品一区二区免费虚拟vr| 99久久精品国产综合| 14萝自慰专用网站| 中国亚州女人69内射少妇| 日本熟妇xxx| 三级三级三级a级全黄| 99蜜桃臀久久久欧美精品网站| 国产综合无码一区二区色蜜蜜| 国产欠欠欠18一区二区| 八戒理论片午影院无码爱恋| 精品亚洲欧美无人区乱码| 粗大的内捧猛烈进出看视频| 日本黄网站免费| 中美日韩毛片免费观看| 97一期涩涩97片久久久久久久| 精品国产免费人成网站| 性夜久久一区国产9人妻| 小宝极品内射国产在线| 日韩精品久久久久久免费| 男人靠女人免费视频网站 | 大江大河3全集免费播放| 一个人看的www免费视频在线观看| 麻豆人妻无码性色av专区| 国产一区二区三区在线男友| 亚洲va在线va天堂xx xx| 国产成人综合亚洲亚洲国产第一页| 黄又色又污又爽又高潮动态图|