AI首次超越人類!騰訊、阿里的NLP模型,比你更懂中文
新智元報道
【新智元導(dǎo)讀】這年頭,還有AI做不到的事兒嗎?
在AI科技圈,「中文語言理解」一直是一個難以攻克的問題。因為在全世界所有的語言中——中文的難度系數(shù)是最高的。
舉例來講,就下面這句簡簡單單20個字的句子,都絕對能讓不少外國人深感崩潰。
下雨天,我騎車差點摔倒,好在一把把把把住了。
然而,在最新的中文語言理解領(lǐng)域權(quán)威榜單CLUE中,騰訊和阿里的AI模型卻先后超越了人類的成績!實在讓人不禁感慨:這年頭,還有什么是AI做不了的嗎?
最新一期CLUE最新排名
CLUE的全稱是Chinese Language Understanding Evaluation,即「中文語言理解測評基準(zhǔn)」。
就像英語的GLUE和SuperGLUE,CLUE是一組評估機器能夠像人類一樣理解和響應(yīng)中文文本的任務(wù),上線于3年前,也是第一個大規(guī)模的中文語言評估基準(zhǔn),旨在推動NLP技術(shù)的不斷進步和突破。
在CLUE的官網(wǎng)上,有語料庫、排行榜、預(yù)訓(xùn)練模型和代表性的數(shù)據(jù)集等資料可供選擇。包括文本相似度、分類、上下文推理、閱讀理解在內(nèi)的17項測評任務(wù),其介紹在官網(wǎng)上都有很詳盡的展示。
今年11月22日,阿里巴巴的AI模型「AliceMind」獲得了86.685的高分,穩(wěn)居總排行榜首位的同時,也一舉打破了由人類(HUMAN)在該系列測試中保持的紀(jì)錄。
值得一提的是,這也是人工智能在該系列測試中——首次超越人類。
巧合的是,短短4天后,騰訊的「混元AI大模型」在測試中以86.918的高分再次刷新了紀(jì)錄——這甚至比AliceMind的成績還要高0.233分。
中國兩大互聯(lián)網(wǎng)巨頭你方唱罷我登場,說明人工智能在不同領(lǐng)域和方面都有超越人類的能力。
上周五,阿里云計算部門也在一篇文章中表示,「這標(biāo)志著中國對AI模型的理解,達到了一個新的水平」。
中國的大型科技公司正努力改進他們的自然語言處理 (NLP) 系統(tǒng),這些系統(tǒng)被用于支持如阿里巴巴的語音激活虛擬助手,騰訊的小微和AliGenie,以及機器翻譯和垃圾郵件檢測等其他功能。
阿里巴巴的天貓精靈智能音箱
今年早些時候,由百度研發(fā)的AI模型「度曉曉」寫出的作文,盡管錯誤地使用了不少互聯(lián)網(wǎng)俚語和生僻詞,但仍在高考得分中高于絕大多數(shù)學(xué)生。
此外在最新排行榜上,中國智能手機制造商OPPO和外賣巨頭美團的人工智能模型,也分別排在第四和第五位。
盡管如此,一些研究人員表示:雖然機器在某些語言任務(wù)上可以比人類做得更好,但大多數(shù)人工智能模型在真正理解語言的復(fù)雜性之前,還有很長的路要走。
去年,由美國阿拉巴馬州奧本大學(xué)和Adobe的研究部門聯(lián)合研究發(fā)現(xiàn),許多在某些理解任務(wù)上表現(xiàn)優(yōu)于人類的AI,仍無法分辨出單詞被隨機打亂的句子。
https://www.cluebenchmarks.com/rank.html
https://www.scmp.com/tech/big-tech/article/3201294/tencent-and-alibabas-ai-models-understand-chinese-better-humans-new-rankings-show
https://www.techtimes.com/articles/284084/20221128/tencent-alibaba-ai-tech-tops-chinese-language-comprehension-humans-ranks.htm
https://english.newstracklive.com/news/ai-models-from-tencent-and-alibaba-are-superior-to-humans-at-understanding-chinese-sc71-nu355-ta355-1259160-1.html
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。
