曾經(jīng),我對(duì)著AI客服噴了兩分鐘,它只回復(fù)了我的第一句話
夢晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
不知不覺間,接打快遞、銀行等電話時(shí),遇到AI的情況越來越多了。
目前和這些AI溝通,還得講究一個(gè)技巧:
要保持你一句我一句的標(biāo)準(zhǔn)節(jié)奏,不然難免變成“人工智障”。
比如話說一半卡殼停頓了,AI會(huì)以為你說完了,對(duì)著半句話給出莫名其妙的回復(fù)。
如果在一句話中間打斷它,也很少有AI能反應(yīng)得過來。
要是投訴時(shí)情緒比較激動(dòng),對(duì)著話筒一頓輸出,AI可能只回復(fù)了第一句,甚至不聽你的,跟你“搶話”。
谷歌在今年的I/O大會(huì)上終于提到這個(gè)問題,給出的初步解決方案演示還獲得滿場掌聲。
不過,國內(nèi)其實(shí)有人關(guān)注這個(gè)問題比谷歌更早,那就是擁有復(fù)雜場景的京東,早就在實(shí)際業(yè)務(wù)遇到類似的問題。
在京東集團(tuán)副總裁、IEEE Fellow何曉冬博士看來,這既不屬于語音識(shí)別問題,也不屬于語義理解問題,學(xué)術(shù)研究中往往關(guān)注度不高。
只有在落地實(shí)踐中,這樣的問題才會(huì)暴露出來,進(jìn)而有機(jī)會(huì)解決。
2018年,何曉冬離開工作了十余年的微軟雷蒙德研究院,也是自然語言處理、語言與視覺多模態(tài)智能等領(lǐng)域的領(lǐng)軍人物之一,選擇回國加盟京東。
這其中也是有擁抱場景、離實(shí)踐更近方面的考量。
在京東,何曉冬帶領(lǐng)團(tuán)隊(duì)融合聲學(xué)、語義、時(shí)間等多模態(tài)特征,開發(fā)了一系列人機(jī)交互場景的“話語權(quán)決策“(Turn taking)技術(shù)。
△多模態(tài)融合的話語權(quán)決策(Turning Taking)
如今,這套技術(shù)在京東智能客服系統(tǒng)上每天有百萬到千萬級(jí)的咨詢量,就相當(dāng)于每天要做上千萬次圖靈測試,已經(jīng)日趨成熟。
而像這樣的問題,何曉冬加入京東以來遇到的還有不少。
在AI發(fā)展的上一個(gè)階段首先解決了高頻場景,但用戶多了難免出現(xiàn)邊緣案例(edge case)。
隨著京東言犀在全國業(yè)務(wù)的推廣,識(shí)別各地方言的需求開始凸顯,遇到情緒有波動(dòng)的客戶也更多了。
極端情況下,偶爾會(huì)遇到用戶咨詢要買一整瓶安眠藥,言語間帶有輕生傾向。
后來京東做了一個(gè)生命通道項(xiàng)目,專門檢測識(shí)別這樣少見但重大的情況。檢測到之后一方面可以在言語上安撫客戶、通知物流先不發(fā)貨,另一方面聯(lián)系當(dāng)?shù)氐木交蛏鐓^(qū)人員介入。
從技術(shù)上說,除了識(shí)別語音,解決這些問題還需要識(shí)別用戶意圖、感知用戶情緒以及多輪對(duì)話管理。
對(duì)此,何曉冬進(jìn)一步提出“對(duì)話的本質(zhì)是推理與決策”,語言只是其中一種表現(xiàn)形式。
圍棋在過去又叫“手談”,代表這種博弈游戲就像是用手去交談對(duì)話。如果反過來,對(duì)話也是一種推理與決策,你需要了解整個(gè)棋局,并能夠完美執(zhí)行。
在京東的智能客服領(lǐng)域,決策推理能力還體現(xiàn)在如果遇到退換貨、或者其他問題,言犀可以結(jié)合對(duì)業(yè)務(wù)場景深度的理解,以及RPA(機(jī)器人流程自動(dòng)化)能力,特別情況下還通過優(yōu)惠券等多種方式來補(bǔ)償客戶,或遇到復(fù)雜問題自動(dòng)轉(zhuǎn)接給人工客服處理。
通過解決客戶服務(wù)實(shí)踐中遇到的種種問題,一套語音語義技術(shù)被打磨得更實(shí)用,也更以人為本。
情感識(shí)別上,有業(yè)界首個(gè)大規(guī)模商用的情感系統(tǒng),能識(shí)別生氣、失望、憤怒、焦慮等7種情緒。
方言識(shí)別上,專門開發(fā)口音適配模型和算法,結(jié)合語音識(shí)別和語義理解聯(lián)合建模保證精確性,已能識(shí)別粵語、四川話等多地方言。
另外何曉冬認(rèn)為,在業(yè)務(wù)實(shí)踐中除了能打磨完善單個(gè)技術(shù),還能促進(jìn)多技術(shù)的融合。不僅可以提升了技術(shù)應(yīng)用的穩(wěn)定性,令其有更好的適應(yīng)性。例如前端的一個(gè)指令,背后往往是一套多協(xié)同的算法在“并肩作戰(zhàn)”。
如從商品文案生成的需求出發(fā),語言模型結(jié)合領(lǐng)域知識(shí)圖譜的AI算法已實(shí)現(xiàn)3000種品類的文案,總計(jì)“種草”30億字。
同時(shí),京東上有著5.8億活躍用戶、1000萬個(gè)自營SKU和數(shù)十萬商家,智能客服每天處理1000萬次服務(wù),每月產(chǎn)生200萬小時(shí)脫敏通話數(shù)據(jù)。
再加上每年的618、雙11的峰值負(fù)載考驗(yàn),這一套智能客服技術(shù)在工程上也沉淀出了最佳實(shí)踐。
現(xiàn)在技術(shù)和工程實(shí)踐在京東內(nèi)部已經(jīng)跑通,能不能讓它們?nèi)ソ鉀Q更多問題?
何曉冬認(rèn)為,這樣一套端到端的能力可以開放出來給更多第三方使用。
只不過這些技術(shù)在內(nèi)部使用時(shí)是高度定制化的,開放出來就需要做解耦出來,在更廣泛的場景做到復(fù)用。
在剛剛舉辦的京東云峰會(huì)上,何曉冬發(fā)布了全新升級(jí)的人工智能應(yīng)用平臺(tái)言犀2.0。
這一次,言犀2.0特別強(qiáng)調(diào)的關(guān)鍵詞是應(yīng)用平臺(tái),而不是一個(gè)開發(fā)平臺(tái)。
這是因?yàn)锳I能力要服務(wù)于生產(chǎn)制造、倉儲(chǔ)物流、中小賣家等供應(yīng)鏈上下游離技術(shù)更遠(yuǎn)的企業(yè)時(shí),就不能只是做個(gè)跑分高的算法模型、提供個(gè)API接口了事。
而是需要把技術(shù)和最佳實(shí)踐一起沉淀到產(chǎn)品里,端到端的交付。
京東零售業(yè)務(wù)經(jīng)過19年發(fā)展,已經(jīng)構(gòu)建起一套完整的供應(yīng)鏈基礎(chǔ)設(shè)施,覆蓋商品的制造、流通、消費(fèi)和服務(wù)的全周期。
進(jìn)一步,可以把零售行業(yè)的價(jià)值鏈分為創(chuàng)意、設(shè)計(jì)、研發(fā)、制造、定價(jià)、營銷、交易、倉儲(chǔ)、配送、售后等十個(gè)環(huán)節(jié),這便京東從14年開始提的“十節(jié)甘蔗”理論。
當(dāng)前,在數(shù)字化升級(jí)、智能化轉(zhuǎn)型的大趨勢下,京東又提出“數(shù)智供應(yīng)鏈”。
也就是將京東在供應(yīng)鏈上沉淀的技術(shù)能力解放出來,服務(wù)更多實(shí)體產(chǎn)業(yè)。
這里面既是京東在技術(shù)服務(wù)上的差異化競爭優(yōu)勢,也是不得不做,這是因?yàn)?mdash;—
在AI落地早期階段的特點(diǎn)是“單點(diǎn)應(yīng)用”,如簡單的問答、人臉識(shí)別等。
下一步則是在某些高頻場景的大規(guī)模、全鏈條應(yīng)用,如零售、金融等場景。
再往后就進(jìn)入了產(chǎn)業(yè)AI的“深水區(qū)”,不可避免要遇到低頻、長尾場景,新的困難也隨之出現(xiàn)。
這些場景的數(shù)據(jù)樣本少、數(shù)據(jù)分布不均,對(duì)技術(shù)來說研發(fā)成本更高,同時(shí)定制化程度高、難以復(fù)制。
要解決這些困難,過去的單點(diǎn)突破則走不通了,那么,接下來又該怎么走?
此前從京東內(nèi)部的經(jīng)驗(yàn)可以看出,技術(shù)必須要在真實(shí)場景下實(shí)踐才能暴露出問題,多種技術(shù)之間也是在真實(shí)場景下實(shí)踐才能更好的融合。
在供應(yīng)鏈視角下,這里的多技術(shù)已不僅指AI內(nèi)部的各個(gè)分支,還要算上云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、5G、區(qū)塊鏈等更廣義的技術(shù)。
同時(shí),供應(yīng)鏈所有環(huán)節(jié)都需要數(shù)智化轉(zhuǎn)型才能最大化效率,帶來上下游之間的協(xié)同效應(yīng)。
由此京東云提出,產(chǎn)業(yè)數(shù)字化的下一站便是數(shù)智供應(yīng)鏈。
而京東作為一家既懂技術(shù)又懂供應(yīng)鏈的公司,在這之中要扮演的是用技術(shù)連接起產(chǎn)業(yè)互聯(lián)網(wǎng)和消費(fèi)互聯(lián)網(wǎng),同時(shí)在商品的制造、流通、消費(fèi)和服務(wù)環(huán)節(jié)推進(jìn)數(shù)智化轉(zhuǎn)型。
而京東本身就是一個(gè)復(fù)雜、嚴(yán)苛的“場景”,對(duì)成本、體驗(yàn)、效率有著極致的要求。
向這些環(huán)節(jié)提供智能服務(wù)創(chuàng)造價(jià)值的同時(shí),又能通過反饋進(jìn)一步迭代技術(shù),最終走入正向循環(huán)。
總的來說,就是從京東復(fù)雜業(yè)務(wù)場景深度解耦出來的AI能力,歷經(jīng)多年的考驗(yàn)和驗(yàn)證,平臺(tái)技術(shù)能力可用性強(qiáng),復(fù)用度高,遷移成本低,可以不斷地復(fù)制到其他行業(yè)。
這樣就解決了AI規(guī)模化落地的問題,面對(duì)一些低頻、長尾的場景,也更容易遷移。
在今年的京東云峰會(huì)上,基于言犀2.0應(yīng)用平臺(tái)還發(fā)布了政務(wù)、金融、數(shù)字人等技術(shù)產(chǎn)品。
政務(wù)方面的產(chǎn)品是“京東政務(wù)大腦”,以人機(jī)交互能力為核心,結(jié)合多種技術(shù)提供了政務(wù)咨詢一網(wǎng)通、疫情防控與排查、智慧養(yǎng)老等一系列解決方案,服務(wù)市政民生。
金融方面則是結(jié)合對(duì)話、決策能力與金融領(lǐng)域?qū)I(yè)知識(shí),推出金融全鏈路智能營服銷一體化解決方案。
最后還有言犀多模態(tài)數(shù)字人平臺(tái),與市面上的數(shù)字人相比,京東數(shù)字人更注重產(chǎn)業(yè)服務(wù),同時(shí)強(qiáng)調(diào)AI驅(qū)動(dòng)的多模態(tài)交互能力,目前已走進(jìn)直播帶貨、銀行業(yè)務(wù)辦理、政務(wù)服務(wù)等多個(gè)場景。
△數(shù)字人言小希與京東總部合影
為什么首先選擇這幾個(gè)領(lǐng)域?
何曉冬也給出了他對(duì)數(shù)智供應(yīng)鏈應(yīng)如何推進(jìn)上的思考。
從AI技術(shù)公司,到泛互聯(lián)網(wǎng)行業(yè),再到更傳統(tǒng)的行業(yè),離技術(shù)越遠(yuǎn)則數(shù)智化的需求和機(jī)會(huì)越大,但同時(shí)推進(jìn)數(shù)智化的難度也更大。
這其中,金融、政務(wù)這些行業(yè)數(shù)字化基礎(chǔ)設(shè)施已初步建設(shè)完善,與大眾關(guān)系又緊密。
先從這些領(lǐng)域入手去推進(jìn)智能化,可以迅速打開局面,再一步步深入滲透進(jìn)能源、制造業(yè)等更傳統(tǒng)的行業(yè)。
選擇做數(shù)字人平臺(tái)也是類似的思路,數(shù)字人當(dāng)下產(chǎn)業(yè)需求非常龐大,又是人機(jī)交互技術(shù)最佳的表現(xiàn)載體,可以一邊創(chuàng)造價(jià)值,一邊進(jìn)一步檢驗(yàn)和完善技術(shù)。
本文來自微信公眾號(hào)“量子位”(ID:QbitAI),作者:關(guān)注前沿科技,36氪經(jīng)授權(quán)發(fā)布。
