被大模型刷屏的2023年,數(shù)據(jù)標(biāo)注發(fā)生了哪些變化?

斯坦福大學(xué)李飛飛等人在2022年8月發(fā)表的論文中指出,實(shí)現(xiàn)可信AI,數(shù)據(jù)的設(shè)計(jì)、改進(jìn)和質(zhì)量評(píng)估是關(guān)鍵。以數(shù)據(jù)為中心的人工智能將重點(diǎn)轉(zhuǎn)移到訓(xùn)練數(shù)據(jù)的治理和增強(qiáng),高質(zhì)量的訓(xùn)練數(shù)據(jù)集、完備的數(shù)據(jù)應(yīng)用策略將會(huì)更好的服務(wù)于模型的開(kāi)發(fā)與應(yīng)用。
大模型的熱潮為人工智能開(kāi)啟了新的篇章,作為人工智能的重要生產(chǎn)要素,數(shù)據(jù)集的作用更加凸顯。然而,飛速發(fā)展的大模型時(shí)代,訓(xùn)練數(shù)據(jù)供需兩端也在發(fā)生轉(zhuǎn)變,適配于大模型領(lǐng)域的數(shù)據(jù)處理工具應(yīng)運(yùn)而生。
01 標(biāo)注需求變化
從客觀到主觀
數(shù)據(jù)堂現(xiàn)有4個(gè)大型數(shù)據(jù)標(biāo)注基地,通過(guò)專業(yè)化培訓(xùn)、針對(duì)性考試,不斷提升大模型標(biāo)注人員的專業(yè)理解力、邏輯思維、總結(jié)能力,現(xiàn)在500名穩(wěn)定的大模型專業(yè)標(biāo)注人員,全部通過(guò)內(nèi)部考核
02 標(biāo)注人員變化
從勞動(dòng)密集轉(zhuǎn)向知識(shí)密集
數(shù)據(jù)堂擁有一支經(jīng)驗(yàn)豐富的大模型數(shù)據(jù)標(biāo)注團(tuán)隊(duì),已經(jīng)過(guò)多個(gè)項(xiàng)目的實(shí)戰(zhàn)。本科及以上學(xué)歷占比達(dá)95%,覆蓋醫(yī)療、IT、金融、教育、設(shè)計(jì)美學(xué)等專業(yè)領(lǐng)域的過(guò)往從業(yè)人員,保障數(shù)據(jù)集的更高質(zhì)量要求。
03 價(jià)值觀變化
負(fù)責(zé)任的大模型
價(jià)值對(duì)齊是AI安全的一個(gè)核心議題。需要確保大模型的能力和行為跟人類的價(jià)值、真實(shí)意圖和倫理原則相一致,確保人類與人工智能協(xié)作過(guò)程中的安全與信任。不能輸出帶有歧視性的、有毒有害的、惡意引導(dǎo)性的內(nèi)容。
數(shù)據(jù)堂的專業(yè)人員可以編寫各種對(duì)抗攻擊,如試探性的或者危險(xiǎn)性的問(wèn)題,以發(fā)現(xiàn)潛在問(wèn)題并予以解決。通過(guò)紅隊(duì)測(cè)試,幫助客戶發(fā)現(xiàn)其模型在不準(zhǔn)確信息(幻覺(jué))、有害內(nèi)容、虛假信息、歧視、語(yǔ)言偏見(jiàn)等方面的問(wèn)題。
04 標(biāo)注工具變化
更適配大模型數(shù)據(jù)處理需求
數(shù)據(jù)堂作為全球知名的AI訓(xùn)練數(shù)據(jù)服務(wù)企業(yè),為了更好的推動(dòng)大模型領(lǐng)域發(fā)展,幫助客戶快速解決訓(xùn)練數(shù)據(jù)需求,結(jié)合多個(gè)大模型數(shù)據(jù)處理案例,開(kāi)發(fā)了更適配于大模型數(shù)據(jù)的標(biāo)注工具。
針對(duì)現(xiàn)有大語(yǔ)言模型的數(shù)據(jù)標(biāo)注,主要分為兩種類型。一種是對(duì)已有的問(wèn)答數(shù)據(jù)進(jìn)行評(píng)分評(píng)估,例如,客戶給定了一個(gè)問(wèn)題以及多個(gè)答案,也可以是一個(gè)問(wèn)題,通過(guò)外部模型生成答案,然后對(duì)答案進(jìn)行打分、排序、評(píng)估敏感信息等。
另一種則是根據(jù)提示,自行編寫多輪問(wèn)答數(shù)據(jù),適用于監(jiān)督微調(diào)SFT,例如,客戶只給定了一個(gè)指令,需要團(tuán)隊(duì)根據(jù)指令去編寫問(wèn)題與答案。
多輪問(wèn)答模板操作界面
數(shù)據(jù)堂LLM文本模型標(biāo)注平臺(tái)針對(duì)答案、整體布局、API接口以及評(píng)分規(guī)則等多個(gè)部分進(jìn)行自有配置,幫助標(biāo)注人員匹配更適合自己的高效工作版式。
結(jié)語(yǔ)
The End
在大模型數(shù)據(jù)服務(wù)方面,數(shù)據(jù)堂擁有豐富的項(xiàng)目經(jīng)驗(yàn),可以提供高效率、高準(zhǔn)確率的數(shù)據(jù)交付。我們始終采取高標(biāo)準(zhǔn)、完善的數(shù)據(jù)安全合規(guī)管理方案,全力保障客戶權(quán)益。從而讓客戶放心無(wú)憂的使用我們的服務(wù)。
[免責(zé)聲明]
原文標(biāo)題: 被大模型刷屏的2023年,數(shù)據(jù)標(biāo)注發(fā)生了哪些變化?
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。




