ChatGPT “克星”出現，OpenAI 重磅發布全新 AI 鑒別工具，網友吐槽：失敗率太高啦！

CSDN

+ 關注

2023-02-01 16:06

665次閱讀

ChatGPT “克星”出現，OpenAI 重磅發布全新 AI 鑒別工具，網友吐槽：失敗率太高啦！

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

ChatGPT 的實力，讓眾人為之瘋狂，但也讓外界感到害怕。

對于其創造者，OpenAI 一邊在奮力升級 ChatGPT，讓它的真實性和數學能力都大大提升；另一邊開啟“壓制”模式，解使用者的后顧之憂，讓 ChatGPT 的應用越來越正規。

這不，昨日，OpenAI 重磅推出了一款新的 AI 工具，用來識別 AI 生成的文本內容，并給出多種建議，幫助人類辨別內容的「真偽」。不過，OpenAI 自己也率先承認，這款工具是“不完美”的。

ChatGPT “克星”出現，OpenAI 重磅發布全新 AI 鑒別工具，網友吐槽：失敗率太高啦！

想要嘗鮮的用戶，可以通過以下鏈接了解詳情：https://platform.openai.com/ai-text-classifier

新工具誕生

在公告中，OpenAI 表示，新款的 AI-Text-Classifier（AI 文本分類器）可以用來區分人類寫的文本和來自各種供應商使用 AI 寫的文本。

這款 AI 文本分類器是一個語言模型，它是基于同一主題下人工編寫文本和人工智能編寫文本對數據集上進行的微調。

在模型訓練上，OpenAI 認為是由人類編寫的各種來源收集了這個數據集，比如預訓練數據和提交給 InstructGPT 的人類演示。

進而，OpenAI 再將把每個文本分為提示和響應。在這些提示下，研究人員從其和其他組織訓練的各種不同的語言模型中產生了響應，以此來不斷訓練 AI 文本分類器。

OpenAI 表示，“對于我們的 Web 應用，我們調整了置信度閾值，以保持較低的誤報率；換句話說，只有當分類器非常有信心的情況下，才會將文本標記為可能是人工智能寫的。”

在使用上，和 ChatGPT 的方法一樣，這款免費且基于 Web 的工具用起來也特別方便。只需要用戶將文本內容復制到檢測框中，系統就可以評估文本由 AI 系統生成的可能性。

它一共提供了五種判別結果：非常不可能是由人工智能生成的；不可能；不清楚；可能；非?？赡?。

新款 AI 文本分類器在識別大于 1000 字的文本樣本和用英語描述的文本中呈現的效果最好。要想提高這款工具的準確性，官方建議輸入的文本長度越多越好。相較而言，它在其他語言中的表現明顯較差。

有些遺憾的是，它并不能區分人類和人工智能編寫的計算機代碼。

官方警告慎用：沒想象得那么好

目前對于這款工具，OpenAI 并沒有做出更多的原理介紹，主要原因或因為這款工具還并不成熟。

當下這款分類器還有一些局限性：

對于一些固定的標準答案、文本等非常容易預測的內容，AI 文本分類器無法可靠地識別出來。例如，不可能預測前 1000 個質數的列表是由人工智能還是人類寫的，因為正確答案總是一樣的。
AI 寫的文本可以被二次編輯，從而躲過分類器的檢測。

OpenAI 官方表示，該工具識別還不是特別準確。在實驗中，其對英語文本內容進行了測試，AI-Text-Classifier 可以正確地將 26% 的 AI 內容正確識別，提供“可能是 AI 編寫的”建議參考；同時，錯誤地將 9% 的人類編寫內容識別為 AI 生成的，這就屬于誤判了。

一名教授做了道計算后稱：當下，這個工具在實踐中是相當無用

對此，來自洛桑聯邦理工學院教授 Marcel Salathé 對這個比例進行了計算，用以判別新 AI 分類器工具到底有多大用處。

他舉例道，假設一所大學有 1000 名學生被要求寫一篇文章，其中 3% 的人試圖作弊，用 ChatGPT 來生成文本。因此，在這個比例下，會有 30 個 AI 生成的文本和 970 個人類生成的文本。

在此背景下，該學校的一名老師聽說了 OpenAI 的新人工智能檢測工具，并通過這款工具來檢測收到的 1000 篇文章。根據 OpenAI 提供的比率來計算：

在 970 個人類生成的文本中，9%（即 87 個）將被錯誤地標記為人工智能生成的。

在 30 個人工智能生成的文本中，26%（即 8 個）將被正確標記為人工智能生成的。

換句話說，老師最終可能會將有 87+8=95 個文本標記為人工智能生成的。事實上，其中只有 8 個是人工智能生成的。

Marcel Salathé 教授表示，當工具為老師提供一個肯定的（即可能是人工智能生成的）結果時，該文本實際上是人工智能生成的概率只有 8.4%。其中絕大多數實際都是人類生成的內容。相反，大多數人工智能生成的文本（30 個中的 22 個）會被標記為 "人類寫的 "驗證結果通過。

整體而言，Marcel Salathé 直言，舉這個例子并不是對該工具進行貶低或批評。因為當一款工具被研發出來的早期，準確率需要在實驗中不斷迭代優化，這是一個必然的過程。

不過，他也呼吁，如果你是一名教師，并且你認為剛剛得到了一個處理人工智能生成的工具，請注意，在當前這個階段，這個工具在實踐中是相當無用的。

OpenAI 回應：正在改進

正因此，OpenAI 也特別強調了 AI-Text-Classifier 并不能可靠地檢測出所有人工智能寫的文本，僅是作為一個強有力的參考而存在，譬如用此工具鑒別學術論文等。

與此同時，OpenAI 也表示，面向教育工作者，AI 文本分類器在課堂上有一定的限制和影響，因為其已經為教育工作者開發了一個關于 ChatGPT 使用的初步資源（https://platform.openai.com/docs/chatgpt-education），其中概述了一些用途以及相關的限制和考慮。

目前這個分類器已經公開，面向更多的用戶收集一些使用的反饋，OpenAI 稱，未來會逐步分享一些改進的方法