Open AI 訓練了一個名為 ChatGPT 的模型,它以對話方式進行交互。對話格式使 ChatGPT 可以回答后續問題、承認錯誤、挑戰不正確的前提并拒絕不適當的請求。ChatGPT 是InstructGPT的兄弟模型,它經過訓練可以按照提示中的說明進行操作并提供詳細的響應。
ChatGPT 使用與 InstructGPT 相同的方法,使用來自人類反饋的強化學習 (RLHF) 來訓練該模型,但數據收集設置略有不同。ChatGPT 使用監督微調訓練了一個初始模型:人類 AI 訓練員提供對話,他們在對話中扮演雙方——用戶和 AI 助手,讓培訓師可以訪問模型編寫的建議,以幫助他們撰寫回復。
收起
點評