如何利用人工智能幫你做事:工具選擇指南

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:生成式人工智能的發展可以用日新月異來形容,層出不窮的工具令人眼花繚亂,出現選擇困難癥。ChatGPT 盡管名聲最響,但什么事情都用它來做未必是最合適選項。這里對人工智能可以做的事情進行了分類,并給出了免費和付費的最佳工具選項,希望能幫到你。文章來自編譯。
越來越強大的人工智能系統層出不窮,發布的速度越來越快。最近,Claude 2 首次亮相,這也許是公眾可用的第二強大人工智能系統。一周之前,Open AI 發布了 Code Interpreter,這是迄今為止最嫻熟的人工智能模式。在這的一周前,部分人工智能還獲得了看懂圖像的能力。
可是,似乎沒有一家人工智能實驗室提供任何的用戶文檔。相反,唯一的用戶指南似乎是 Twitter 上面那幫網紅大V的推文串(treads)。對于聲稱關心自身技術是否得到正確使用的組織來說,靠小道消息傳播的文檔是個奇怪選擇,但現實情況就是這樣。
我不敢說這份用戶指南已經很全,但為了解人工智能的當前狀態提供一些指導還是可以的。我每隔幾個月就會為我的學生(以及感興趣的讀者)編寫一份人工智能入門指南,而且每次都需要做出重大修改。但過去幾個月尤其瘋狂。
這份指南是基于我的經驗,純屬個人之見,重點是如何選擇正確的工具來完成任務。
主要的大語言模型
現在,當我們說起人工智能時,我們通常指的是大型語言模型(LLM)。大多數人工智能應用都是由 LLM 提供支持,而 LLM 當中其實基礎模型就那么幾個,是由少數幾家組織建立的。每家公司都可以通過聊天機器人(Chatbot)直接訪問他們的模型:OpenAI 做出了 GPT-3.5 與 GPT-4, ChatGPT 以及微軟的 Bing(通過 Edge 瀏覽器訪問)背后用的就是這些模型。 谷歌的 Bard 品牌旗下也有多款模型。Anthropic 則建立了Claude 與 Claude 2 模型。
還有其他一些 LLM,但本文不會詳細討論。第一個是 Pi,這是由 Inflection 構建的聊天機器人。Pi 針對對話進行了優化,并且確實非常想成為你的朋友(說真的,不妨嘗試一下,試過你才知道我是什么意思)。除了聊天之外,它不喜歡做太多事情,想讓它替你工作會是一次令人沮喪的練習。我們也不會介紹任何人都可以使用和修改的各種開源模型。這些通常無法訪問,或者對于今天那些只是想隨便用用的用戶來說沒有什么用,但其實那些模型確實很有前景。未來的指南可能把它們納入進去。
下面是一份快速參考圖表,總結了 LLM 的現狀:
前四個(包括 Bing 在內)都是 OpenAI 的系統。目前 OpenAI 的人工智能主要就這兩種:3.5 和 4。GPT 3.5 在去年 11 月掀起了一股人工智能熱潮,GPT 4在今年春季首次亮相,功能更加強大。新的派生版利用通過插件介入互聯網及其他應用。插件有很多,但大多數不是很有用,不過應該根據需要自己去探索一下。 Code Interpreter 是 ChatGPT 的一個極其強大的版本,可以運行 Python 程序。如果你從未給 OpenAI 付過費,那么你就只用過 3.5。除了插件版以及暫時停止瀏覽的 GPT-4 版以外,這些模型都沒有連接到互聯網。微軟的 Bing 混合使用了 4 和 3.5,并且通常是 GPT-4 家族當中第一個推出新功能的模型。比方說,Bing 既可以創建和識別圖像,也可以在web瀏覽器中讀取文檔。它已經接入了互聯網。Bing 用起來有點奇怪,但功能強大。
谷歌一直在測試自己的供消費者使用的人工智能,也就是所謂的 Bard,但其實 Brad 背后由各種基礎模型提供支持,其中最近的一個叫做 PaLM 2。LLM 技術就是由谷歌開發出來的,但他們的產品非常令人失望,不過昨天公布的改進表明他們仍在致力于研究底層技術,所以我對他們仍保有希望。Brad 已經獲得了跑有限代碼與解釋圖像的能力,但我現在一般會避免使用 Bard。
最后一家公司是 Anthropic ,他們發布了 Claude 2。Claude 最值得注意的是它的上下文窗口非常大- 即便上算是 LLM 的內存了。Claude 的內存幾乎可以容納整本書或許多個 PDF。與其他大型語言模型相比,其惡意行為的可能性更小,這意味著,它可能只會訓斥你一下。
接下來,我們講講怎么用:
寫東西
最佳免費選項:Bing 與 Claude 2
付費選項:ChatGPT 4.0/帶插件的 ChatGPT
目前,GPT-4 仍然是最強大的人工智能寫作工具,你可以通過 Bing 免費訪問(選擇“創意模式”),也可以通過每月花 20 美元訂閱 ChatGPT 來訪問。不過,第二名的Claude差距并不大,而且有免費選項,盡管存在限制。
這些工具也已被直接集成到常見的辦公應用之中。 Microsoft Office 將納入由 GPT 提供支持的copilot,Google Docs 將集成 Bard 的建議。這些創新對寫作的影響會相當深遠。
以下是利用人工智能幫助你寫作的部分方法。
-
寫草稿,任何東西的草稿。博客文章、論文、宣傳材料、演講、講座、選擇你自己的冒險、腳本、短篇故事——只要你能想得到,人工智能都能做到,而且做得很好。你所要做的就是給它提示。提示制作并不神奇,但基本的提示會導致寫出來的東西很無聊,不過提高提示的水平并不難,只需與系統交互即可。只要稍加練習,你就會發現人工智能系統當作家的能力要強得多。
-
讓你寫得更好。把你的文本粘貼給人工智能。讓人工智能改進內容,或者讓人工智能給出建議,看看怎么更好地適合特定受眾。讓它寫出 10 份風格截然不同的草稿。要求人工智能把文字變得更生動,或者添加例子。用它來激發靈感,讓你寫更好。
-
幫助你完成任務。人工智能可以做你沒有時間做的事情。像實習生一樣使用人工智能,讓它撰寫電子郵件、創建銷售模板、為你提供商業計劃的后續步驟等等。比方說我曾在人工智能的幫助下在 30 分鐘內完成了產品發布的各種支持工作。
-
解鎖你自己。面對挑戰艱巨的任務很容易讓人分心。人工智能是為你提供動力的手段之一。
不同模型生成效果對比
需要擔心的一些事情:為了響應你的請求,人工智能很容易會產生“幻覺”并生成看似合理的事實。它可以生成完全虛假且看似完全令人信服的內容。我要強調的是:人工智能經常撒謊。它告訴你的每一個事實或信息都有可能是不對的。你需要檢查一切。讓人工智能(指未連接到互聯網的模型)提供參考文獻、引言、引用以及互聯網信息尤其危險。與其他模型相比,Bing 產生幻覺的情況往往要少一些,因為 GPT-4 生成的東西通常有事實依據,而Bing 接入互聯網意味著實際上它可以獲取事實。但幻覺不可能完全消除。
另外要注意的是,人工智能沒法解釋自己,它只會讓你認為它可以做出解釋。如果你要求它解釋為什么寫出了這樣的東西,它會給你一個看似合理但卻是完全虛構的答案。當你詢問它的思維過程時,它并不是去詢問自己的行為,那只是在生成看上去像是它正在這樣做的文本。這使得理解系統存在的偏見變得非常具有挑戰性,盡管這些偏見幾乎肯定是存在的。
它還可能被人不道德地用于操縱或欺騙。你要對這些工具的輸出負責。
圖像制作
最透明的選項:Adobe Firefly
開源選項:Stable Diffusion
最佳免費選項:Bing 或 Bing Image Creator(使用 DALL-E)、 Playgound (可使用多個模型)
圖像質量最佳的選項:Midjourney
可供大多數人使用的大型圖像生成器有四種:
-
Stable Diffusion,這個工具是開源的,任何一款高端的計算機都能跑。開始要付出一些努力,因為你得學會正確地寫出提示,但一旦你能寫出好的提示,就會生成很好的結果。這個特別適合將人工智能與其他來源的圖像相結合。如果你選擇Stable Diffusion,這里有一份很好的指南(請務必閱讀第 1 部分和第 2 部分:https://www.jonstokes.com/p/stable-diffusion-20-and-21-an-overview)。
-
DALL-E,來自 OpenAI,Bing(必須是在創意模式下)以及 Bing Image Creator已經植入了DALL-E。這個系統很可靠,但比Midjourney要差一些。
-
截止2023年中,Midjourney是表現最好的系統。它的學習曲線在所有系統當中是最低的:只需輸入“thing-you-want-to-see --v 5.2”(最后的 --v 5.2 很重要,這會提示人工智能采用最新的模型),你就會得到一個很好的結果。Midjourney需要通過Discord 使用。這里是 Discord 的使用指南。
-
Adobe Firefly,已內置到多款 Adobe 產品之中,但在質量方面落后于 DALL-E 和Midjourney 。不過,其他那兩個模型并未交代清楚用于訓練人工智能的圖像來源,但 Adobe 已聲明自己僅使用其有權使用的圖像。
以下是這幾款工具的對比(每個圖像都標記了用什么模型):
提示:“Fashion photoshoot of sneakers inspired by Van Gogh”——每個模型創作的第一張照片
需要擔心的一些事情:這些系統是圍繞著模型構建出來的,但這些模型會存在偏見,因為用來訓練模型的互聯網數據存在偏見(比方說,如果你讓它創建企業家的圖片,你可能會看到更多以男性而不是女性為主角的圖片,除非你指定要創建“女性企業家”),用這個瀏覽器(https://huggingface.co/spaces/society-ethics/DiffusionBiasExplorer)可以看看實際存在哪些偏見。
這些系統還使用了互聯網上的藝術來進行訓練,但卻是以不透明且可能在法律和道德上存在問題的方式進行訓練的。盡管從技術上而言,你擁有所創建圖像的版權,但法律規定仍然模糊。
另外,目前這些模型是不創建文本的,只是創建了一堆看起來像文本的東西。但Midjourney已經成功了。
提出想法
最佳免費選擇:Bing
付費選項:ChatGPT 4.0,但由于有互聯網連接,Bing 可能更好
盡管(或者事實上,由于)人工智能存在諸多限制和怪異之處,但仍然非常適合生成點子。你經常需要有很多想法才能想出好想法,而人工智能擅長以量取勝。通過提供正確的提示,你還可以迫使它變得非常有創意。在創意模式下要求 Bing 找出你最喜歡的,不同尋常的創意生成技術,比方說 Brian Eno 的間接策略(oblique strategies)或馬歇爾·麥克盧漢(Mashall McLuhan) 的四分法,并應用它們。或者要求提供一點很奇怪的東西,比如隨便拿個專利來獲得靈感,或者你最喜歡的超級英雄......
制作視頻
最佳動畫工具:D- iD ,用于為視頻里面的臉部制作動畫。 Runway v2 可用于文本生成視頻
最佳聲音克隆: ElevenLabs
現在,生成這樣一段視頻已經是小事一樁:包含完全由人工智能生成的角色、去讀完全由人工智能編寫的腳本、用人工智能制作的聲音說話、由人工智能制作動畫,這些通通沒問題。它還可以對人進行深度偽造。
第一個商用的文本生成視頻工具最近也發布了,也就是Runway v2。它可以創建 4 秒的短片,所以這更多的是對未來的可能性的一種演示,但如果你想了解這個領域將來會如何發展的話,值得一看。
需要擔心的一些事情:深度偽造是一個大問題,這些系統需要以合乎道德的方式去使用。
處理文檔和數據
對于數據(以及對代碼有任何奇怪想法):Code Interpreter
文檔處理: 大型文檔或同時處理多個文檔可用Claude 2,Bing 側邊欄可用于小一點的文檔和網頁(側邊欄屬于Edge 瀏覽器的一部分,可以“查看”瀏覽器里面的內容,讓 Bing 處理相關信息,不過其上下文窗口的大小有限)
我上周寫了一篇關于Code Interpreter的文章。它是 GPT-4 的其中一種模式,在這種模式下,你可以上傳文件給該人工智能,去編寫和運行代碼,還可以下載該人工智能提供的結果。它可以用來執行程序、進行數據分析(盡管你需要對統計數據和數據有足夠了解才能檢查它做得好不好)以及創建各種文件、網頁甚至游戲。盡管自發布以來,關于未經訓練的人用它進行分析的相關風險存在很多爭論,但許多測試過 Code Interpreter 的專家都對它的能力印象深刻,以至于一篇論文聲稱這個東西會要求我們改變培訓數據科學家的方式。我還編寫了初始提示來設置Code Interpreter,好做出有用的數據可視化。初始提示給出了良好圖表設計的一些基本原則,并提醒它可以輸出多種文件。鏈接參見此處https://t.co/m4yAdKROiJ。
至于文本處理,尤其是 PDF的處理,Claude 2 到目前為止表現非常出色。我試過將整本書粘貼到以前版本的 Claude 里,效果令人印象深刻,而且新模型更加強大。我還喂給它大量復雜的學術文章并要求它給出結果摘要,它做得很好!甚至更好的是,你還可以提出后續問題,比方說:這個方法的證據是什么?作者得出了什么結論?等等…
需要擔心的一些事情:這些系統仍然會產生幻覺,盡管是以更為受限的方式出現。如果你想確保準確性,就得檢查生成的結果。
獲取信息及學習東西
最佳免費選擇:Bing
付費選項:通常 Bing 是最好的。如果是兒童的話,可汗學院的Khanmigo提供了由 GPT-4 支持的人工智能學習輔導,效果不錯。
如果你打算把人工智能當作搜索引擎的話,我的建議是也許不要這樣做。產生幻覺的風險很高,而且大多數人工智能都沒有連接到互聯網(這就是為什么我建議你用 Bing。谷歌的人工智能 Bard 產生的幻覺更多)。不過,根據最近的一項試點研究,有部分證據表明,如果謹慎使用的話,相對于搜索,人工智能往往能提供更有用的答案。特別是在搜索引擎表現不太好的情況下,比方說技術支持、決定去哪里吃飯或獲取建議,以 Bing 作為起點往往要比用谷歌好。這是一個正在迅速發展的領域,但你現在應該小心使用。畢竟你不想惹上麻煩吧。
但更令人興奮的是利用人工智能來輔助教育的可能性,包括幫助我們自己學習。我已經寫過關于如何將人工智能用于教學并讓教師的生活變得更輕松、課程變得更有效的文章,但人工智能也可以用于自主學習。你可以讓人工智能解釋概念,一般可以獲得非常好的結果。鑒于我們知道人工智能可能會產生幻覺,所以明智的做法是(小心!)對照其他來源,仔細檢查任何的關鍵數據。
還有嗎?
正如過去幾個月的發展所表明的那樣,由于技術的快速發展,現在介紹的這些將來可能會變成你用過的最糟糕的人工智能工具。我毫不懷疑自己很快就需要制作一本新的指南。但關于人工智能,請記住這兩個關鍵點仍然是正確的:
-
人工智能是一種工具。但未必總是合適的工具。鑒于人工智能存在弱點,請仔細考慮它是否適合你計劃應用它的目的。
-
有很多道德問題需要注意。人工智能可能會被用來侵犯版權、作弊、竊取他人的作品或進行操縱。特定人工智能模型的開發方式以及誰從對它的使用中受益往往是個很復雜的問題,現階段還不是特別清楚。最終,你有責任以合乎道德的方式去使用這些工具。
我們正處于一場快速推進的革命的早期階段。你還有其他用途想分享嗎?請在評論中告訴我。
譯者:boxi。
