[AI新聞] GPT-4 以多模態模型改寫通用人工智慧新篇章
OpenAI 如破曉的曙光般宣告 GPT-4 的誕生
今天(3/15), OpenAI 重磅宣佈推出 GPT-4 !相關的消息其實已經成為各大媒體熱議的焦點,所以不再贅述相關細節, GPT-4 的特點概括如下:
-
1. 可以產生較 GPT3.5 更加可靠、更富有創意的輸出
-
2. 一樣還是會一本正經的胡說八道,但這次經過多方調教以後,該模型會比GPT3.5 更加社會化
-
3. 在各種專業和學術基準測試中, GPT-4 表現出人類水平的實力,輕鬆擊敗一票類似的大型語言模型(包含 Google 之前推出的 PaLM,3/14 Google 推出的是 PaLM-E )
-
4. 未來會提供 API (提示詞的計價為0.03美元/1,000 Token,回覆詞的計價為0.06美元/1,000 Token)
-
5. ChatGPT Plus 用戶可每四小時呼叫 GPT-4 達100次
-
6. 要使用GPT-4 API 的開發者可以線上登記 GPT-4 API waitlist
簡而言之,如眾人所料,全新的 GPT-4 成為了更強大、更可靠的語言模型。這次真正令人矚目的亮點是 GPT-4 不再局限於語言模型的範疇,而是以大型多模態模型的姿態揭示無窮潛能。除了文字輸入外,他還可以接受圖像輸入,因此在展示會中, OpenAI 示範了如何將一張手繪圖輕鬆轉化為網頁,並在官網上展示了 GPT-4 如何深刻洞悉一組圖片中的趣味,並巧妙地用文字呈現。正是這種多模態模型,讓通用人工智慧邁向了一大重要的里程碑!
GPT4 理解迷因圖的笑點
GPT4 可以將手繪圖轉換成網頁
通用人工智慧里程碑
在人工智慧嶄露頭角之時,監督式學習成為主宰,意味著要讓電腦洞悉圖像中的物件,需要先借助大量的"工人"智慧,透過眾多人工標記員的精心標註,方能打造一個專屬的圖像識別模型。在電腦視覺領域,這種學習方法取得了驚人的突破。2015年,孫劍領導的亞洲微軟研究院團隊憑藉著 ResNet 152層深度的神經網路,在ImageNet 大賽以僅僅3.5%的錯誤率擊敗眾多對手,該錯誤率甚至低於人眼判斷的5.1%。
儘管深度學習在電腦視覺領域擊敗了人類,但在自然語言處理(文字探勘)和語音識別方面一直受限,因為自然語言的結構複雜、標記困難以及標記量有限,使得傳統的監督式學習難以適用於這兩個領域。然而,ChatGPT 的橫空出世翻轉了這一局面。它利用自我監督式學習從大量非結構化資料中自問自答,隨後通過監督式學習微調(Fine-Tuning),最後運用強化學習學習人類回饋(RLHF),使得大語言模型(LLM)成為了自然語言處理的無敵利器。GPT 的誕生絕非偶然, OpenAI 團隊僅用六個月的時間便從零打造出 GPT-4 ,證明他們已掌握訓練大語言模型的關鍵技巧。只要數據量足夠大、計算力強大,他們便能訓練出更為可靠、更為強大的模型。
過去,討論人工智慧模型時,通常針對特定領域發展專屬模型,意味著視覺模型只能應對視覺問題,語言模型僅能處理語言問題,所有模型都局限於專用人工智慧階段,距離通用人工智慧仍有很大的差距。然而, GPT-4 的出現改變了這一現狀。它不僅能夠處理文字內容,還能應對圖像輸入並完全理解圖片中的含意,這無疑是通往通用人工智慧的重大突破。它不僅宣告多模態模型時代的來臨,更意味著僅在大型語言模型賽道上競爭顯得過於陳舊。此外, OpenAI 擁有眾多秘密武器,如 GPT-4 (文字生文字,圖像生文字)、DALL-E(文字生圖像)和 Whisper(語音生文字)等。不難想像,在不久的將來, OpenAI 的通用人工智慧模型將能同時理解圖片、文字和語音,甚至能像翻譯麻糬一般,實現機器間對不同格式資料的交流,從而開創智慧新紀元。