解密!GPT-4的架構和訓練細節機密外洩?!
由於OpenAI 為了保持在大型語言模型的競爭優勢,一直沒有公開GPT4 的技術細節,因此業界對GPT4 的模型一直有許多不一樣謠言
在今年年初GPT4 還未公開時,就有人傳言GPT4 的參數將達到 100萬億,不但比原本已知的GPT3 的參數 (1,750億) 要大了將近500倍以上,更宣稱該模型不但通過圖靈測試,其智商也與常人一般。但隨後OpenAI CEO Sam Altman 就打臉了這個謠言。
而後在六月的時候,知名駭客 George Hotz 宣稱他發現GPT4 是由 8個2,200 億參數的混合模型所組成,雖然沒有收到官方的證實或打臉,但利用8個模型堆疊起來的GPT4 比起一開始謠傳的 100萬億參數模型,就顯得沒有那麼酷了。
如今半導體研究公司SemiAnalysis首席分析師Dylan Patel 及 Gerald Wong,在新的電子報披露了GPT-4 可能的技術細節。
技術細節如下
架構:GPT-4 比 GPT-3 大 10 倍以上,擁有大約 1.8 萬億個參數。它使用了 16 個專家模型,每個模型約有 1110 億個參數。
訓練:在訓練 GPT-4 時,OpenAI 先訓練它理解長度為 8k 的文本,然後再微調成能理解長度為 32k 的文本。
成本:GPT-4 的訓練運算量非常大,需要使用約 25,000 個 A100 GPU 進行 90 至 100 天的訓練。在雲端訓練的成本大約是每小時每 A100 花費 1 美元。推估訓練 GPT-4 的總成本將高達 6300 萬美元。
推理:推理運算是在一個由 128 個 GPU 組成的集群上運行。GPT-4 進行推理的成本是一個叫做 Davinchi 的模型的 3 倍,這主要是因為 GPT-4 需要更大的硬體支持,因此每處理 1K 的文本字符需要花費約 0.0049 美元。
視覺:GPT-4 加入視覺多模態功能,讓模型可以理解圖像,並且在原本的模型之上增加了更多的參數。這部分在訓練時除了文本數據外,也使用了大量的圖像(如 LaTeX、網頁截圖、YouTube 影片)。
其他:有關 GPT-4 品質下降的傳聞,可能只是因為在某些情況下,GPT-4 會選擇較低機率的答案。
這些細節雖然尚未證實,但從架構與成本來看,要建立一個像 GPT-4 這樣的模型,公司需要有足夠的資本,還需要一個龐大的團隊,包括研究人員、工程師、開發人員等,才有辦法實現這個模型。因此,任何想投入類GPT-4的公司都需要先進行深入的分析和評估,才能確定可行性。