解密！GPT-4的架構和訓練細節機密外洩？！

由於OpenAI 為了保持在大型語言模型的競爭優勢，一直沒有公開GPT4 的技術細節，因此業界對GPT4 的模型一直有許多不一樣謠言

在今年年初GPT4 還未公開時，就有人傳言GPT4 的參數將達到 100萬億，不但比原本已知的GPT3 的參數 (1,750億) 要大了將近500倍以上，更宣稱該模型不但通過圖靈測試，其智商也與常人一般。但隨後OpenAI CEO Sam Altman 就打臉了這個謠言。

而後在六月的時候，知名駭客 George Hotz 宣稱他發現GPT4 是由 8個2,200 億參數的混合模型所組成，雖然沒有收到官方的證實或打臉，但利用8個模型堆疊起來的GPT4 比起一開始謠傳的 100萬億參數模型，就顯得沒有那麼酷了。

如今半導體研究公司SemiAnalysis首席分析師Dylan Patel 及 Gerald Wong，在新的電子報披露了GPT-4 可能的技術細節。

架構：GPT-4 比 GPT-3 大 10 倍以上，擁有大約 1.8 萬億個參數。它使用了 16 個專家模型，每個模型約有 1110 億個參數。

訓練：在訓練 GPT-4 時，OpenAI 先訓練它理解長度為 8k 的文本，然後再微調成能理解長度為 32k 的文本。

成本：GPT-4 的訓練運算量非常大，需要使用約 25,000 個 A100 GPU 進行 90 至 100 天的訓練。在雲端訓練的成本大約是每小時每 A100 花費 1 美元。推估訓練 GPT-4 的總成本將高達 6300 萬美元。

推理：推理運算是在一個由 128 個 GPU 組成的集群上運行。GPT-4 進行推理的成本是一個叫做 Davinchi 的模型的 3 倍，這主要是因為 GPT-4 需要更大的硬體支持，因此每處理 1K 的文本字符需要花費約 0.0049 美元。

視覺：GPT-4 加入視覺多模態功能，讓模型可以理解圖像，並且在原本的模型之上增加了更多的參數。這部分在訓練時除了文本數據外，也使用了大量的圖像（如 LaTeX、網頁截圖、YouTube 影片）。

其他：有關 GPT-4 品質下降的傳聞，可能只是因為在某些情況下，GPT-4 會選擇較低機率的答案。

這些細節雖然尚未證實，但從架構與成本來看，要建立一個像 GPT-4 這樣的模型，公司需要有足夠的資本，還需要一個龐大的團隊，包括研究人員、工程師、開發人員等，才有辦法實現這個模型。因此，任何想投入類GPT-4的公司都需要先進行深入的分析和評估，才能確定可行性。