2天訓練出15億參數大模型：國產開源項目力克英偉達Megatron-LM

2022-01-23 19:34 來源:IT之家作者:文輝閱讀量：11537

大中小加入收藏夾

暫無評論

，當今 AI 之勢，影響縱深發展的矛盾是什么。

一方面，大模型風頭正勁，效果驚艷，人人都想試試但另一方面，硬件基礎上動不動就是上萬張 GPU 的大規模集群在日夜燃燒，鈔能力勸退

所以如果告訴你，現在只用一半數量的 GPU，也能完成同樣的 GPT—3 訓練呢。

你會覺得關鍵鑰匙是什么。

不賣關子了實現如此提升的，是一個名為 Colossal—AI 的 GitHub 開源項目

而且該項目開源不久，就迅速登上了 Python 方向的熱榜世界第一。。

GitHub 地址:點擊打開

不僅能加速 GPT—3，對于 GPT—2，ViT，BERT 等多種模型，Colossal—AI 的表現也都非常 nice:

比如半小時左右就能預訓練一遍 ViT—Base / 32，2 天能訓完 15 億參數 GPT 模型，5 天可訓完 83 億參數 GPT 模型。

與業內主流的 AI 并行系統 —— 英偉達 Megatron—LM 相比，在同樣使用 512 塊 GPU 訓練 GPT—2 模型時，Colossal—AI 的加速比是其 2 倍而在訓練 GPT—3 時，更是可以節省近千萬元的訓練費用

此外在訓練 GPT—2 時，顯存消耗甚至能控制在 Megatron—LM 的十分之一以下。但有些車企對此過于謹慎，以至于設計之初電池緩沖區過大，變相降低了車輛的續航能力。奧迪就是其中之一。

Colossal—AI 究竟是如何做到的。

老規矩，我們從論文扒起。

高效 6 維并行方法

簡單來說，Colossal—AI 就是一個整合了多種并行方法的系統，提供的功能包括多維并行，大規模優化器，自適應任務調度，消除冗余內存等。

首先來看多維并行。

所謂多維是指，目前主流的分布式并行方案往往使用多種并行方法。

比如英偉達的 Megatron—LM 使用了 3 種方法:數據并行，流水并行和張量并行因此這種模式也被稱為三維并行微軟的 DeepSpeed 調用 Megatron—LM 作為并行基礎

而 Colossal—AI 能將系統的并行維度，一下子拉升到 6 維 ——

在兼容數據并行，流水并行的基礎上，基于該項目團隊自研的 2 維 / 2.5 維 / 3 維張量并行方法，以及序列并行實現。這次軟件更新的原因是，一些傳統汽車廠商在自己推出的第一款或第一款純電動汽車的電池組上，普遍有一個冗余電池作為緩沖，旨在抵御日常使用中電池的損耗。

其中，高維張量并行正是 Colossal—AI 提升大模型顯存利用率和通信效率的關鍵所在。

其實張量并行并不新奇，只是過去我們常見的張量并行更多都是基于一維的。

它的原理是將模型層內的權重參數按行或列切分到不同的處理器上，利用分塊矩陣乘法，將一個運算分布到多個處理器上同時進行。

比如英偉達的 Megatron—LM 就是一個典型的例子。

但這種并行方式存在一定弊端。

比如，每個處理器仍需要存儲整個中間激活，使得在處理大模型時會浪費大量顯存空間。

另一方面，這種單線方法還會導致每個處理器都需要與其他所有處理器進行通信。

這意味著假設有 100 個 GPU 的話，每個 GPU 都需要與其他 99 個 GPU 通信，每次計算需要通信的次數就高達 9900 次。

但如果將張量并行的維度擴展到 2 維，單次計算量能立刻下降一個量級。

因為每個 GPU 只需與自己同行或同列的 GPU 通信即可。

同樣還是 100 個 GPU 的情況，每個 GPU 需要通信的 GPU 個數就能降到 9 個，單次計算僅需 900 次。

實際上在此基礎上，Colossal—AI 還包含 2.5 維，3 維張量并行方法，可以進一步降低傳輸成本。

相較于 2 維并行方法，2.5 維并行方法可提升 1.45 倍效率，3 維方法可提升 1.57 倍。

值得一提的是，Colossal—AI 的 API 接口是可以定制的，這使得它可以便捷添加新的并行維度。

其次，大規模優化器也是 Colossal—AI 的亮點。

上面我們也提到了，在分布式并行系統中會使用多種并行方法，數據并行則是另一種常見方法。

這種方法的原理不難理解，就是把訓練數據劃分成若干份，讓不同的機器運算不同的數據，然后通過一個參數服務器收集目標數據。

由此可以大幅提升 AI 模型訓練過程中的批量大小，加速訓練過程。

不過大批量訓練有個通病，就是會產生泛化誤差，導致網絡泛化能力下降，進而導致 AI 模型準確度下降。

所以，Colossal—AI 在系統中使用了自研的 LAMB，LARS 等大規模優化器在保證訓練精度的情況下，還將批大小從 512 擴展到 65536

其中，LARS 優化器是通過逐層調整學習率，來減少因為學習率導致的無法收斂情況。

LAMB 優化器則是在 LARS 的基礎上，將逐層調整學習率的思想應用到自適應梯度上。

由此，LAMB 能夠很好解決此前 LARS 在 BERT 訓練中存在差異的問題，最大批量達到了 64K。

此前，LAMB 優化器曾成功將預訓練一遍 BERT 的時間，從原本的三天三夜縮短到一個多小時。

第三方面，Colossal—AI 使用自適應可擴展調度器來高效處理任務。

與現有常見的任務調度器不同，Colossal—AI 不是靜態地通過 GPU 個數來判斷任務規模，而是根據批大小來動態，自動管理每個任務.

通過演化算法，該任務調度器還能不斷優化調度決策，更大程度提升 GPU 利用率。

評估結果表明，與當前最先進的方法相比，該方法在平均 JCT上能夠縮短 45.6% 的時間，優于現有的深度學習任務調度算法。

此外，這種自適應可擴展調度器還能通過 NCCL 網絡通信實現高效的任務遷移。

最后，消除冗余內存也是加速 AI 訓練的一種解決思路。

在這方面，Colossal—AI 使用了 zero redundancy optimizer 技術。

這種方法主要通過切分優化器狀態，梯度，模型參數，使 GPU 僅保存當前計算所需的部分，從而來消除數據并行，模型并行中存在的內存冗余。

尤其是在部署模型推理時，通過 zero offload 可以將模型卸載到 CPU 內存或硬盤，僅使用少量 GPU 資源，即可實現低成本部署前沿 AI 大模型。

綜上不難看出，在技術層面 Colossal—AI 的加速效果非常明顯。

而在應用層面，Colossal—AI 的設計也顧及了能耗問題和易用性兩個維度。

另一方面，作為一個開源給所有人使用的系統，Colossal—AI 的使用門檻不高，即便是沒有學習過分布式系統的人也能上手操作。

同時，只需要極少量的代碼改動，Colossal—AI 就能將已有的單機代碼快速擴展到并行計算集群上。

性色αv/久草社区/日本大肚子孕妇ⅹxx激情/荔枝成视频片在线播放 - chinese性老太bbw

2天訓練出15億參數大模型：國產開源項目力克英偉達Megatron-LM