Google讓模型依任務學習路由,有效提高大型語言模型推理效率

Google在其最新的人工智慧研究,發表了一種用於加速大型模型推理的方法,也就是說,使用該方法,在模型擴大的情況下,推理的成本不會顯著增加,因此能繼續提供有效率的服務。

由於擴展大型語言模型,能夠使像是T5、GPT-3和M4這類語言模型的結果,獲得明顯的提升,因此在追求更高品質結果的目標下,研究人員無不盡可能擴展模型。建構更大模型的常用方法,通常是增加層數,或是增加層的維度,使模型更深更寬。

這類密集模型採用輸入序列,序列會被切分成更小的元件,稱為令牌(Tokens),這些令牌會傳遞給整個網路,活化每一層和參數。Google提到,雖然這些大型且密集的模型,在多自然語言處理任務上獲得很不錯的結果,但是訓練成本也會隨著模型規模線性增加。

因此為了降低成本,研究人員開始採用混合專家(Mixture of Experts,MoE)方法,建構稀疏活化模型。與密集模型方法不同之處,在於傳遞給網路的每個令牌,會藉由跳過部分的模型參數,依循被稱作專家的獨立子網路,藉此減少計算量。

而將輸入令牌分配給各子網路的決定,則由一個小型的路由網路決定,混合專家方法讓擴增模型大小所付出的成本,不會成比例地線性增加,進而提升效能。

最熱情、專業有口碑的網頁設計公司讓您的網站改頭換面。

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

透過選單樣式的調整、圖片的縮放比例、文字的放大及段落的排版對應來給使用者最佳的瀏覽體驗,所以不用擔心有手機版網站兩個後台的問題,而視覺效果也是透過我們前端設計師優秀的空間比例設計,不會因為畫面變大變小而影響到整體視覺的美感。

推薦評價好的iphone維修中心

擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢

但Google提到,雖然這是一個有效的訓練策略,但是將長序列令牌發送給多個專家,會再次使推理計算成本增加,因為專家會分散在大量的加速器中,像是1.2T參數的GLaM模型,就需要用到256個TPU-v3晶片。因此又會與密集模型遭遇到相同的問題,混合專家模型提供服務所需要的處理器數量,與模型大小成線性關係增加,因而增加計算需求,並導致明顯的通訊開銷和工程複雜度。

因此Google發展了一種成為TaskMoE的方法,在模型擴展的同時,仍然能夠有效率地提供服務。Google的方法是訓練一個大型多任務模型,並在推理時,丟棄每個任務未使用的專家,從中萃取出更小、獨立的任務子網路,能夠適用於推理,又不會損失模型品質,並且顯著降低推理延遲,與其他混合專家模型以及使用知識蒸餾壓縮(Distillation)的模型相比,Google證明,他們的方法在多語言神經機器翻譯方面更為有效。

Google比較TaskMoE、典型混合專家模型TokenMoE和基準密集模型的吞吐量和每秒解碼令牌數,TaskMoE模型比TokenMoE模型小達7倍,可以直接在單個TPU-v3晶片上運算,不需要像是TokenMoE使用64個TPU-v3晶片,且TaskMoE吞吐量峰值是TokenMoE的2倍,Google提到,TokenMoE模型花了25%的推理時間在裝置間的通訊,而TaskMoE幾乎沒有通訊成本。

以結果來看,在多語言翻譯任務中,TaskMoE模型的分數,硬是比經蒸餾的TokenMoE模型平均高了2.1 BLEU。

來源鏈接:https://www.ithome.com.tw/news/148927

想知道最厲害的網頁設計公司嚨底家!

RWD(響應式網頁設計)是透過瀏覽器的解析度來判斷要給使用者看到的樣貌

如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!

以設計的實用美學觀點,規劃出舒適、美觀的視覺畫面,有效提昇使用者的心理期待,營造出輕鬆、愉悅的網站瀏覽體驗。

推薦評價好的iphone維修中心

擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢

您可能也會喜歡…