首頁 行業(yè) 活動 項目 快訊 文娛 時尚 娛樂 科技 汽車 綜合 生活

陳天奇等人新作引爆AI界:手機原生跑大模型,算力不是問題了

2023-05-02 15:02:14 來源:機器之心公眾號

聲明:本文來自于微信公眾號 機器之心,授權站長之家轉載發(fā)布。


(資料圖片僅供參考)

從此,大模型可以在任何設備上編譯運行。

「我把大語言模型下到我的 iPhone 上,它神奇地跑起來了!」

五一假期還沒過半,大模型領域的技術就已經發(fā)展到了這種程度。

對于陳天奇等人開源的新技術,大家一致的評論是「Amazing」。

最近人們都在研究 ChatGPT,大語言模型(LLM)徹底改變了科技領域的格局,但對于 AI 開發(fā)者來說,并不是人人都有上萬塊 A100的。為了跑得起大模型,就要尋找各種優(yōu)化方法。

在讓大模型變小這條路上,人們做了很多嘗試,先是 Meta 開源了 LLaMA,讓學界和小公司可以訓練自己的模型。隨后斯坦福研究者啟動了 Lamini,為每個開發(fā)者提供了從 GPT-3到 ChatGPT 的快速調優(yōu)方案。

最近這個叫 MLC LLM 的項目可謂一步登天,因為它能讓你「在任何設備上編譯運行大語言模型。

MLC LLM 為我們在各類硬件上原生部署任意大型語言模型提供了解決方案,可將大模型應用于移動端(例如 iPhone)、消費級電腦端(例如 Mac)和 Web 瀏覽器。

該項目是由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陳天奇等多位研究者共同開發(fā)的,參與者來自 CMU、華盛頓大學、上海交通大學、OctoML 等院校機構,同時也獲得了開源社區(qū)的支持。

項目地址:https://github.com/mlc-ai/mlc-llm

Demo:https://mlc.ai/mlc-llm/

借助 MLC LLM 方案,我們可以在移動端部署和運行大型語言模型,例如在 iPhone 上運行聊天機器人:

在 Web 瀏覽器上運行聊天機器人:

當然,在 Windows 和 Linux 上本地運行也是肯定可以的,聊天機器人應用程序能通過 Vulkan 平臺在 GPU 上運行:

MLC-LLM 推出不到兩天,GitHub 的 Star 量已經接近一千。在社交網絡上人們紛紛點贊,表示 MLC-LLM 讓我領教了低精度跑 AI 的可怕程度:

也有人曬出了自己的使用體驗,iPhone 飛行模式本地跑大語言模型:

簡單來說,MLC LLM 是一種通用解決方案,它允許將任何語言模型本地部署在各種硬件后端和本地應用程序上。此外,MLC LLM 還提供了一個高效的框架,供使用者根據(jù)需求進一步優(yōu)化模型性能。

MLC LLM 旨在讓每個人都能在個人設備上本地開發(fā)、優(yōu)化和部署 AI 模型,而無需服務器支持,并通過手機和筆記本電腦上的消費級 GPU 進行加速。具體來說,MLC LLM 支持的平臺包括:

iPhone

Metal GPU 和英特爾 / ARM MacBook;

在 Windows 和 Linux 上支持通過 Vulkan 使用 AMD 和 NVIDIA GPU;

在 Windows 和 Linux 上 通過 CUDA 使用 NVIDIA GPU;

瀏覽器上的 WebGPU(借助 MLC LLM 的配套項目 Web LLM)。

項目概覽

為了實現(xiàn)在各類硬件設備上運行 AI 模型的目標,研究團隊首先要解決計算設備和部署環(huán)境的多樣性問題,主要挑戰(zhàn)包括:

支持不同型號的 CPU、GPU 以及其他可能的協(xié)處理器和加速器;

部署在用戶設備的本地環(huán)境中,這些環(huán)境可能沒有 python 或其他可用的必要依賴項;

通過仔細規(guī)劃分配和積極壓縮模型參數(shù)來解決內存限制。

MLC LLM 提供可重復、系統(tǒng)化和可定制的工作流,使開發(fā)人員和 AI 系統(tǒng)研究人員能夠以 Python 優(yōu)先的方法實現(xiàn)模型并進行優(yōu)化。MLC LLM 可以讓研究人員們快速試驗新模型、新想法和新的編譯器 pass,并進行本地部署。

原生部署

為了實現(xiàn)原生部署,研究團隊以機器學習編譯(MLC)技術為基礎來高效部署 AI 模型。MLC LLM 借助一些開源生態(tài)系統(tǒng),包括來自 HuggingFace 和 Google 的分詞器,以及 LLaMA、Vicuna、Dolly 等開源 LLM。

MLC LLM 的主要工作流基于 Apache TVM Unity,通過擴展 TVM 后端使模型編譯更加透明和高效。

Dynamic shape:該研究將語言模型烘焙(bake)為具有原生 Dynamic shape 支持的 TVM IRModule,避免了對最大輸入長度進行額外填充的需要,并減少了計算量和內存使用量。

可組合的 ML 編譯優(yōu)化:MLC LLM 可以執(zhí)行許多模型部署優(yōu)化,例如更好的編譯代碼轉換、融合、內存規(guī)劃和庫卸載(library offloading),并且手動代碼優(yōu)化可以很容易地合并為 TVM 的 IRModule 轉換,成為一個 Python API。

量化:MLC LLM 利用低位量化來壓縮模型權重,并利用 TVM 的 loop-level TensorIR 為不同的壓縮編碼方案快速定制代碼生成。

運行時(Runtime):TVM 編譯生成的庫能夠通過 TVM runtime 在設備的原生環(huán)境中運行,TVM runtime 支持 CUDA/Vulkan/Metal 等主流 GPU 驅動以及 C、JavaScript 等語言的綁定。

此外,MLC 還為 CUDA、Vulkan 和 Metal 生成了 GPU shader,并通過 LLVM 支持多種 CPU,包括 ARM 和 x86。通過改進 TVM 編譯器和運行時,使用者可以添加更多支持,例如 OpenCL、sycl、webgpu-native。

MLC-LLM 的發(fā)布讓我們再次感受到了陳天奇 TVM 的力量。陳天奇是機器學習領域知名青年學者,2019年任卡耐基梅隆大學機器學習、計算機科學系助理教授。早在2017年,他和他的同時開源了著名深度學習框架 TVM,對業(yè)界產生了深遠的影響。利用這一工具,機器學習算法可以自動編譯成可供下層硬件執(zhí)行的機器語言,從而可以利用多種類型的算力。

在人們的努力下,我們或許很快就能看到云 + 端側分別部署大模型的下一代應用。

參考鏈接:

https://zhuanlan.zhihu.com/p/625959003

https://mlc.ai/mlc-llm/

https://mlc.ai/web-llm/

https://github.com/mlc-ai/web-llm/tree/main

(舉報)

關鍵詞:

上一篇:環(huán)球熱訊:自己家如何孵化小雞?簡單實用四種農村孵化小雞土方法!

下一篇:最快下個月!欠債31.4萬億 美國史上首次債務違約?拜登急了:馬上開會談|環(huán)球今日訊

責任編輯:

最近更新

點擊排行
推薦閱讀