亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Arm Ethos-U85 NPU部署小語(yǔ)言模型

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2025-01-20 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著人工智能 (AI) 的演進(jìn),人們對(duì)使用小語(yǔ)言模型 (SLM) 在嵌入式設(shè)備上執(zhí)行 AI 工作負(fù)載的興趣愈發(fā)高漲。

以下的演示展現(xiàn)了端點(diǎn) AI 在物聯(lián)網(wǎng)和邊緣計(jì)算領(lǐng)域的發(fā)展?jié)摿?。在此演示中,?dāng)用戶輸入一個(gè)句子后,系統(tǒng)將基于該句擴(kuò)展生成一個(gè)兒童故事。這項(xiàng)演示受到了微軟“Tiny Stories”論文和 Andrej Karpathy 的 TinyLlama2 項(xiàng)目的啟發(fā),TinyLlama2 項(xiàng)目使用了 2,100 萬(wàn)個(gè)故事來(lái)訓(xùn)練小語(yǔ)言模型生成文本。

該演示搭載了 Arm Ethos-U85 NPU,并在嵌入式硬件上運(yùn)行小語(yǔ)言模型。盡管大語(yǔ)言模型 (LLM) 更加廣為人知,但由于小語(yǔ)言模型能夠以更少的資源和較低的成本提供出色的性能,而且訓(xùn)練起來(lái)也更為簡(jiǎn)易且成本更低,因此越來(lái)越受到關(guān)注。

在嵌入式硬件上實(shí)現(xiàn)

基于 Transformer 的小語(yǔ)言模型

我們的演示展示了 Ethos-U85 作為一個(gè)小型低功耗平臺(tái),具備運(yùn)行生成式 AI 的能力,并凸顯了小語(yǔ)言模型在特定領(lǐng)域中的出色表現(xiàn)。TinyLlama2 模型相較 Meta 等公司的大模型更為簡(jiǎn)化,很適合用于展示 Ethos-U85 的 AI 性能,可作為端點(diǎn) AI 工作負(fù)載的理想之選。

為開(kāi)發(fā)此演示,我們進(jìn)行了大量建模工作,包括創(chuàng)建一個(gè)全整數(shù)的 INT8(和 INT8x16)TinyLlama2 模型,并將其轉(zhuǎn)換為適合 Ethos-U85 限制的固定形狀 TensorFlow Lite 格式。

我們的量化方法表明,全整數(shù)語(yǔ)言模型在取得高準(zhǔn)確度和輸出質(zhì)量之間實(shí)現(xiàn)了良好平衡。通過(guò)量化激活、歸一化函數(shù)和矩陣乘法,我們無(wú)需進(jìn)行浮點(diǎn)運(yùn)算。由于浮點(diǎn)運(yùn)算在芯片面積和能耗方面成本較高,這對(duì)于資源受限的嵌入式設(shè)備來(lái)說(shuō)是一個(gè)關(guān)鍵考量。

Ethos-U85 在 FPGA 平臺(tái)上以 32 MHz 的頻率運(yùn)行語(yǔ)言模型,其文本生成速度可達(dá)到每秒 7.5 到 8 個(gè)詞元 (token),與人類的閱讀速度相當(dāng),同時(shí)僅消耗四分之一的計(jì)算資源。在實(shí)際應(yīng)用的系統(tǒng)級(jí)芯片 (SoC) 上,該性能最多可提高十倍,從而顯著提升了邊緣側(cè) AI 的處理速度和能效。

兒童故事生成特性采用了 Llama2 的開(kāi)源版本,并結(jié)合了 Ethos NPU 后端,在 TFLite Micro 上運(yùn)行演示。大部分推理邏輯以 C++ 語(yǔ)言在應(yīng)用層編寫,并通過(guò)優(yōu)化上下文窗口內(nèi)容,提高了故事的連貫性,確保 AI 能夠流暢地講述故事。

由于硬件限制,團(tuán)隊(duì)需要對(duì) Llama2 模型進(jìn)行適配,以確保其在 Ethos-U85 NPU 上高效運(yùn)行,這要求對(duì)性能和準(zhǔn)確性進(jìn)行仔細(xì)考量。INT8 和 INT16 混合量化技術(shù)展示了全整數(shù)模型的潛力,這有利于 AI 社區(qū)更積極地針對(duì)邊緣側(cè)設(shè)備優(yōu)化生成式模型,并推動(dòng)神經(jīng)網(wǎng)絡(luò)在如 Ethos-U85 等高能效平臺(tái)上的廣泛應(yīng)用。

Arm Ethos-U85 彰顯卓越性能

Ethos-U85 的乘法累加 (MAC) 單元可以從 128 個(gè)擴(kuò)展至 2,048 個(gè),與前一代產(chǎn)品 Ethos-U65 相比,其能效提高了 20%。另外相較上一代產(chǎn)品,Ethos-U85 的一個(gè)顯著特點(diǎn)是能夠原生支持 Transformer 網(wǎng)絡(luò)。

Ethos-U85 支持使用前代 Ethos-U NPU 的合作伙伴能夠?qū)崿F(xiàn)無(wú)縫遷移,并充分利用其在基于 Arm 架構(gòu)的機(jī)器學(xué)習(xí) (ML) 工具上的既有投資。憑借其卓越能效和出色性能,Ethos-U85 正愈發(fā)受到開(kāi)發(fā)者青睞。

如果在芯片上采用 2,048 個(gè) MAC 配置,Ethos-U85 可以實(shí)現(xiàn) 4 TOPS 的性能。在演示中,我們使用了較小的配置,即在 FPGA 平臺(tái)上采用 512 個(gè) MAC,并以 32 MHz 的頻率運(yùn)行具有 1,500 萬(wàn)個(gè)參數(shù)的 TinyLlama2 小語(yǔ)言模型。

這一能力凸顯了將 AI 直接嵌入設(shè)備的可能性。盡管內(nèi)存有限(320 KB SRAM 用于緩存,32 MB 用于存儲(chǔ)),Ethos-U85 仍能高效處理此類工作負(fù)載,為小語(yǔ)言模型和其他 AI 應(yīng)用在深度嵌入式系統(tǒng)中的廣泛應(yīng)用奠定了基礎(chǔ)。

將生成式 AI 引入嵌入式設(shè)備

開(kāi)發(fā)者需要更加先進(jìn)的工具來(lái)應(yīng)對(duì)邊緣側(cè) AI 的復(fù)雜性。Arm 通過(guò)推出 Ethos-U85,并支持基于 Transformer 的模型,致力于滿足這一需求。隨著邊緣側(cè) AI 在嵌入式應(yīng)用中的重要性日益增加,Ethos-U85 正在推動(dòng)從語(yǔ)言模型到高級(jí)視覺(jué)任務(wù)等各種新用例的實(shí)現(xiàn)。

Ethos-U85 NPU 提供了創(chuàng)新前沿解決方案所需的卓越性能和出色能效。我們的演示顯示了將生成式 AI 引入嵌入式設(shè)備的重要進(jìn)展,并凸顯了在 Arm 平臺(tái)上部署小語(yǔ)言模型便捷可行。

Arm 正為邊緣側(cè) AI 在廣泛應(yīng)用領(lǐng)域帶來(lái)新機(jī)遇,Ethos-U85 也因此成為推動(dòng)新一代智能、低功耗設(shè)備發(fā)展的關(guān)鍵動(dòng)力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9478

    瀏覽量

    387504
  • 嵌入式
    +關(guān)注

    關(guān)注

    5178

    文章

    20067

    瀏覽量

    326770
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2938

    文章

    47113

    瀏覽量

    405112
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    37534

    瀏覽量

    293259

原文標(biāo)題:Arm Ethos-U85 NPU:利用小語(yǔ)言模型在邊緣側(cè)實(shí)現(xiàn)生成式 AI

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何利用NPU模型壓縮技術(shù)優(yōu)化邊緣AI

    隨著人工智能模型從設(shè)計(jì)階段走向?qū)嶋H部署,工程師面臨著雙重挑戰(zhàn):在計(jì)算能力和內(nèi)存受限的嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時(shí)性能。神經(jīng)處理單元(NPU)作為強(qiáng)大的硬件解決方案,擅長(zhǎng)處理 AI 模型密集的計(jì)
    的頭像 發(fā)表于 11-07 15:26 ?292次閱讀
    如何利用<b class='flag-5'>NPU</b>與<b class='flag-5'>模型</b>壓縮技術(shù)優(yōu)化邊緣AI

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評(píng)測(cè)

    關(guān)鍵詞:瑞芯微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語(yǔ)言模型(SLM)、多模態(tài) LLM、邊緣 AI 部署、開(kāi)發(fā)板、RKLLM隨著大語(yǔ)言
    發(fā)表于 08-29 18:08

    Qwen2-VL-3B模型在米爾瑞芯微RK3576開(kāi)發(fā)板NPU多模態(tài)部署指導(dǎo)與評(píng)測(cè)

    隨著大語(yǔ)言模型(LLM)技術(shù)的快速迭代,從云端集中式部署到端側(cè)分布式運(yùn)行的趨勢(shì)日益明顯。端側(cè)小型語(yǔ)言模型(SLM)憑借低延遲、高隱私性和離線
    的頭像 發(fā)表于 08-28 08:05 ?5025次閱讀
    Qwen2-VL-3B<b class='flag-5'>模型</b>在米爾瑞芯微RK3576開(kāi)發(fā)板<b class='flag-5'>NPU</b>多模態(tài)<b class='flag-5'>部署</b>指導(dǎo)與評(píng)測(cè)

    Alif Semiconductor發(fā)布支持生成式AI的MCU基準(zhǔn)測(cè)試結(jié)果,鞏固其在邊緣AI領(lǐng)域的領(lǐng)先地位

    ·?Ensemble E4/E6/E8 MCU和融合處理器搭載領(lǐng)先的邊緣AI加速器——Arm Ethos-U85 NPU,集成ISP和寬內(nèi)存總線,可高效實(shí)現(xiàn)圖像采集與緩沖。 ·?在微控制器行業(yè)中
    的頭像 發(fā)表于 08-13 15:39 ?2.2w次閱讀
    Alif Semiconductor發(fā)布支持生成式AI的MCU基準(zhǔn)測(cè)試結(jié)果,鞏固其在邊緣AI領(lǐng)域的領(lǐng)先地位

    Arm方案 基于Arm架構(gòu)的邊緣側(cè)設(shè)備(樹(shù)莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹(shù)莓派或 NVIDIA Jetson Nano 等基于 Arm 架構(gòu)的邊緣側(cè)設(shè)備上部署 PyTorch 模型
    的頭像 發(fā)表于 07-28 11:50 ?2371次閱讀

    無(wú)法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?

    NPU 上推斷 OpenVINO?優(yōu)化的 TinyLlama 模型。 遇到的錯(cuò)誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發(fā)表于 07-11 06:58

    請(qǐng)問(wèn)如何在C++中使用NPU上的模型緩存?

    無(wú)法確定如何在 C++ 中的 NPU 上使用模型緩存
    發(fā)表于 06-24 07:25

    基于RK3576開(kāi)發(fā)板的RKLLM大模型部署教程

    RKLLM工具鏈?zhǔn)且粋€(gè)專為在Rockchip NPU平臺(tái)上部署語(yǔ)言模型(LLM)而設(shè)計(jì)的開(kāi)發(fā)套件。它主要包括RKLLM-Toolkit和RKLLM Runtime兩個(gè)核心組件
    的頭像 發(fā)表于 05-16 17:48 ?1786次閱讀
    基于RK3576開(kāi)發(fā)板的RKLLM大<b class='flag-5'>模型</b><b class='flag-5'>部署</b>教程

    Arm 推出 Armv9 邊緣 AI 計(jì)算平臺(tái),以超高能效與先進(jìn) AI 能力賦能物聯(lián)網(wǎng)革新

    架構(gòu)的超高能效 CPU——Arm Cortex-A320 以及對(duì) Transformer 網(wǎng)絡(luò)具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣AI 計(jì)算平臺(tái),可支持運(yùn)行超 10 億參數(shù)
    的頭像 發(fā)表于 03-06 11:43 ?1678次閱讀
    <b class='flag-5'>Arm</b> 推出 Armv9 邊緣 AI 計(jì)算平臺(tái),以超高能效與先進(jìn) AI 能力賦能物聯(lián)網(wǎng)革新

    Arm推出全球首個(gè)Armv9邊緣AI計(jì)算平臺(tái)

    全球首個(gè) Armv9 邊緣 AI 計(jì)算平臺(tái)以 Cortex-A320 CPU 和 Ethos-U85 NPU 為核心,專為物聯(lián)網(wǎng)應(yīng)用優(yōu)化,支持運(yùn)行超 10 億參數(shù)的端側(cè) AI 模型,已獲得包括亞馬遜云科技 (AWS)、西門子和瑞
    的頭像 發(fā)表于 02-27 17:08 ?1147次閱讀

    添越智創(chuàng)基于 RK3588 開(kāi)發(fā)板部署測(cè)試 DeepSeek 模型全攻略

    飆升至百分之百,滿負(fù)荷運(yùn)轉(zhuǎn),而開(kāi)發(fā)板強(qiáng)大的 NPU 卻閑置一旁,無(wú)法發(fā)揮加速運(yùn)算優(yōu)勢(shì),這在一定程度上限制了模型的運(yùn)行效率與性能表現(xiàn)。 02-用RKLLM量化部署-挖掘NPU潛力
    發(fā)表于 02-14 17:42

    如何在Arm Ethos-U85上使用ExecuTorch

    在快速發(fā)展的機(jī)器學(xué)習(xí)領(lǐng)域,PyTorch 憑借其靈活性和全面的生態(tài)系統(tǒng),已成為模型開(kāi)發(fā)的熱門框架。Arm 與 Meta 合作在 ExecuTorch 中引入了對(duì) Arm 平臺(tái)的支持,進(jìn)一步簡(jiǎn)化了
    的頭像 發(fā)表于 02-14 14:23 ?924次閱讀
    如何在<b class='flag-5'>Arm</b> <b class='flag-5'>Ethos-U85</b>上使用ExecuTorch

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?749次閱讀

    云端語(yǔ)言模型開(kāi)發(fā)方法

    云端語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過(guò)程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面,AI部落小編為您分享云端語(yǔ)言
    的頭像 發(fā)表于 12-02 10:48 ?867次閱讀

    NPU支持的編程語(yǔ)言有哪些

    NPU(Neural Processing Unit)是一種專門為深度學(xué)習(xí)和人工智能應(yīng)用設(shè)計(jì)的處理器。NPU支持的編程語(yǔ)言通常與它所集成的平臺(tái)或框架緊密相關(guān)。以下是一些常見(jiàn)的編程語(yǔ)言
    的頭像 發(fā)表于 11-15 09:21 ?2453次閱讀