NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的 NVIDIA GPU 上運行的大語言模型推理。
Phi-3 Mini 與 10 倍之于其大小的模型能力不相上下。不同于僅用于研究的 Phi-2,Phi-3 Mini 不僅可以用于研究,同時還可以用于多種商業(yè)用途。搭載 NVIDIA RTX GPU 的工作站或搭載 GeForce RTX GPU 的 PC 可以使用 Windows DirectML 或 TensorRT-LLM 在本地運行該模型。
該模型有 38 億個參數(shù),在 512 個 NVIDIA Tensor Core GPU 上使用 3.3 萬億個 token 訓(xùn)練而成,僅耗時七天時間。
Phi-3 Mini 有兩個版本,一個版本支持 4K token,另一個版本支持 128K token,是同類模型中第一個支持超長上下文的模型。因此,開發(fā)者在向該模型提問時,可以使用 128,000 個 token(模型能夠處理的最小語言單位),使模型能夠做出更加符合現(xiàn)實的回答。
開發(fā)者可以在 ai.nvidia.com上試用帶有 128K 上下文窗口的 Phi-3 Mini。該模型被打包成 NVIDIA NIM,這是一項帶有標準應(yīng)用編程接口的微服務(wù),可以部署在任何位置。
在邊緣高效運行
自主機器人和嵌入式設(shè)備開發(fā)者可以通過社區(qū)教程(如 Jetson AI Lab)學習創(chuàng)建和部署生成式 AI,并在 NVIDIA Jetson 上部署 Phi-3。
Phi-3 Mini 模型只有 38 億個參數(shù),非常小巧緊湊,可以在邊緣設(shè)備上高效運行。參數(shù)就像內(nèi)存中的旋鈕,可在模型訓(xùn)練過程中進行精確的調(diào)整,使模型能夠?qū)斎氲奶崾咀龀龈叨葴蚀_的響應(yīng)。
Phi-3 可以在成本和資源受限的用例中提供幫助,尤其是較簡單的任務(wù)。該模型在關(guān)鍵語言基準測試中的表現(xiàn)優(yōu)于一些較大的模型,同時在滿足延遲要求的情況下給出結(jié)果。
TensorRT-LLM 將支持 Phi-3 Mini 的長上下文窗口,并使用 LongRoPE、FP8/飛行批處理等眾多優(yōu)化措施和內(nèi)核來提高推理吞吐量,減少延遲。TensorRT-LLM 的應(yīng)用很快將在 GitHub 上的示例文件夾中提供。
開發(fā)者可以轉(zhuǎn)換為 TensorRT-LLM 檢查點格式,該格式針對推理進行了優(yōu)化,可以輕松地與 NVIDIA Triton 推理服務(wù)器一起部署。
開發(fā)開放式系統(tǒng)
NVIDIA 是開源生態(tài)系統(tǒng)的積極貢獻者,已經(jīng)發(fā)布了 500 多個帶有開源許可證的項目。
NVIDIA 為 JAX、Kubernetes、OpenUSD、PyTorch 和 Linux 內(nèi)核等眾多外部項目做出了貢獻,還為各種開源基金會和標準機構(gòu)提供支持。
此次發(fā)布建立在 NVIDIA 與微軟深厚的合作基礎(chǔ)上,雙方的合作為加速 DirectML、Azure 云、生成式 AI 研究以及醫(yī)療和生命科學等領(lǐng)域的創(chuàng)新鋪平了道路。
審核編輯:劉清
-
機器人
+關(guān)注
關(guān)注
213文章
30410瀏覽量
218833 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5467瀏覽量
108797 -
嵌入式設(shè)備
+關(guān)注
關(guān)注
0文章
118瀏覽量
17615 -
GPU芯片
+關(guān)注
關(guān)注
1文章
306瀏覽量
6350 -
大模型
+關(guān)注
關(guān)注
2文章
3400瀏覽量
4888
原文標題:小巧而強大:NVIDIA 加速微軟 Phi-3 開源“小語言模型”
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA推出面向語言、機器人和生物學的全新開源AI技術(shù)
NVIDIA宣布開源Aerial軟件
NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型
NVIDIA開源Audio2Face模型及SDK
NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程
NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載
歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型
NVIDIA攜手微軟加速代理式AI發(fā)展
Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用
NVIDIA Isaac GR00T N1開源人形機器人基礎(chǔ)模型+開源物理引擎Newton加速機器人開發(fā)
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
在算力魔方上本地部署Phi-4模型

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型
評論