中文字幕人妻无码专区 ,日本69sex护士

前言

最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人員創(chuàng)建的 Vicuna-13B，通過在 ShareGPT 收集的用戶共享對話數(shù)據(jù)中微調 LLaMA獲得。其中使用 GPT-4 進行評估，發(fā)現(xiàn)Vicuna-13B 的性能達到了ChatGPT 和 Bard 的 90% 以上，同時在 90% 情況下都優(yōu)于 LLaMA 和 Alpaca 等其他模型。訓練 Vicuna-13B 的費用約為 300 美元。訓練和代碼[1]以及在線演示[2]已公開。

Vicuna到底怎么樣？

Vicuna在官網中通過和Alpaca、LLaMA、ChatGPT和Bard對比，然后通過GPT4當裁判來打出分數(shù)，具體如下。

問題

Alpaca-13b vs Vicuna

LLaMA-13b vs Vicuna

ChatGPT vs Vicuna

Bard vs Vicuna

可以看出，Vicuna的回答還是非常棒的，讓GPT4來打分，Vicuna和ChatGPT是十分接近的，遠遠高于Alpaca和LLaMA。

如果大家想試試別的問題，可以自己去嘗試[3]哈。

可換不同類型的不同問題

然而，官方認為評估聊天機器人絕非易事，聽過GPT4進行評估是一件十分不嚴格的事情，但是目前還是無法解決評估的問題，需要后續(xù)學者進行進一步探索。

圖1 GPT-4 評估

在線demo

概述

圖2 工作流

圖 2 介紹了整體工作流程。訓練是在一天時間在 8 個 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的詳細比較如表 1 所示。

表1 一些模型的對比

訓練

Vicuna 是通過使用從 ShareGPT.com 使用公共 API 收集的大約 7萬用戶共享對話微調 LLaMA 基礎模型創(chuàng)建的。為了確保數(shù)據(jù)質量，將 HTML 轉換回 markdown 并過濾掉一些不合適或低質量的樣本。此外，將冗長的對話分成更小的部分，以適應模型的最大上下文長度。

訓練方法建立在斯坦福alpaca的基礎上，并進行了以下改進。

內存優(yōu)化：為了使 Vicuna 能夠理解長上下文，將最大上下文長度從alpaca 中的 512 擴展到 2048。還通過gradient checkpointing和flash attentio來解決內存壓力。

多輪對話：調整訓練損失考慮多輪對話，并僅根據(jù)聊天機器人的輸出進行微調。

通過 Spot 實例降低成本：使用 SkyPilot 托管點來降低成本。該解決方案將 7B 模型的訓練成本從 500 美元削減至 140 美元左右，將 13B 模型的訓練成本從 1000 美元左右削減至 300 美元。

圖3 通過GPT4來評估打分

通過GPT4評估得出的總分