Hugging Face
主に自然言語処理のコミュニティ、データセット
共通インタフェースもある
環境変数
HF_HOME 以下にモデルキャッシュされていく
HUGGING_FACE_HUB_TOKEN
$HF_HOME/token に書いていてもよい、環境変数セットしたら上書き
事前にモデルをダウンロードしておく
docker build 時など
ライブラリの Pipeline.from_pretrained を呼ぶ?
from huggingface_hub import hf_hub_download がある
cli がある、これでいいのか
code:dockerfile
ENV HF_HOME=/model-cache
RUN --mount=type=secret,id=HF_TOKEN HF_TOKEN=$(cat /run/secrets/HF_TOKEN) \
huggingface-cli download google/gemma-2-2b-it
ENV HF_HUB_OFFLINE=1
If set, no HTTP calls will be made to the Hugging Face Hub. If you try to download files, only the cached files will be accessed.
これやん
Hugging Face Transfer
爆速!!!
https://gyazo.com/526fd47362d544d36317d0ae7b133ba8
$ pip install huggingface_hub[hf_transfer] でインストール
CLI からも使える
$ HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli upload ...
Docker image
Jupyter からログイン
使うのは huggingface_hub、huggingfaceではない
code:notebook_login.py
from huggingface_hub import notebook_login
notebook_login()
notebook_login(token=userdata('hf_token')) # のように渡しても良い