Zephyr-7B
https://gyazo.com/a1a046dd45ff107af4ae910b3404b854
https://arxiv.org/abs/2310.16944
Zephyr: Direct Distillation of LM Alignment
https://huggingface.co/HuggingFaceH4/zephyr-7b-beta
HuggingFaceH4/zephyr-7b-beta
Mistral-7B-v0.1
をファインチューニング
Direct Preference Optimization
(DPO)を使って、一般に入手可能な合成データセットを組み合わせて学習した。
https://gyazo.com/fac8dc314a66c2195b94a1e1011b05fe
#Zephyr