Multimodal C4
https://gyazo.com/65c39da8c4c31c831d677fec753e7be3
GitHub : https://github.com/allenai/mmc4
Paper : https://arxiv.org/abs/2304.06939
c4コーパスに交互に画像を追加したもの
Flamingoのような文脈を理解したLMMを作るに交互に挿入された画像+テキストのコーパスが必要だが、この形式の大規模なデータセットはこれまで無かった
https://gyazo.com/789eab5d536554dcedccf28105c6a1af
OpenFlamingoの学習に使用された