マルチモーダル
異なるモダリティを同時に取り扱うこと.
Image Captioning
とくに人間の五感のようにマルチモーダル的にさまざまな処理を行うAIをマルチモーダルAIという.