テキストと画像を使って画像を検索する

テキストと画像をクエリとして画像を検索するシステムを作っている daiiz.icon

ブックマークと写真を探索できる

ElasticsearchとNon AIで古典的な手法を使った単純なテキスト検索を実装

不定期で開発を継続して、ここ半年くらい、なんだかんだ毎日使っている

発見と連想のバランスも絶妙でいい感じ

https://gyazo.com/bc32d530840edf2b84ae4f30a4e60346/thumb/500#.png

テキスト「bard」(吟遊詩人) で検索すると、Googleの対話型検索エンジン「Bard」のスクリーンショットと『吟遊詩人ビードルの物語』の書影がヒットする

https://gyazo.com/2a4c12418e83c587cf409798459f433a/thumb/500#.png

「フロントエンドの神様」という文字が入った画像で検索すると、「フロントエンド」と「サンド」で曖昧一致したカツサンドの写真と、千と千尋の神隠しの映画で登場する「ひよこの神様」の画像がヒットする

このような検索結果の雑多さが思考を刺激してくれる

画像のヒントとして表示された画像を選択してクエリに追加してさらに検索を続けられる

https://gyazo.com/e3eea122ad3041f4f107b48451601554/thumb/500#.png

テキストと画像を組み合わたクエリも発行できる

著者名「daiiz」から探索をはじめて、同人誌即売会で頒布した本の写真で絞り込み、この書籍に関する正式なウェブページの情報に辿り着ける

今後の課題

そろそろこの分野の開発でも生成AIの技術革新の波に乗りたい

特徴的な検索キーワードの抽出

Vision Transformerやこれを応用したCLIPを搭載したい

余談: CLIPのアイデアは本当に凄いと思う

文章と画像の情報を同じ特徴空間にマッピングすることで、モデルが捉えられる意味の解像度が上がった

複合分野での柔軟な検索も可能になる

画像に対して「ラベル」でなく「文」で説明を与えられる

従来の画像学習のアプローチと比較して圧倒的な情報量の差が生まれる