画像認識 - yuyan

画像認識

Image Recognition

１、画像認識の概要

一般に、画像の見た目とその意味との乖離のことをセマンティックギャップといい、このギャップを埋めることが画像認識分野の長年の課題となっています。画像は３次元情報を２次元に射影しているので、幾何学的に縮退していることも画像認識を困難とする要因と考えられます。1999年にデファクトスタンダートの局所特徴となるSIFTが出て、2003年にはBag of Visual Wordsという画像特徴が誕生した。画像認識は物体認識とシーン認識に分けられる。物体認識は大きく、インスタンス認識とクラス認識に分類できる。インスタンス認識は類似画像検索と強い関連を持つ。画像から物体のインスタンスやクラスだけを予測するのではなく、物体が存在する領域までを推定することを物体検出と言います。セマンティックセグメンテーションとインスタンスセグメンテーションがある。

クラス認識の手順

サンプリング（疎なサンプリングと密なサンプリング）

局所記述各特徴点の周りに小さな領域を設定し、何らかの手法でパッチから特徴を抽出する過程を局所記述と言います。得られたパッチの特徴量を局所奇術師と呼びます。

統計的特徴抽出局所特徴軍の確率・統計的な構造に基づいて局所特徴を処理することで、より認識に有効な特徴を得られると考えれ、このような処理を統計的特徴抽出と言います。

コーディング・・局所特徴を認識に有効なある決まった次元数の特徴ベクトルに変換する操作をコーディングと言います

プーリング・・ある画像領域から得られた特徴ベクトル軍を一本のベクトルにまとめる操作をプーリングと言います。画像一枚を代表するベクトルは画像特徴ベクトルと言います。

分類・・画像特徴ベクトルをクラスに割り振る過程を分類と言います。それを行うアルゴリズムと分類器と言います。

これらの構造を何度も行う構造をディープラーニングと呼び、一回しか行わない構造をシャローラーニングと言います。

物体検出

画像の中から物体領域候補となる複数の部分領域を抽出します（スライディングウィンドウ法など）。次に各物体領域候補に対してクラス認識の手法を適用し、対象領域にどのような物体が含まれるか判断します。検出領域の絞り込みを行なって最終結果を得ます。

インスタンス認識

インスタンス認識ではインスタンス名が付与された画像軍をデータベースに保持しておき、インスタンス名を特定したい画像をクエリとしてシステムに入力します。システムは、クエリ画像と同じ物体が撮影されている画像をデータベースから検索し、検索された画像に付与されているインスタンス名を返します。手順としては、特徴点検出と記述、画像特徴の計算とインデックス化、ルックアップテーブルへの登録、クエリ画像のインデックス化、クエリ画像のインデックスに対応する候補画像軍の抽出、局所特徴の幾何学的一貫性の検証がある

データ処理定理・・データ処理はデータの持つ情報を破壊させるのみで、決して増やすことがない

２、局所特徴

局所特徴抽出は、画像の中の特徴点を捉える検出と特徴点の周りの領域を表現する記述で構成されます。検出した特徴点はキーポイントとも言います。代表的な検出器として、エッジ検出器、コーナ検出器、ブロブ検出器があります。空間フィルタリングとは、画像の局所領域からエッジやコーナなどの点を抽出するある操作のことです。空間フィルタには、平均化フィルタやガウシアンフィルタバイラテラルフィルタなどがある。

３、統計的特徴抽出

実際の画像にはノイズが加わるので、観測されるデータの確率・統計的な構造に基づいて認識に有利な特徴へ変換する統計的特徴抽出が必要となります。本章では、主成分分析、フィッシャー線形判別分析、正準相関分析、偏最小二乗法を解説する。

主成分分析

主成分分析は線型空間におけるデータの分布をある基準で最もよく近似する低次元の部分空間を求める次元削減ほうです。

主成分分析の応用例として白色化があり、白色化は異なる変数を無相関化しスケールを揃える方法で前処理に頻繁に使用される。

フィッシャー線型判別分析

教師情報が得られた時にクラスの分離を強調するような射影を求める次元削減方法である。

正準相関分析

正準相関分析は複数の情報源に共通して含まれる情報を抽出する次元削減方法です。射影された２つの変量の相関が高くなるような線型部分空間を求めます。

偏最小二乗法

偏最小二乗法は、正準相関分析と同様に、複数情報源に共通して含まれる情報を抽出する手法です。正準相関分析はに変量の相関最大化で定式化されるが、偏最小二乗法は２変量の共分散最大化で定式化される。

４、コーディングとプーリング

局所特徴を認識に有効な次元数のベクトルに変換する操作をコーディングと呼び、画像領域内の複数のコーディング後の特徴ベクトルを１つのベクトルにまとめる操作をプーリングと言います。統計的特徴抽出は低次元空間への写像を求めることでしたが、コーディングは分類に有利なじげんの高次元空間への非線形な写像を求めることです。コーディング関数は５通りに分類できます。

1.データの確率分布を仮定して確率分布から推定する

2.複数の代表店を利用してデータを再構築することで推定する

3.特徴空間においてデータがなす多様体を複数の代表店を用いて推定する

4.データの類似度を表す関数を特徴写像の線型内積として近似することで推定する

5.cnnを学習させる

ここでは、1~4の手法を紹介します。

プーリング後の特徴の次元は一般的にコーディングされた特徴の次元と等しくなる。

確率分布を利用したコーディング

ヒストグラム密度推定の手法にはbag of visual wordsがあり、これは訓練データ集合から代表的な幾つかの局所特徴を取り上げ、それらを単語のように見立てます。

BoVWはカーネル法と組み合わせることで高い認識精度を得られる。カーネル法とは、２つのデータ間の類似度を表すカーネル関数を利用することで類似度を適切に考慮したデータの予測などの解析を行う手法のことです。買いに上カーネルやヒストグラムインターセクションカーネル、ヘリンジャーカーネルがあります。

混合ガウス分布を用いたコーディング

GMMスーパーベクトル

１枚の画像から得られる局所特徴を混合ガウス分布でモデル化し、この分布間の適切な軽量を考慮した特徴として、GMMスーパーベクトルがあります。各画像がパラメータaとbで洗わせたとすると、このモデルかされた画像同士の近さを測る場合、確率分布感の差異を測る尺度であるかるバック・ライブらー情報量を用います。

フィッシャーベクトル

確率的生成モデルからカーネルを生成する代表的なほほうとして、フィッシャーカーネルがあります。フィッシャーベクトルはフィッシャーカーネルを利用したコーディング方法によって得られる特徴です。フィッシャーベクトルは直感的に言えば、画像に写る様々な対象を表現した代表的なモデルと注目画像のモデルとのズレを計算して、その偏差ベクトルに適切な正規化を施した特徴と言えます。

GMMを用いたフィッシャーベクトル

様々な正規化手法

単純なフィッシャーベクトルでは画像を豊かに表現していてもあまり良い分類結果を得ません。しかし、フィッシャーベクトルにL2正規化とパワー正規化を適用すると線型分類機との組み合わせであっても高い分類性能を得られることがわかっています。

VLAD

VLADはフィッシャーベクトルの簡易版であり、混合係数と共分散行列の香が省略されています。VLADはコードワードト局所特徴との差分が表現されているためにBoVWよりも豊かな表現となります。

VLAT

VLATは混合要素に属する局所特徴とコードワードとの差を計算する１次の統計量を用いた特徴です。一方混合要素ごとの局所特徴の２次の特徴量である共分散行列を用いた特徴がVLATです。

ガウス分布の利用

混合がうす分布でコーディングする手法は表現力が高い一方で、パラメータが多いために、共分散行列の非対角成分を0と制約する場合が多く、その表現力を活用しきれているとは限りません。また、パラメータが閉じた解として得られないので、計算コストなどの問題点を抱えています。一方、単峰性のがうす分布は混合ガウス分布と比較してあまり表現力は高くありませんが、非対各成分まで推定可能なことが多く、共分散行列の表現力を有効活用できます。

確率的なカーネル

一枚の画像から得られる局所特徴軍からそれらの局所特徴が従うガウス分布を推定します。つまり一枚の画像は１つのガウス分布で代表されることになります。次にガウス分布間の類似度（カーネル）を準備する必要がありますが、ここでは一般化RBFカーネルの距離に対象　KL情報量を用いたカーネルを紹介します。

Log-Euclidean計量

確率的なカーネルを用いた手法はガウス分布間の類似度を適切に表現してカーネル法により画像分類を行うものでした。しかし、カーネル法を大規模な画像集合に適用するのは難しいため、線型分類気にも適切に利用可能なコーディング手法が望ましいと言えます。そこで、ここではガウス分布の共分散行列を用いた線型分類器とも相性の良いコーディング方法を紹介します。

共分散行列は正定値対象行列ですが正定値対象行列のなす空間ではユークリッド計量は適切ではありません。しかしこの空間は滑らかなリーマン多様体をなしているため、Log-Euclideanの枠組みから正定値対象行列の対数を計算することでユークリッド空間での適切な計算が可能になります。行列を対数を計算することで正定値対象行列のリーマン多様体をユークリッド空間に写像することができます。つまり対数に写像した空間において、正定値対象行列をユークリッド空間の円山で適切に扱うことができ、正定値対象行列s1とs2の距離はLog-Euclidean計量と言います。

フィッシャー情報行列

本項でも同様に、ベクトルの内積が適切な類似度を表現しているガウス分布を利用したコーディング手法を考えます。

局所特徴のコードワードによる再構築

５、分類

本章では、画像認識でよく利用される分類器について説明します。分類器の設計の基本となる期待損失の最小化やベイズ決定即から初めて、より具体的な線型分類きや局所学習を説明します。

６、cnn

深層学習は、複数のユニットで構成される層を多段に積み重ね、ユニット感を重みをつけて結合し、その重みを最下層から最上層まで一気に学習する手法です。

７、物体検出

物体検出では、画像の中に含まれる人や車などの物体を取り囲む四角い領域を推定することを目標とします。まずは物体を囲む領域の候補群を提案し、得られた物体領域候補内の画像を物体クラス認識の処理の流れに入力して、認識対象物体らしさを計算します。最後にどう一物体に複数のバウンディングボックスが検出されないように後処理を行なって最終的な物体検出結果を得ます。本章では、物体領域候補の抽出手法と計算コストのあまりかからない物体検出法を解説します。

物体領域候補の提案

物体領域候補の提案に失敗してしまうとこれ以降の過程もダメになるので重要なところ。今回は、スライディングウィンドウ法、選択的検索法、分岐限定法を紹介します。

スライディングウィンドウ法

ある決まった大きさの領域を一定のピクセルごとにずらすことで領域候補を提案する方法です。物体検出を行うには必ずしも効率の良い方法とはいえません。スライディング法で得られた領域の物体らしさを高速に判定する手法として、BINGが提案されています。

選択的検索法

入力画像中で物体らしさなどをあらかじめ評価しておき、領域候補数を絞り込む手法が選択的検索法です。選択的探索法では、はじめに画像を小さい領域軍に分割し、そして隣り合う領域同士の類似度を計算し、最も類似度の高い領域を統合します。この２つのステップを領域が１つになるまで繰り返します。本稿では、画像領域分割手法と領域間の類似度を計算して統合する方法について説明します。

分岐限定法

物体検出は、物体を含むバウンディングボックスを画像ないから探索する問題と捉えることができます。画像の大きさがW×Hの場合、パラメータは(W**2)*(H**2)オーダーの要素を持つため全てをしらみつぶすのは難しい。そこで、分岐限定法を利用した効率的なバウンディングボックスの探索手法が提案されています。分岐限定法では、パラメータ空間を共通する要素を持たない部分集合に分割して、各部部分集合において、分類器のスコアの上界を計算して保持しておきます。物体を含みそうな部分集合を優先的に探索し、最大値を含みそうにない他の多くの部分集合は処理しません。

線型分類器を用いた物体検出

領域の提案数だけクラス認識の計算を行う必要がありますが、これは膨大になる必要がある。クラス認識は、特徴抽出と分類器の組み合わせで実現できますが、特徴抽出として、HOG特徴、分類器として線型分類気が物体検出では利用される場合があります。

分類困難な負例の活用

人を認識させたい場合、正例は人でいいが、分類困難な負例を逐次選択して(hard-negative mining)、学習に利用する手法があります。ここで説明する方法ではキャッシュと呼ばれる小規模な訓練データ集合を設定し、学習の過程で逐次的にキャッシュを更新していきます。そしてこのキャッシュ内のデータを用いて分類器のパラメータを求めます。具体的には分類が容易なデータをキャッシュから削除し、分類が困難なデータをキャッシュに追加して更新します。

集団学習を用いた物体検出

アダブーストやランダムフォレストは比較的低コストながら高い分類性能を得ることができるので物体検出によく利用されます。本稿ではViola-Jonesの手法を説明します。主要なアイデアとしては、積分画像を利用した高速な特徴抽出とブースティングによる特徴選択、分類きの多段接続による対象物体を含まない領域の高速な排除が挙げられます。

Viola-Jonesの手法では、画像特徴として短径特徴を利用している。短径特徴は弱い分類器ですが、弱い分類器を組み合わせて強力な分類器を構成する方法としてアダブーストがあります。

高速な日認識対象領域の排除

物体検出の性能を向上させるには、利用する弱分類器の数を奥すれば良いですが、弱分類きの数を増やせば増やすほど時間がかかってしまいます。そこで物体を含まない領域を素早く判定し排除する方法として、attentional cascadeがあります。attention cascadeでは、複数の弱分類きで構成された分類きを直列に接続します。第一分類きはほぼ100%の分類精度ですが、同時に高い偽陽性率も許容するように設定しておきます。このようにして、次の分類きは偽陽性率を少し下げて分類していきます。

非最大値の抑制

物体検出の結果として、検出対象物体を中心として複数のバウンディングボックスが検出されてしまうことがあります。同一物体に複数のバウンディングボックスが検出されないようにするために、バウンディングボックスごとに検出の信頼度を表すスコアを計算し、局所的に最大スコアのバウンディングボックスのみ表示し、その他を表示しないように抑制します。この処理を非最大値の抑制と言い、2.4項で説明したキーポイント検出の抑制方法と基本的に同じ手順を行います。

Cnnを利用した物体検出

Cnnを利用した物体検出としてr-cnnが提案されています。これまではhog特徴などが一般的に用いられていましたが、cnnを利用した物体検出ではcnn特徴を用います。r-cnnでは初めに選択的検索法を利用して、物体領域候補を提案します。得られた領域候補からcnn特徴を抽出して、分類きに入力し、物体領域候補の物体クラスを予測します。スコアリングされた物体領域候補から非最大値の抑制を行なって不要なバウンディングボックスを排除します。さらにバウンディングボックスの精度を上げるために物体領域候補のcnn特徴からバウンディングボックスのパラメータへの回帰を行います。

Fast r-cnn

R-cnnはネットワークの順伝播を提案された物体領域ごとに行う必要があるため検出速度が遅いという問題点がありました。そこで一回計算した特徴マップを全ての提案された物体領域で再利用することで、r-cnnを高速化させたfast r-cnnが提案されています。

Faster r-cnn

８、インスタンス認識と探索

クラス認識は対象物体の属するクラスを予測することですが、インスタンス認識は対象物体そのものを特定します。本章では、インスタンス認識と画像検索について説明します。

8.1インスタンス認識

１つの方法として以下のような枠組みが挙げられます。

1.蓄積された画像軍から局所特徴を抽出し、画像データベースを作成する

2.クエリ画像の局所特徴を抽出する

3.クエリ画像の局所特徴を１つ取り上げ、画像データベースの全局所特徴と比較する。もっとも似ている局所特徴を持つデータベース内の画像に１票を投じる。

4.データベースで最も票を獲得した画像を選ぶ。

この方法はそれなりの精度が出ますが、データベース的にも、局所特徴的にも計算がひどい。

8.1.1 Bag of visual words

これは局所特徴を

９、さらなる話題

これまでに暮らす認識、物体認識、インスタンス認識と検索について説明して来ました。本性ではセマンティックセグメンテーション、画像キャプション生成、画像生成を取りあげてその概要と中心となる手法を説明します。

9.1セマンティックセグメンテーション

9.1.1エンコーダ・デコーダネットワーク

全結合層は空間情報を捨て、クラス確率のベクトルを出力します。よって全結合層を畳み込み層に置き換えることでクラス認識ネットワークをクラス確率のヒートマップを出力するネットワークに変換できます。プーリングなどで特徴マップの空間情報が徐々に失われるので、そのままセグメンテーション結果とするのは不適切なので、低解像度の特徴マップを入力と同じ解像度までアップサンプリングします。

9.1.2SegNet

SegNetのエンコーダはVGGの全結合層を取り除いたものです。デコーダに入力された特徴マップは逆プーリング層でアップサンプリングされる。逆プーリング層の重みはエンコードのときのユニットを使うので学習不要である。転移畳み込みは疎な特徴マップを密な特徴マップに変換する。

9.2画像からのキャプション生成

画像の内容を自然言語で記述することを画像キャプション生成と言います。本節ではNICを紹介する。

9.2.1Neural Image Caption

NICは機械翻訳のエンコーダの部分を画像から特徴量を抽出する畳み込みニューラルネットワークで置き換えた構造になっている。

9.2.2LSTM

9.2.3画像生成と敵対的生成ネットワーク

-----------------------------------------

Detic

https://medium.com/axinc/detic-21kクラスを高精度にセグメンテーションできる物体検出モデル-1b8f777ee89a#:~:text=Detic%EF%BC%88Detector%20with%20Image%20Classes,することが可能です%E3%80%82

Transformer を物体検出に採用！話題のDETRを詳細解説！

https://deepsquare.jp/2020/07/detr/

DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

https://arxiv.org/abs/2411.14347

024 AI屋さんの　LLMで物体認識　GEMINI2.0

https://qiita.com/bono0/items/7de71a203be4323ee224