Learning Fine-grained Image Similarity with Deep Ranking

Abst.
 細分化された画像の近さを測るのは大変。クラス間やクラス内のきょりなど。。画像からDeepを使って、直接距離を測ってみます。

1. Inro
 クエリ画像に近いものを探すのは、近年の画像サーチエンジンに必須だ。
 よくあるのは、カテゴリレベルの近さだ。二枚の画像が同じクラスに属するか否かを考える。しかし、これは十分でない。同じクラス内の近さを知るのが必要になる。
 ハンドクラフト特徴では、限界があるよね。
 Deepは画像識別で大成功だけど、画像の近さのランキングは、識別とは違うよね。色違いの車は全部車カテゴリだけど、近い色のほうが近いよね。三つ組みでこれを実現します。三つ組は、クエリとポジティブ、ネガティブで構成されます。ポジティブはネガティブより、クエリに近いとする。
 機械学習では、訓練データが大事だよね。ブートストラップ法により、無限に訓練データを生成する方法を提案する。
 異なる構成のネットワークで、効果を確認した。識別ネットワークの良さとこの良さは一緒ではなかった。
 近さモデルの精度は、トリプレットのオーダーで決まります。データセットは我々が最初に作りました。
 貢献は、①画像の近さを直接測れるよになったし、新しいブートストラップ法を提案した。②マルチスケールのネットワーク構造を開発した。③オンライン学習の計算効率を示した。④評価データセットを公開した。

2. Related Work
 これまで、カテゴリレベルのやつしかなかった。
 ペアランキングモデルはペアをとってくる方法が大事。今回大規模データでいけるやつを考案した。

3. Overview
 我々のゴールは、画像の近さを学習することだ。
  D(f(P, f(Q))=||f(P) - f(Q)||^2
fは埋め込み関数で、Dは距離だ。似ているやつは、似ていないやつより遠くする。
  D(f(Pi), f(pi+))<D(f(Pi), f(pi-))
となるように、fを学習する。ロスは
  l(pi, pi+, pi-) = max{0, g + D(f(pi, pi+) - D(fpi, pi-) ))}
となる。

 4. Network Architecture
 ダウンサンプリングして、各ネットワークに突っ込む
5. Optimization
5.1. Triplet Sampling
 全部やってるとやばいから、オンラインで重要なやつだけやる。

なるほど、クラス内の順序も決まってる前提なのかー。

 

単語
indispensable:欠かせない
distinction:区別
postulate:公準