Learning Fine-grained Image Similarity with Deep Ranking

Abst.
　細分化された画像の近さを測るのは大変。クラス間やクラス内のきょりなど。。画像からDeepを使って、直接距離を測ってみます。

1. Inro
　クエリ画像に近いものを探すのは、近年の画像サーチエンジンに必須だ。
　よくあるのは、カテゴリレベルの近さだ。二枚の画像が同じクラスに属するか否かを考える。しかし、これは十分でない。同じクラス内の近さを知るのが必要になる。
　ハンドクラフト特徴では、限界があるよね。
　Deepは画像識別で大成功だけど、画像の近さのランキングは、識別とは違うよね。色違いの車は全部車カテゴリだけど、近い色のほうが近いよね。三つ組みでこれを実現します。三つ組は、クエリとポジティブ、ネガティブで構成されます。ポジティブはネガティブより、クエリに近いとする。
　機械学習では、訓練データが大事だよね。ブートストラップ法により、無限に訓練データを生成する方法を提案する。
　異なる構成のネットワークで、効果を確認した。識別ネットワークの良さとこの良さは一緒ではなかった。
　近さモデルの精度は、トリプレットのオーダーで決まります。データセットは我々が最初に作りました。
　貢献は、①画像の近さを直接測れるよになったし、新しいブートストラップ法を提案した。②マルチスケールのネットワーク構造を開発した。③オンライン学習の計算効率を示した。④評価データセットを公開した。

2. Related Work
　これまで、カテゴリレベルのやつしかなかった。
　ペアランキングモデルはペアをとってくる方法が大事。今回大規模データでいけるやつを考案した。

3. Overview
　我々のゴールは、画像の近さを学習することだ。
　 $D(f(P, f(Q))=||f(P) - f(Q)||^2$
fは埋め込み関数で、Dは距離だ。似ているやつは、似ていないやつより遠くする。
　 $D(f(Pi), f(pi+))<D(f(Pi), f(pi-))$
となるように、fを学習する。ロスは
　 $l(pi, pi+, pi-) = max{0, g + D(f(pi, pi+) - D(fpi, pi-) ))}$
となる。

4. Network Architecture
　ダウンサンプリングして、各ネットワークに突っ込む
5. Optimization
5.1. Triplet Sampling
　全部やってるとやばいから、オンラインで重要なやつだけやる。

なるほど、クラス内の順序も決まってる前提なのかー。

単語
indispensable：欠かせない
distinction：区別
postulate：公準