View on GitHub

memo

Places A 10 million Image Database for Scene Recognition

Places A 10 million Image Database for Scene Recognition

datsetは以下のTerms of useの下公開されている。

Terms of use: by downloading the image data you agree to the following terms:

You will use the data only for non-commercial research and educational purposes.
You will NOT distribute the above images.
Massachusetts Institute of Technology makes no representations or warranties regarding the data, including but not limited to warranties of non-infringement or fitness for a particular purpose.
You accept full responsibility for your use of the data and shall defend and indemnify Massachusetts Institute of Technology, including its employees, officers and agents, against any and all claims arising from your use of the data, including but not limited to your use of any copies of copyrighted images that you may create from the data.

またこのdatasetのweb demoが下記で公開されている。

1. Introduction

1.1 The rise of multi-million datasets

Supervised learningで重要なこと

適当なdatasetはsupervised learningにおいて重要である。 本論文のdatasetはscene recognitionのdatasetに焦点をあてて作られている。

1.2 Scene-centric Datasets

既存のscene recognitionのdatasetsについて簡単に述べる。 Deep learningによるobject detectionで使われるImageNetのような大規模datasetに相当するものは、scene recognitionにおいてはない。

Scene recognitionに関連したdatasetとして有名なものは以下

scene recognitionに限らない画像のdatasetとして有名なものは以下

2 Places Database

本研究で作成したdatasetとその前身となるPlaces datasetについて述べる。

2.1 Coverage of the categorical space

まず、scene categoryの作成方法について述べる。 Places datasetでは、SUN datasetを参考にscene categoryを作成しており、Places datasetでは人間が訪れることができる場所に限定して、scene categoryを作成している。

SUN datasetは最初にscene categoryを表現するwordについてまとめたdatasetで、 SUN datasetでは以下のようにしてscene categoryを作成している。

Places datasetではSUN datasetのscene categoryを踏襲し、幾つかの変更を加えて利用している 変更については、2.2で述べる。

2.2. Construction of the database

Places datasetの作り方について述べる。 Places databsaeは4つのstepを通して、作成された。

他の画像系のimage setの作成方法としては、 ImageNetの場合

COCO datasetの場合は

Placesでのdatasetの各stepについて詳しく述べる。

2.2.1 Step1: Downloading images using scene category and attributes

Places datasetは以下の方法で、画像の収集を行った。


Figure1. adjectiveごとの画像の例

2.2.2 Step2: Labeling images with ground truth category

step1で収集した画像をAmazon Mechanical Turc(AMT)にcloud sourcingする。 このstepでAMTのworkerで、分類可能なものを判別する。


Figure3. 画像の例

Figure4. AMTの画面の例

AMTによる画像のscene categoryの判別は、2度に分けて行われる。

3度目のAMTではNOと回答されるimageの数が有意な数に満たなかったので、判別には用いていない。

上記の2度のclearningで、7,076,580 の画像と476 scene categoryが得られた。 その中で、413 scene categoryは、少なくとも1,000あり、98 sceneについては20,000以上ある。

2.2.3 Step3: scaling up the dataset using a classifier

Spte2では、scene categoryを検索後として集めた画像がscene categoryに属するものかどうかを判別した。 Step3では、 classifierによって、NOと判別された53 millionの画像を再度476 scene categoryのいずれかに分け直すという作業を行う。 例えば、living-roomのqueryでbedroomの画像がDLされた場合は、living-roomかどうかという問に対してworkerはNOという回答をしている場合がある。 この画像については、bedroomというscene categoryを付与すれば、正しい分類になる可能性がある。 このように画像にscene categoryをつけなおし、再度AMTで判別を行う。

ここでは、AlexNetを使って53 millionの画像を再度分類する。 classifierの作成と分類は以下の方法で行う。

最終的に、401のcategoryが5,000 imagesをもち、240 scene categoryが20,000以上の画像をもった。 このstepで3 millionの画像が新たに追加された。

2.2.4 Step 4: Improving the separation of similar classes

SUN datasetはWordNetを用いてsynonymをまとめていたが、依然として幾つかの似たようなcategory名が存在した。 例えば、ski lodgeski resortgarbage dumplandfillなどである。 これらを手で、46のsynonymのpairにまとめて、1つのcategoryに統合した。

更に、いくつかのscene categoryは境界が曖昧なものがあることを発見した。


Figure5. 境界が曖昧なscene category

これらのcategoryでは、Does image belongs to A?などの一方に属する設問には回答しづらく、 Does image I belongs to class A or B?のような設問であれば回答しやすくなる。 Step3までのannotationの結果をみて、幾つかのscene categoryのpairでworkerが上記のような混乱していることが判明した。 例えば、canyonmountain, buttemountainなどである。 また、jacuzziswimming pool indoor, pondlake, volcanomountain, runwayhighwayroad, operating roomhospital roomなどである。 53の曖昧なcategoryを区別し、新しいAMTのinterfaceで再度workerに分類を依頼した。


Figure6. 境界が曖昧な画像に対するAMTの画面の例

最終的に、10,624,928 imagesと434のplaces categoryを得た。

3. Places Benchmarks

Places datasetを利用したbenchmarkについて述べる。 algorithmの検証用にPlaces datasetのsubsetとして幾つかのdatasetが提供されている。

4 Comparing Scene-Cenetric Datasets

Places88/ImageNet88/SUN88 benchmarkを用いてdataset間の比較を行う。 Places88が最も多くのdataをもつdatasetである。 次節でdatasetのdiversityについての比較を行う。

4.1 Dataset Diversity

image dataset間の比較はopen problemである。 image dataset間の比較において重要なのは、以下の2つである。

diversityを測るために、biologyでecosystem間の比較に利用されるSimpson index for diversityを応用する。 simpson index for diversityは、ecosystem間で異なる種がどの程度分布しているかを調べる指標として利用される手法である。

次のideaに基いて、simpson index for diversityを拡張する。 画像の集合$A$が集合$B$よりdiverseであるとは、$B$からrandomに選んだ2つの画像の類似度より、$A$からrandomに選んだ2つの画像の類似度の方が小さい。 $B$に対する$A$の類似度は

\[\begin{equation} \mathrm{Div}_{B}(A) := 1 - P(d(A_{1}, A_{2}) < d(B_{1}, B_{2})) \end{equation}\]

ここで、\(A_{1}, A_{2}\)は$A$からrandomに選んだ画像で、\(B_{1}, B_{2}\)は$B$からrandomに彫らんだ画像である。 式は、$d$は画像間の非類似度を与え、\(d(A_{1}, A_{2})\)は\(A_{1}, A_{2}\)の非類似度である。

\[\mathrm{Div}_{A_{2}, \ldots, A_{N}}(A_{1}) := 1 - P(d(A_{1, 1}, A_{1, 2}) < \min_{i=1, \ldots, N}d(A_{i, 1}, A_{i,2}))\]

\(A_{i,1}, A_{i, 2}\)は\(A_{i}\)からrandomに取得した画像。

この指標を用いて、SUN88, ImageNet88, Places88のdiversityをAMTを用いて行う。 ここで、AMTのworkerは式中のdiversityを測る$d$の役割を担う。

playgournd, veranda, waiting roomの3つのcategoryで比較した結果がFigure 8となる。


Figure8.

5 Convolutional Neural Networks For Scene Classification

で比較した結果を示す。 計算環境は

精度は1つだけ予測した場合と上位5つを予測結果とした場合の精度を示している。

Table 2

Figure 10.

5.2 Web-demo for Scene Recognition

Places-CNNのWeb demoが公開されている。 demo中のheatmapはCAM techniqueで生成している。

Reference