読者です 読者をやめる 読者になる 読者になる

サイズの違う画像の扱い

reddit machine learningから、学習に使うときの画像の取り扱い方を独断と偏見によりまとめた。

www.reddit.com

方法(大体3通り)
1. 大きい画像に合わせて小さい画像の周りを0(黒)もしくは何らかの計算をした値で埋める
2. 小さい画像に合わせて大きい画像の周りを切り取る
3. 画像をリサイズして合わせる

表出する問題
1. 埋めたピクセル(黒とか)が画像全体の認識に影響を与える可能性がある
2. 切り取られた部分のアノテーションは考慮されなくなる
3. 引き伸ばし過ぎ、縮め過ぎると自然な画像では無くなってしまう(歪む、ぼやける)

どれが一番いいのかはぶっちゃけよく分かってない。
ただ、1.は元の画像に異物を混入しているわけで、あまり使いたくはないというイメージがある。

基本的に端に検出が必要なアノテーションなど無ければ画像の周りを適当な大きさに切り取って使えば良いだろう。

しかし、もしそうでなければリサイズかピクセルで埋め立てをする必要があるだろう。どちらも画像の縦横比が比較的1:1に近いかつ他の画像と極端に大きさが違わない場合は問題ないだろうが、ここらの使い分けってどうなってるのだろう?