1、flickrを使い、いちご、トマト、りんごの画像をそれぞれ500枚ずつ集めた。
2、VGG16転移学習のプログラムから3つの画像の判別を行なった
結果は8個中7個正解
元のプログラムを書き換えて作ったがまだ十分に理解できておらず、判別する画像をランダムで8個選んでしまう
3、google collaboratoryでGPUを使うために写真とラベルをpickleファイルに変換した
google collaboratoryにおいてpickleファイルを解凍した写真を上記(2)のプログラムで使用する方法がわからない
庄司さんゼミで学んだことでプログラム作成中
4、商品棚から商品をとる動画を撮影した。(2)で判別できた画像を元にトリミングの仕方サイズなどをもっと考える
テーマ:機械学習を用いた読唇精度の向上
githubにあるLipNetのコードを動かそうとした.
https://github.com/rizkiarm/LipNet:知識不足で実装できず
https://github.com/sailordiary/LipNet-PyTorch:Macでは動いたが1epochが17日となったため、DL-BOXで動かそうとしたがCUDA8がPytorch1以上に対応しておらず断念。
https://github.com/osalinasv/lipnet:tensorflow1.1なのでDL-BOXでも動かせそう。前処理に48時間くらいかかりそうなので待ってます。(11/11の深夜に始めた)
(追記)CUDA9になってました
Stay Hungry, Stay Foolish!