財前:商品のトリミングを研究のキーポイントとする。現場でいくつかの商品を手に取る写真を取得し、商品の切り出しアイディアを考える。ソフトでするか、ハード(レンズの焦点距離固定か)を再考する。眼の不自由の人のプライドを考えて手法を考案する。
水戸:Dlibを使用し、顔の向きが検出できた。顔の方向ベクトルと瞳の座標を組み合わせて、視線位置を検出するアルゴリズムの作成を行う予定。投稿にフローチャットを追加してください。
五十君:日本に売られている商品名を単語分散表現で表す場合、いっぱんてきな言葉の単語表現との差があれば、商品名を単語分散表現のマップを作成する。
白石:機械学習VSMに入力するためのデータセット(NPZファイル)を画像から作成する。完成次第連絡。
二石:偏光フィルムでQRCodeを作成し、日光、夜間での検出実験を行う、結果次第で次へ進む。
北原:lipNetの学習データセットの作り方が分かったので、言葉数は日本語の50音を網羅したセットを用意する、話者は20名を目標とする。オリジナルLipNetを一回動かす!
テーマ:機械学習を用いた読唇精度の向上
dlibを用いてデータセットの前処理(動画から唇だけを取り出す)の練習をした。用いたデータセット(GRID)http://spandh.dcs.shef.ac.uk/gridcorpus/ (LipNetに用いられていたもの) gitlabに使ったプログラムをあげた。
↑GRIDの動画
↑mpgを70枚のjpgにした
↑自分で撮った動画でもやってみた
・来週の目標:画質が荒くても良いのかまだわからないので、プログラムを動かして検証してみる
テーマ「文字認識を用いた買い忘れ防止案」
今週の進捗
①fastTextをインストールすることができた。
②マッチング方法について、再度考え直し、レシートから読み取れた商品名がどの種類の食品なのかをfastTextを用いてクラス分類できると一番良いと考えた。
研究相談
・上記の②のことを実現するため、学習用データをどうしたらよいかが現状分かりません。色々な食品の品種名を一覧でまとめてくれているサイト(例、お米の品種一覧:https://ichiranya.com/technology/002-rice.php )があり、URLを指定すればそこから記事をピックアップして学習させることができることは、こちらのサイト(https://www.pytry3g.com/entry/gensim-word2vec-tutorial )から分かったのですが、こちらのサイトの中でのkeywordに当たる部分は、自分の場合はどうしたら良いかが分かりません。
dlibを用いた顔検出において、左右の瞳の座標を得るように先週のプログラムを改良した。また、その2つの座標を結んだ線分の中点の座標を得ようとプログラムを書き換えたがうまくいかなかった。(図1)
調べた結果Openfaceを用いると顔の方向ベクトルを検出できるようなのでプログラムを実行してみた。(図2)顔の向きにより大まかな視線の方向を推定し、瞳の座標により視線位置の特定ができるといいかなと思っている。
今後は、顔の方向ベクトルと瞳の座標を組み合わせて、視線位置を検出するアルゴリズムの作成を行う。アルゴリズムに関しては思考中です。
図1 フレームレートと左右の瞳座標を表示させた
図2 顔の方向ベクトルを表示している
全員
仮屋:GPの関数を追加し、再実験を行った。修論を一段まとめてから、深く研究を継続する。
藤島:RaspBerry Pi 不調、フォーマットし直したものを渡し、再度構築する。
赤瀬:修論作成に専念、現在のクラスファイルに年号の記載が平成のままになったいるようで、これをのちほど修正する。
中尾:DlibをRaspberry PIにインストールし、これから試す。LED点灯回路を作る。
RasberryPiにTensorflowをインストールしたが、インポートできない。 おそらく様々なバージョンのPythonをインストールしたからだと思われる。 RasberryPiを再インストールしようとしたが行う事ができない。 USBを設定したからだと思われる。 現在RasberryPiが起動できない状態になっている。
先週の進捗
歩行者の再識別(ReID)-Deep learning person re-identification in PyTorch:
1. する対応する記事を読む:《Torchreid: A Library for Deep Learning Person Re-Identification in Pytorch》,《Omni-Scale Feature Learning for Person Re-Identification》,《Re-ranking Person Re-identification with k-reciprocal Encoding》..
2.先週始めたばかり,モデルトレーニングが完了し,合計時間かかります:11days,3:15:55,直後:Train and test a model:To train OSNet on Market1501
Continue Reading ››
進捗
画像処理ノードとして膨張処理関数・収縮処理関数・ソーベル関数を追加した。
上記の関数を追加して再度プログラムを実行したところ、評価値(Lev_value)が2.38まで改善した。
図1.最優秀個体を用いた場合の出力画像
図2.最優秀個体を用いた場合の文字認識結果
予定
ノードとなる画像処理関数の検討と追加
優秀個体の選択・交叉アルゴリズムの学習
論文作成
参加:庄司以外
井上:研究テーマを絞る。一つの課題に対し、論文を漁り、その研究の現状を知ることが大事です。
梶岡:顔のいろんな箇所に色差分、場所間差分を取り、飲酒の際の変化を顕著なデータを探る。ビデオデータを取得しておく。
金當:TOEICをもう一回挑戦しよう。研究について、時間を作って、試す。今週は画面輝度調節アプリを挑戦しましょう。
〇今週の進捗
アプリ開発 参考書
アルコール摂取 基礎実験
TDK ES完成(11/14面談予定)
右頬、左頬、白目の3か所を対象にBGRの変化を簡易的にではあるが取ってみた。今回はとりあえずどの色に着目するかを決めようと思ったのでフィルタ処理などはしていない。以下に結果のまとめがある。
〇考察
青、緑は変化がまちまちで参考にはならないかもしれない。やはりお酒を飲むと顔が赤らむのでそこに注目したほうがよさそう。
〇今後の課題
投稿ナビゲーション
Stay Hungry, Stay Foolish!