テーマ 顔によるカーソル操作法の提案 Proposal of cursor operation method by face
進捗 ・カメラのどの位置にいても顔向きを推定できるようにプログラムを改良した。 ・1秒間目を閉じると音とともに左クリックするプログラムを実装した。 ・1秒間口を開けるとスクロールモードを追加するプログラムを実装した。 ・1秒間目や口の開閉の判別条件を決定するためにデータを取ってプロットし、判別条件を付け加えた。
条件:(Eye_Aspect_Ratio)<0.20 が20フレーム連続して満足 →左クリック 条件:(Mouth_Aspect_Ratio)>0.60 が20フレーム連続して満足 →スクロール機能の追加
予定 ・入力フォームにて左クリックしたら文字を入力できるようにTkinkerを用いて仮想キーボードを表示、使用する機能の追加 ・クリック音は現状ビープ音「ソ」なのでクリックしたような音になるように改良する ・12月から実験開始できるように、Pythonの勉強も兼ねて評価シートを作成、解析するプログラムの作成
目の開き具合(Eye_Aspect_Ratio)をプロットした。 2回まばたき、1回しばらく目を閉じた。
口の開き具合(Mouse_Aspect_Ratio)をプロットした。 3回パクパク、2回しばらく口を開けた。
今週の進捗
1.歩行者の再識別(ReID)-Deep learning person re-identification in PyTorch、重要なテストフェーズで、問題が発生しました----ValueError: Buffer dtype mismatch, expected 'long' but got 'long long'。
windownsシステムとLinuxオペレーティングシステムのデータ型定義方法が異なるため、長い間見つける理由は解決していません。また、多くのソースプログラムはLinuxオペレーティングシステムに基づいているため、Ubuntu 16.04LTSシステムは張先生と彼のクラスメートの助けを借りてインストールされます。この時点で、トレーニングからやり直します。
図1 Ubuntuシステム
2.先週、画像とビデオのリアルタイム顔検出が実装されました。先週のカメラのリアルタイムビデオキャプチャの前提の下で、ビデオで最初に実装された画像(単一およびバッチ)およびマルチターゲット検出。これに基づいて、歩行者検出のみが実装されます。
Continue Reading ››
全員出席
井上:カメラによる熱源検出実験措置を作成し、ビデオ画像を習得した。基礎アイディアの確認からプログラムを作成する。
金當:スマホの画面輝度調整アプリの試作に成功したので、画面に縦横、放射状の線を配置するなど、乱視検出に必要な工夫を自ら考案する。
梶岡:顔から多数箇所の輝度値を取得できるプログラムを完成し、これから酒を飲み、実験を協力する人を探す。
庄司:筆跡判定のための学習データに不具合のあるデータが存在していたことに気づき、これから不具合を解消させ、実験を行う。DockerよるGPUマシン運用を提案し、これから運用手法を確立し、運用マニュアルを作成する。来春に向け、本格運用を目指す。
今週の進捗 - dockerの調査 - jetsonの勉強会に参加 - 企業との面接 - 筆跡鑑定のコードレビュー
今後の予定 - webテスト(CAB)対策 - 筆跡鑑定のプログラム修正 -dockerの運用方法のマニュアル作成
○3週間分の進捗
TDK面談 役員面談にも招待されたので1月にまた面談に行く
冬季インターン申し込み(オリンパス)
Webテストの勉強
研究 プログラムを目と頬を同時に測定するように改正
再現用の動画を撮影
ネット参考に簡単なアプリを作成
○今後の課題
Webテスト受験
研究計画表を作成したのでそれ通りに進めていく
今週の進捗
ES作成(Panasonic)
基礎実験用の器材作成・動画撮影→完了
実験用プログラム作成→実施中 動画に対して、1フレームを9分割(変更可能)し、それぞれの画素(暫定的に赤)の平均値を算出するプログラム作成中 →9割完成しているが 1フレームごとの9個の平均値を格納したリストがループ中は中身が存在するが、処理終了後、空になる問題 が発生中
今後の課題
エラーの解決
作成したプログラムの処理速度の高速化 →CPUの使用率を任意で変更を検討(現状は24%しか使えていない) 1300フレームの処理に10~15分ほど必要
TOEICの勉強
ES作成(Panasonic)
進捗
SeekBarを用いて、(アプリ内での)画面の輝度を変化させるアプリを作成
SeekBar(赤色のバー)を左右に動かすことで輝度を変化させる
課題
インターンシップに向けES作成
androidアプリ開発の勉強
https://github.com/sailordiary/LipNet-PyTorch DL-BOXのCUDAが9になっていたので動かせました。時間がかかりそうだったのでGPUが2枚以上使えないか色々調べたがRNNを含むコードには不向きらしい。。。
https://github.com/osalinasv/lipnet Kerasで実装されてる方も動いたので精度が良い方を使いたい。どちらもデータセットはGRIDコーパスhttp://spandh.dcs.shef.ac.uk/gridcorpus/ を用いた。
自分で日本語のデータセットを作るためにもう一度LipNetに関する論文に目を通した。https://www.ams.giti.waseda.ac.jp/data/pdf-files/2019_asami_bt.pdf https://arxiv.org/abs/1611.01599
使われてるデータセットのGRIDはcommand + color + preposition + letter + digit + adverb で構成されている。(silは無声期間)
GRIDのアライメントの一つ
テーマ「文字認識を用いた買い忘れ防止案」
今週の進捗
①fasttext用の学習データを、まずは、お米・牛乳・パンの3種類で作成した。
②Amazon APIを使う方法も先週は考えていたが、調べてみるとこれには厳しい審査を通る必要があるのでこちらは辞めようと思った。fasttextの方に専念する。
今後の課題
・fasttextはインストールできていたのだが、python用のfasttextモジュールはインストールできていなかったことが分かり、そのせいで作成した学習データをfasttextに学習させることができなかった。そして、fasttextの公式のページhttps://fasttext.cc/docs/en/support.html
これに書いてある通りに、fasttextモジュールを入れても、pyファイルを実行すると「そのモジュールはありません」と表示されるので、これの対応を考える。
各顔パーツのランドマーク座標を取得し、距離を計算することによって顔の向きを上下左右4方向特定することができた。また、検出したむきにあわせてカーソルの移動を行うプログラムを実装した。ただし動きがぎこちなく操作にストレスがかかる状態。
両目を1秒間閉じると音声とともに左クリックするプログラムを実装中。
口の開閉認識もできるため、スクロールを行う際にモード変更ができるように改良する。
12月から被験者を募って実験が開始できるように操作のストレスがなくなる工夫を考えて付け加える。
両目を1秒間閉じるとクリックする関数がうまくいきません
def blink_counter(ear):
CLOSE_COUNTER = 0
BLINK_COUNTER = 0
while ear < 0.20:
CLOSE_COUNTER +=1
if CLOSE_COUNTER > … Continue Reading ››
投稿ナビゲーション
Stay Hungry, Stay Foolish!