「画像関連」カテゴリーアーカイブ

画像・CG関連

今週の進捗(仮屋)

進捗

  • GPの学習:芹川先生にGPの参考書を貸して頂いたので、それを用いて学習を進めています。
  • 修士論文の作成:まずは原理を中心に研究をまとめています。年内完成を目標として論文作成中です。(約20ページ作成)

予定

  • パラメータ最適化手法の考案
  • 実験
  • 修士論文の作成
  • 英語学習(今年度中に再度TOEIC受験? 目標は115点UPの900点)

今週の進捗(ZHU)

今週の進捗

  • ReIDの理論知識とkivyの使用をさらに学ぶ。
  • 実験の必要性のため、今週は画像処理の基本動作、例えば画像の増強とサイズの変化を行った。

図1 画像の増強とサイズの変化

  • 特定の画像の歩行者検出と、ビデオ内の顔のリアルタイム検出を実現します。

  • 歩行者の再識別の研究における重要なステップとして、リアルタイムのビデオ取得に基づいて、次のステップは、ビデオ内の歩行者のリアルタイム検出の実現を試みることです。

Continue Reading ››

M1ゼミ

金當:アンドロイドスマホでカメラ機能を実装したので、今週はプログラムで画面輝度調整できるようにする。

井上:先行研究調査→webカメラだけで熱源を感知する研究はなかったので、基礎実験を行う。TOEIC650超えを狙う。

庄司:色々試してください、成功した場合記録を残るように!

B4ゼミ

財前:動く背景の除去を優先し、オプティカルフローやシフトなどのアルゴリズムからヒントを得てください。

五十君:fastTextの学習用データの構成仕方を確認し、一つのお店の商品名モデルを構成する。

水戸:目線マウスにするため、手を使うのがよろしくないので、顔ののパーツに機能をつける。ただし、目線を使うと目による情報収集に支障が出ますので、カーソルの動きは顔の向きでコントロールした方が良いと思われる。目の瞬きなどをクリックなどのアクションに割り当てる。

二石:偏光板の光に対する透過率と偏光率が定義されているので、これは人間の視認性と機械の可視性の折り合いがつくものに選べば、現存の交通標識適用可能との結論に持っていきたい。

白石:NPZファイルの構成が正しくない可能性があるので、動くサンプルをもう一度中身について解析し、エラーの原因を見つける。

北原:データの前処理が時間がかかり、処理待ち状態です。DL-BOXがCUDA9.0にアップデータしたので、使用可能かを確認すること。

今週の進捗(水戸)

関数pyautogui.moveTo()により指定した座標までカーソルを持っていけることを確認した。次にシステム構成を考案した。先週は顔の方向ベクトルと黒目の位置により視点を定める方針にしていたが、もっと簡易的なシステムを作り上げたのち処理の複雑化をしたほうが効率的だと考えた。カーソル移動とスクロールでモード分けする予定です。

簡易的なシステムの条件を以下とする。
・カメラの位置はディスプレイの中心
・被験者はカメラの正面に立つ。ディスプレイ表示で正面に来るよう指示
・モード変更はスペースキーで行う

[カーソル移動、クリック]
・顔の向きはカメラと正対
・左右の黒目の座標を結んだ線分の中点を基準点とし、画面の左右上下端を見た時の座標で長方形ができるはずなのでディスプレイの大きさとの比率でカーソルの移動量を定める
・クリック動作は両目を1秒以上閉じたときとする。動作時にクリック音をスピーカー出力する。

[スクロール]
・顔の方向ベクトルの計算によりある値より大きくなるとその方向にスクロール
・目線情報はスクロールの際の材料にしない。

※カーソル移動について、斜視の人でない限り左右の瞳は同じ動きをするのでどちらか一方の瞳を用いてカーソルの移動量を計算する方法も検討する。

※中点の出し方
{(右の瞳の座標)+(左の瞳の座標)} / 2.0

システム構成イメージ

今週の進捗(ZHU)

今週の進捗

  • 歩行者の再識別(ReID)-Deep learning person re-identification in PyTorch, 異なるデータセットで個別にトレーニングとテストを行う(s- dukemtmcreid /-t- market1501)。
  • 張先生の指導の下、実験の別の部分が始まりました:
  • (1)環境の構築を実行し、簡単なゲームアプリを実装することにより、開発プロセスを一般的に理解します(図 1、2、3)。
  • (2)kivyとpygameを使用して、カメラから撮影した写真を表示します(図 4、5)。

図 1.私の最初の App

図2. ログインインターフェイス(基本機能はまだ実装されていません

Continue Reading ››

B4ゼミ

財前:商品のトリミングを研究のキーポイントとする。現場でいくつかの商品を手に取る写真を取得し、商品の切り出しアイディアを考える。ソフトでするか、ハード(レンズの焦点距離固定か)を再考する。眼の不自由の人のプライドを考えて手法を考案する。

水戸:Dlibを使用し、顔の向きが検出できた。顔の方向ベクトルと瞳の座標を組み合わせて、視線位置を検出するアルゴリズムの作成を行う予定。投稿にフローチャットを追加してください。

五十君:日本に売られている商品名を単語分散表現で表す場合、いっぱんてきな言葉の単語表現との差があれば、商品名を単語分散表現のマップを作成する。

白石:機械学習VSMに入力するためのデータセット(NPZファイル)を画像から作成する。完成次第連絡。

二石:偏光フィルムでQRCodeを作成し、日光、夜間での検出実験を行う、結果次第で次へ進む。

北原:lipNetの学習データセットの作り方が分かったので、言葉数は日本語の50音を網羅したセットを用意する、話者は20名を目標とする。オリジナルLipNetを一回動かす!

今週の進捗(水戸)

dlibを用いた顔検出において、左右の瞳の座標を得るように先週のプログラムを改良した。また、その2つの座標を結んだ線分の中点の座標を得ようとプログラムを書き換えたがうまくいかなかった。(図1)

調べた結果Openfaceを用いると顔の方向ベクトルを検出できるようなのでプログラムを実行してみた。(図2)顔の向きにより大まかな視線の方向を推定し、瞳の座標により視線位置の特定ができるといいかなと思っている。

今後は、顔の方向ベクトルと瞳の座標を組み合わせて、視線位置を検出するアルゴリズムの作成を行う。アルゴリズムに関しては思考中です。

図1 フレームレートと左右の瞳座標を表示させた

図2 顔の方向ベクトルを表示している

M2ゼミ

全員

仮屋:GPの関数を追加し、再実験を行った。修論を一段まとめてから、深く研究を継続する。

藤島:RaspBerry Pi 不調、フォーマットし直したものを渡し、再度構築する。

赤瀬:修論作成に専念、現在のクラスファイルに年号の記載が平成のままになったいるようで、これをのちほど修正する。

中尾:DlibをRaspberry PIにインストールし、これから試す。LED点灯回路を作る。