北原瑠伊のすべての投稿

個別ゼミ, 張先生

今週の進捗(北原)

2019年12月4日北原瑠伊コメントする

・テーマ「機械学習を用いた読唇精度の向上」

Improvement of the lip reading system using by machine learning

11人に15通り発音してもらい、その内フレーム毎の正解ラベルを5人まで貼った。ラベルを貼る作業を続けながら発話者を増やしてデータを集めていきたい。

個別ゼミ, 張先生, 研究相談

今週の進捗(北原)

2019年11月20日北原瑠伊コメントする

https://github.com/sailordiary/LipNet-PyTorch　DL-BOXのCUDAが9になっていたので動かせました。時間がかかりそうだったのでGPUが2枚以上使えないか色々調べたがRNNを含むコードには不向きらしい。。。　

https://github.com/osalinasv/lipnet Kerasで実装されてる方も動いたので精度が良い方を使いたい。どちらもデータセットはGRIDコーパスhttp://spandh.dcs.shef.ac.uk/gridcorpus/を用いた。

自分で日本語のデータセットを作るためにもう一度LipNetに関する論文に目を通した。https://www.ams.giti.waseda.ac.jp/data/pdf-files/2019_asami_bt.pdf　https://arxiv.org/abs/1611.01599

使われてるデータセットのGRIDはcommand + color + preposition + letter + digit + adverb で構成されている。(silは無声期間)

個別ゼミ, 張先生, 研究相談

今週の進捗(北原)

2019年11月12日北原瑠伊コメントする

テーマ：機械学習を用いた読唇精度の向上

githubにあるLipNetのコードを動かそうとした.

https://github.com/rizkiarm/LipNet:知識不足で実装できず

https://github.com/sailordiary/LipNet-PyTorch:Macでは動いたが1epochが17日となったため、DL-BOXで動かそうとしたがCUDA8がPytorch1以上に対応しておらず断念。

https://github.com/osalinasv/lipnet:tensorflow1.1なのでDL-BOXでも動かせそう。前処理に48時間くらいかかりそうなので待ってます。(11/11の深夜に始めた）

(追記)CUDA９になってました

個別ゼミ, 張先生, 研究相談

今週の進捗(北原)

2019年11月6日北原瑠伊コメントする

テーマ：機械学習を用いた読唇精度の向上

dlibを用いてデータセットの前処理(動画から唇だけを取り出す)の練習をした。用いたデータセット(GRID)http://spandh.dcs.shef.ac.uk/gridcorpus/（LipNetに用いられていたもの) gitlabに使ったプログラムをあげた。

↑GRIDの動画

↑mpgを７０枚のjpgにした

↑自分で撮った動画でもやってみた

・来週の目標：画質が荒くても良いのかまだわからないので、プログラムを動かして検証してみる

個別ゼミ, 張先生, 研究進捗

今週の進捗(北原)

2019年10月30日北原瑠伊コメントする

テーマ：機械学習を用いた読唇精度の向上

先週のゼミで指摘された通り、斎藤先生のプログラムの中身を調べたhttps://github.com/kyutech-saitoh/3D-CNN-for-Lip-Reading-Challenge2019 学習用データとテストデータのラベルはテキストファイルによって紐付けされていた。自分で少ないデータセットを用いてプログラムを書き換えて実行しようとしたが、１つのフォルダの中に発話シーンの画像が数十枚あり、そのフォルダごとに正解ラベルがあって挫折したので、斎藤先生のプログラムを活用したい。データセット（SSSDhttp://www.slab.ces.kyutech.ac.jp/SSSD/index_ja.html)に用いた画像は、Dlibを用いて唇を抽出しているみたい。

LipNet(https://github.com/rizkiarm/LipNet)の中身を知る前にgit cloneして動かせるか確認したが、pip install -e .する際にgccが入ってないみたいなエラーが３件くらい出て検索したところXcodeを入れれば治ると書いてあったが、入れてみたところ変化なし。

張先生, 研究進捗

今週の進捗(北原)

2019年10月23日北原瑠伊コメントする

ディープラーニングボックスに接続してPythonの仮想環境を構築してKerasのverを合わせた。

基本情報の試験を受けた。

・来週の目標：dlibを用いて唇の特徴点の抽出を行う

張先生, 画像関連

今週の進捗(北原)

2019年10月16日北原瑠伊コメントする

SSSDをもらった斎藤先生からもらったサンプルコードを動かそうと思ったが、とても遅いのでグーグルのGPUサービスを使うためにデータセットをpickleに変換中。https://github.com/kyutech-saitoh/3D-CNN-for-Lip-Reading-Challenge2019

個別ゼミ, 張先生

2019年10月2日北原瑠伊コメントする

公開されている日本語のデータセット:http://www.slab.ces.kyutech.ac.jp/SSSD/index_ja.html

目を通したもの　

https://www.ams.giti.waseda.ac.jp/data/pdf-files/2019_asami_bt.pdf

　http://lang.sist.chukyo-u.ac.jp/classes/seminar/Papers/2015/Pariaska-2016.pdf#search=%27パリアスカケンジ，”Deep+Learning+による読唇システム%27

個別ゼミ, 張先生