https://github.com/sailordiary/LipNet-PyTorch DL-BOXのCUDAが9になっていたので動かせました。時間がかかりそうだったのでGPUが2枚以上使えないか色々調べたがRNNを含むコードには不向きらしい。。。
https://github.com/osalinasv/lipnet Kerasで実装されてる方も動いたので精度が良い方を使いたい。どちらもデータセットはGRIDコーパスhttp://spandh.dcs.shef.ac.uk/gridcorpus/を用いた。
自分で日本語のデータセットを作るためにもう一度LipNetに関する論文に目を通した。https://www.ams.giti.waseda.ac.jp/data/pdf-files/2019_asami_bt.pdf https://arxiv.org/abs/1611.01599
使われてるデータセットのGRIDはcommand + color + preposition + letter + digit + adverb で構成されている。(silは無声期間)