テーマ「文字認識を用いた買い忘れ防止案」
今週の進捗
・fastTextの学習済みモデルによる類語抽出を試してみたが、食品以外にもたくさんの言葉が学習されているため、1単語に対しての類語抽出に約1分30秒ほどかかり、類語も食品とは関係ないものばかり抽出されました。
研究相談
①
http://tech.wonderpla.net/entry/2017/10/10/110000
https://qiita.com/kaka__non/items/0c5efaaa61cc1c4a553b
以上のサイトを参考にして、例えばお米の品種について学習させようとして学習データを作るとすると、(_label_1 = お米)
「_label_1,コシヒカリ ひのひかり あきたこまち ・・・」
「_label_1,あきたこまち ひのひかり コシヒカリ ・・・」
「_label_1,ひのひかり コシヒカリ あきたこまち ・・・」
とこんな感じで、品種名を入れ替えたテキストをいくつも用意すればいいのかと考えましたが、これは学習データとして適しているのでしょうか?
テーマ「文字認識を用いた買い忘れ防止案」
今週の進捗
①fastTextをインストールすることができた。
②マッチング方法について、再度考え直し、レシートから読み取れた商品名がどの種類の食品なのかをfastTextを用いてクラス分類できると一番良いと考えた。
研究相談
・上記の②のことを実現するため、学習用データをどうしたらよいかが現状分かりません。色々な食品の品種名を一覧でまとめてくれているサイト(例、お米の品種一覧:https://ichiranya.com/technology/002-rice.php)があり、URLを指定すればそこから記事をピックアップして学習させることができることは、こちらのサイト(https://www.pytry3g.com/entry/gensim-word2vec-tutorial)から分かったのですが、こちらのサイトの中でのkeywordに当たる部分は、自分の場合はどうしたら良いかが分かりません。
テーマ「文字認識を用いた買い忘れ防止案」
今週の進捗
・買い物前に登録した商品名とレシートから読み取った商品名のマッチングのため、レシートから読み取った商品名から類語を抽出し、抽出された言葉と登録した商品名が合致していれば「この商品は購入した」と認識させるようにしたいと考えた。そのために、自然言語用の学習モデルについて調べ、fastTextが良さそうだと思い、fastTextをインストールしようとしたが、fastTextをインストールする前にMecab,Cygwinなどをインストールする必要があったので、現在はそれらのインストールに時間を取られています。
https://qiita.com/yakipudding/items/e798614ca833d264abf3
今後の課題
・fastTextで上記のことができそうなのであれば、fastTextの学習用データをどうするのか考える。
今週の進捗
・レシートの画像に、ノイズ除去や二値化(閾値自動決定型)を施してみて、どれを組み合わせれば一番精度良く文字認識ができるのかを試した。
今後の課題
・商品名の比較方法について考える。
・今週の進捗
PythonでOCRを試しに使ってみようと思い、ネットから拾ってきたレシートの画像の一部を切り出し、それをOCRにかけてみた。きちんと文字が認識されていた。
・今後の課題
OCRで読み取った日本語は、半角の空白が文字の間にあり、それが文字を比較するときに邪魔なので対応を考える。
今週の進捗
・研究のテーマを、顔色からその人の健康状態を判断するのではなく、目の色(白目の部分・あっかんべーをしたときに見える赤い部分)から健康状態を判断するという方向で行きたいと考えました。
今後の課題
・課された宿題をまだやっていないので取り掛かる。
今週の進捗
・OpenCVについて調べた。
今後の課題
・出された宿題をやるための環境構築をする。
今週の進捗
・オープンキャンパスで、高校生たちにゲームをやらせてあげて、その原理なども説明した。また、先週に引き続きProgate(https://prog-8.com/)を使ってPythonの勉強をした。
今後の課題
・OpenCVについて、まだ何も知らないので勉強する。
今週の進捗
・Progate(https://prog-8.com/)というサイトで、Pythonの基本的なプログラミングを勉強した。
今後の課題
・引き続きPythonについて勉強する。
今週の進捗
・anacondaをインストールし、少し触ってみた。
今後の課題
・画像を集めたり、本格的に研究を始めるための下準備を進める。
Stay Hungry, Stay Foolish!