五十君 良寿 のすべての投稿

今週の進捗(五十君)

テーマ「文字認識を用いた買い忘れ防止案」

今週の進捗

・fastTextの学習済みモデルによる類語抽出を試してみたが、食品以外にもたくさんの言葉が学習されているため、1単語に対しての類語抽出に約1分30秒ほどかかり、類語も食品とは関係ないものばかり抽出されました。

研究相談

http://tech.wonderpla.net/entry/2017/10/10/110000

https://qiita.com/kaka__non/items/0c5efaaa61cc1c4a553b

以上のサイトを参考にして、例えばお米の品種について学習させようとして学習データを作るとすると、(_label_1 = お米)

「_label_1,コシヒカリ ひのひかり あきたこまち ・・・」

「_label_1,あきたこまち ひのひかり コシヒカリ ・・・」

「_label_1,ひのひかり コシヒカリ あきたこまち ・・・」

とこんな感じで、品種名を入れ替えたテキストをいくつも用意すればいいのかと考えましたが、これは学習データとして適しているのでしょうか?

今週の進捗(五十君)

テーマ「文字認識を用いた買い忘れ防止案」

今週の進捗

①fastTextをインストールすることができた。

②マッチング方法について、再度考え直し、レシートから読み取れた商品名がどの種類の食品なのかをfastTextを用いてクラス分類できると一番良いと考えた。

研究相談

・上記の②のことを実現するため、学習用データをどうしたらよいかが現状分かりません。色々な食品の品種名を一覧でまとめてくれているサイト(例、お米の品種一覧:https://ichiranya.com/technology/002-rice.php)があり、URLを指定すればそこから記事をピックアップして学習させることができることは、こちらのサイト(https://www.pytry3g.com/entry/gensim-word2vec-tutorial)から分かったのですが、こちらのサイトの中でのkeywordに当たる部分は、自分の場合はどうしたら良いかが分かりません。

今週の進捗(五十君)

テーマ「文字認識を用いた買い忘れ防止案」

今週の進捗

・買い物前に登録した商品名とレシートから読み取った商品名のマッチングのため、レシートから読み取った商品名から類語を抽出し、抽出された言葉と登録した商品名が合致していれば「この商品は購入した」と認識させるようにしたいと考えた。そのために、自然言語用の学習モデルについて調べ、fastTextが良さそうだと思い、fastTextをインストールしようとしたが、fastTextをインストールする前にMecab,Cygwinなどをインストールする必要があったので、現在はそれらのインストールに時間を取られています。

https://qiita.com/yakipudding/items/e798614ca833d264abf3

今後の課題

・fastTextで上記のことができそうなのであれば、fastTextの学習用データをどうするのか考える。

今週の進捗(五十君)

・今週の進捗

PythonでOCRを試しに使ってみようと思い、ネットから拾ってきたレシートの画像の一部を切り出し、それをOCRにかけてみた。きちんと文字が認識されていた。

・今後の課題

OCRで読み取った日本語は、半角の空白が文字の間にあり、それが文字を比較するときに邪魔なので対応を考える。