2016年01月29日

スキャンデータ取込の精度

いよいよ今日からスキャンデータ取込機能の提供を始めました。レシートや領収書をスキャナーで読み取り、その画像データから会計(仕訳)データを生成することができます。これによって、会計業務の最初から最後までを一貫して自動化する会計業務 3.0が実現します。

ただ、現時点では、100%完全な自動化とはいきません。やはり確認、そして必要に応じて修正は必要。スキャンデータ取込の場合、画像データから、OCR(光学文字認識)処理によって、日付/店舗(会社)名/金額という取引データをどれぐらいの精度で読み取れるかが、自動化の精度を左右します。
現状がどのレベルなのか、実際にサンプルで見て頂くのが早いかと思います。

2016012901.png

まず一枚目の画像ですが、画面の下、左手にスキャンしたレシートが表示されています。この画像から、日付、店舗名(最終的な仕訳データでは摘要として扱われます)、そして金額が正しく読み取られています。これだけの情報があれば、既存のYAYOI SMART CONNECTの推論エンジンによって、仕訳データを自動で作成することができます。この例で言えば、店舗名の中にある「書店」という単語を手がかりに、「新聞図書費」という勘定科目が選択されますし、この後の例では「エムケイ」や「MK」といった単語から「旅費交通費」が選択されます。

2016012902.png

次に二枚目の画像ですが、こちらも日付/店舗名/金額が正しく抽出されています。実は、今回のスキャンデータ取込では、こういったレシートから正しくデータを抽出するために一つの工夫が盛り込まれています。OCR処理では、印字された数字はかなりの確率で正しく読み取ることができますが、それに比べると、文字はやや苦手。さらに、文字と言っても、最近のレシートではかなり一般的な、ロゴ化された店舗名はかなり苦手です。この画像のレシートでも、「宮きしめん竹三郎」という店舗名はロゴ化されていますから、このままでは正しく読むことができません(なんできしめんなんだ、という突っ込みはご容赦下さい、たまたま手元にあったものを使用しています、笑)。

実は、スキャンデータ取込では、店舗名を読むのではなく、レシート/領収書には一般的に印字されている電話番号を読み取っています。読み取った電話番号と電話帳データを照合し、電話帳データから店舗名を取り込んでいるのです。今回のスキャンデータ取引を開発するにあたって、店舗名を直接OCRで読み取る方法と、電話番号をOCRで読み取って電話帳データを参照する方法とで比較した結果、後者の方が圧倒的に読み取れる確率が向上したため、この方式を採用しています。

ただ、この方法も完璧ではなく、電話帳データが更新されていないために、その電話番号で以前営業していた店舗名が出てくるということも稀に発生します。特に、同じ会社が運営している別ブランドにお店が変わった場合(あくまでもイメージですが、例えば、スカイラークからガストに変わったようなケース)に、電話番号が変わっていないが故に、前の名称で出てくることがあります。

2016012903.png 

次の画像ですが、これは店舗(会社)名こそ読み取れているものの、日付を読み取れておらず、また金額も誤っています。これは領収書画像を見ていただければわかりますが、日付や金額が手書きになっているためです。やはり、現時点の技術では、手書きのOCRは難しい(ただし、それこそ確定申告書のように、数字が手書きされるエリアが特定されており、なおかつ、OCRで読みやすい書体で手書きされれば読み取れる確率がぐんと向上します)。このように、読み取れない情報、あるいは誤った情報がある場合には、該当項目をこの画面で入力/修正する必要があります。なお、読み取れない情報がある場合には、データの編集エリアの「確定情報」という項目が「?要確認」となっており、そのままでは「確定して次へ」をクリックできないようになっています。

2016012904.png 

最後の画像ですが、これは日付/金額は読み取れているものの、店舗(会社)名が読み取れていないケース。ちょっとわかりにくいかもしれませんが、これはホテルのA4サイズの領収書。サイズが大きく、どこにどんな情報が書いてあるかの判別が難しいために、電話番号を見つけられなかった(それゆえに店舗名も埋められなかった)ケースです。

このように、現時点でのOCR処理は完璧ではなく、そのため100%の自動化とまではいきません。ただ、100%ではなくとも、可能な範囲でデータ化されることにより、ほとんどの場合は、一から手で入力するよりは圧倒的に早く処理することができます。ほとんどの場合と書いたのは、プロである会計事務所の場合は、高速に入力することに慣れているが故に、手で入力のほうが速いケースも存在するからです。逆に言えば、プロではない一般の事業者の場合は、この機能をうまく活用することによって、大きな業務効率化を実現できます。

もっとも、現状の読み取り精度で満足しているわけではありません。今後とも改善を続けることによって、自動化の率を上げていきたいと思っています。これはOCRの精度を上げるだけではなく、POSベンダーと協力して、レシート/領収書上に2次元バーコードを印字してもらうといったやり方も考えられます。この先、軽減税率の導入とともに、レシート/領収書に法人番号のような事業者を特定する情報を印字するようになってくるかと思いますが、そのタイミングで、レシート/領収書上に日付/法人番号/(税率ごとの)金額を埋め込んだ2次元バーコードを印字することも日本全体として業務の効率化を進めていく上では有効なやり方なのではないでしょうか。もちろんその先には、そもそもレシート/領収書を紙で印刷せず、最初から電子データとして発行するという世界も目指すべきだと考えています。

将来的には、最初から全てが電子データとして自動処理されるようになる。それこそが、真の会計業務 3.0の世界です。ただ、一気にそこまでは行かなくても、まずはできるところからの自動化でも、これまでの業務から大きく効率化を実現することができます。実際に使えるかどうか。これは是非ご自身で試して頂ければと思います。
posted by 岡本浩一郎 at 23:50 | TrackBack(0) | 弥生