前回の日記から続く、PDFファイルから電子取引データをある程度自動で抽出して、検索機能を付けて保存できるかトライしている件。
仕事の合間に亀のようにちびちびとやっているのでなかなか進みませんが、PDFファイルをドラッグアンドドロップすると、そのPDFファイルを表示して、日付を抜き出してくるところまで形になってきたかなあという感じです。
PDFファイルをエクセルにドラッグアンドドロップすると、右下にPDFファイルを表示して、取引日付を「年、月、日」に分けて表示するようにしてみました。
www.youtube.com
あとは取引先名と取引金額をどうやってエクセルに抜き出させるかですよね。
取引先名は、PDFファイルにインボイス番号が記載されるようになったら、リンク先の「適格請求書発行事業者公表システムWeb-API機能」を使って、かなりの精度で抜き出せるような気がするのですが。
www.invoice-kohyo.nta.go.jp
現状は当然まだインボイス番号の記載がないので、別の方法を考えないとダメですよね・・・。
もう一つの課題は取引金額。
これも引っこ抜いたPDFデータには、数字データも下記のように色々あるので、金額のうち取引金額になるものをどうやって抜き出せばいいのか・・・
まだまだ先は長い・・・。