Amazon Textract

スキャンしたドキュメントなどの画像からテキストを抽出するための AI サービスです。

Amazon Textract は、スキャンしたドキュメントの画像に含まれているテキスト、手書きの文字、その他のデータを抽出するサービスです。単純な光学文字認識 (OCR) のではなく、テキストがフォームやテーブルの一部かどうかを認識、理解したうえで情報を関連づけて抽出することができます。現在、日本語テキストには対応していません。

Amazon Rekognition のテキスト検出機能 と似ていますが、Amazon Textract はフォームやテーブルなど、書類のフォーマットに応じたテキストの抽出が可能なことが特徴です。

AWS コンソールからサンプル画像やアップロードした画像を使って簡単に機能を試すことができます。

Textract

AWS コンソールへのリンク(バージニア北部リージョン)

参考情報

開発者ガイド
Amazon Textract の機能や使い方が説明されているドキュメントです。



Last modified March 8, 2021: fix repo url (05cd483)