Amazon Textract

スキャンしたドキュメントなどの画像からテキストを抽出するための AI サービスです。

Amazon Textract は、スキャンしたドキュメントの画像に含まれているテキスト、手書きの文字、その他のデータを抽出するサービスです。単純な光学文字認識 (OCR) のではなく、テキストがフォームやテーブルの一部かどうかを認識、理解したうえで情報を関連づけて抽出することができます。現在、日本語テキストには対応していません。

Amazon Rekognition のテキスト検出機能と似ていますが、Amazon Textract はフォームやテーブルなど、書類のフォーマットに応じたテキストの抽出が可能なことが特徴です。