Python向け深層学習ベースのOCRソリューション

docTRを使用して画像から高精度なテキスト抽出・認識を実現

Python向けdocTR APIとは？

docTR（Document Text Recognition）は、Python向けの深層学習ベースの光学文字認識（OCR）オープンソースライブラリです。スキャンした文書、画像、PDFに対して最先端のテキスト検出・認識機能を提供します。現代的な深層学習アーキテクチャを活用することで、文書構造を保ちつつ高精度かつ効率的なテキスト抽出を実現します。

docTRは文書のデジタル化、自動データ抽出、AIベースのテキスト認識アプリケーションに広く利用されています。複数言語対応、手書き文字認識、GPUアクセラレーションによるパフォーマンス向上をサポートしています。

docTR APIの主な機能

高度な深層学習OCR: ニューラルネットワークを使用した精密なテキスト検出・認識
マルチフォーマット対応: 画像、PDF、スキャン文書とシームレスに連携
手書き文字認識: 驚異的な精度で手書きテキストを検出・抽出
多言語認識: 様々な言語と文字体系をサポート
速度最適化: GPUアクセラレーションによる効率的なテキスト抽出
文書レイアウト保持: テキスト認識時に文書構造を維持
スケーラブルでオープンソース: 無料で利用可能、継続的に改善

docTR APIの始め方

docTRをインストールするには、次のpipコマンドを使用します：

docTRのインストール


pip install python-doctr

より高速な処理のためにGPUアクセラレーションを有効にする場合は、追加の依存関係をインストールしてください：

GPU依存関係のインストール


pip install tensorflow-gpu torch torchvision

docTR APIを使用したテキスト抽出コード例

以下に、docTRを使用して画像や文書からテキストを抽出するいくつかの例を示します。

OCR用docTR API

例1: 画像からのテキスト抽出

この例では、画像を読み込み、docTRでOCRを適用し、テキストを抽出する方法を示します。抽出されたテキストには画像内の位置情報が含まれており、構造化文書処理に役立ちます。

画像からのテキスト抽出


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

例2: 複数ページPDF文書の処理

複数ページを含むPDFファイルからテキストを抽出する必要がある場合、docTRはプロセスを簡素化します。以下の例は、各ページから効率的にテキストを抽出する方法を示しています。

PDFからのテキスト抽出


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

例3: 手書き文字の認識

docTRは手書き文字も認識可能で、手書きメモ、フォーム、歴史的文書のデジタル化に最適です。この例では、合成手書き文書からのテキスト抽出を示します。

手書きテキストの抽出


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

まとめ

docTR APIは、画像、PDF、手書き文書からテキストを抽出する強力な深層学習ベースのOCRソリューションです。文書構造を保持しながら高精度を実現し、AI駆動の文書処理、自動化、データ抽出に不可欠なツールです。

文書デジタル化、自動データ入力、AIベースのテキスト認識など、あらゆるニーズに合わせた柔軟で効率的なソリューションを提供します。