Python用深層学習ベースOCRソリューション

docTRで画像から高精度なテキスト抽出・認識を実現

Python用docTR APIとは

docTR(Document Text Recognition)は、Python用の深層学習ベース光学文字認識(OCR)オープンソースライブラリです。スキャン文書・画像・PDFに対して最先端のテキスト検出・認識機能を提供します。現代的な深層学習アーキテクチャを採用し、文書構造を保持したまま高精度なテキスト抽出を実現します。

文書デジタル化、自動データ抽出、AIテキスト認識アプリケーションに広く利用されており、多言語対応、手書き文字認識、GPUアクセラレーションによる高速処理をサポートしています。

docTR APIの主要機能

先進的な深層学習OCR: ニューラルネットワークによる精密なテキスト検出・認識
多形式対応: 画像/PDF/スキャン文書をシームレスに処理
手書き文字認識: 高い精度で手書きテキストを認識・抽出
多言語対応: 様々な言語・文字体系をサポート
高速処理: GPUアクセラレーションによる効率的なテキスト抽出
レイアウト保持: テキスト認識時に文書構造を維持
スケーラブルなオープンソース: 無料で利用可能、継続的に改善

docTR APIの使用方法

docTRをインストールするには、以下のpipコマンドを実行してください:

docTRインストール


pip install python-doctr

より高速な処理のためにGPUアクセラレーションを有効にする場合は、追加で以下をインストールしてください:

GPU関連パッケージ


pip install tensorflow-gpu torch torchvision

docTR API使用例

docTRを使用したテキスト抽出の実装例をご紹介します。

docTR OCR API

例1: 画像からのテキスト抽出

画像を読み込み、docTRでOCR処理を実行し、テキストを抽出する例です。位置情報付きでテキストを抽出できるため、構造化文書処理に適しています。

画像からのテキスト抽出


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

例2: 複数ページPDFの処理

複数ページのPDFからテキストを抽出する例です。docTRが各ページを自動で処理します。

PDFからのテキスト抽出


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

例3: 手書き文字の認識

手書き文書からテキストを抽出する例です。手書きメモや歴史的文書のデジタル化に最適です。

手書き文字認識


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

まとめ

docTR APIは、画像・PDF・手書き文書からテキストを抽出する強力な深層学習ベースOCRソリューションです。文書構造を保持したまま高精度なテキスト認識を実現し、AI文書処理・自動化・データ抽出に最適です。

文書デジタル化、自動データ入力、AIテキスト認識など、様々な用途に柔軟に対応します。