Djupinlärningsbaserad OCR-lösning i Python

Använd docTR för exakt textextrahering och igenkänning från bilder.

Vad är docTR API för Python?

docTR (Document Text Recognition) är ett bibliotek med öppen källkod för optisk teckenigenkänning (OCR) baserat på djupinlärning för Python. Det erbjuder avancerad textdetektering och igenkänning för skannade dokument, bilder och PDF-filer. Genom att utnyttja moderna djupinlärningsarkitekturer säkerställer docTR hög noggrannhet och effektivitet vid textextrahering samtidigt som dokumentstrukturen bevaras.

docTR används flitigt för dokumentdigitalisering, automatiserad dataextraktion och AI-drivna textigenkänningsapplikationer. Stöder flera språk, handskriftsigenkänning och GPU-acceleration för bättre prestanda.

Huvudfunktioner i docTR API

Avancerad OCR med djupinlärning: Använder neurala nätverk för exakt textdetektering och igenkänning
Stöd för flera format: Fungerar smidigt med bilder, PDF och skannade dokument
Handskriftsigenkänning: Identifierar och extraherar handskriven text med anmärkningsvärd noggrannhet
Flerspråkig igenkänning: Stöder olika språk och skriftsystem
Optimerad för hastighet: Effektiv textextrahering med GPU-acceleration
Bevarar dokumentlayout: Bevara struktur under textigenkänning
Skalbar och öppen källkod: Gratis att använda och kontinuerligt förbättrad

Komma igång med docTR API

För att installera docTR, använd följande pip-kommando:

Installera docTR


pip install python-doctr

Om du vill aktivera GPU-acceleration för snabbare bearbetning, installera ytterligare beroenden:

Installera GPU-beroenden


pip install tensorflow-gpu torch torchvision

Kodexempel för textextrahering med docTR API

Nedan finns flera exempel som demonstrerar textextrahering från bilder och dokument med docTR.

docTR API för OCR

Exempel 1: Extrahera text från bild

Detta exempel visar hur man laddar en bild, tillämpar OCR med docTR och extraherar text. Den extraherade texten inkluderar dess position i bilden, vilket är användbart för strukturerad dokumentbehandling.

Extrahera text från bild


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exempel 2: Bearbeta PDF-dokument med flera sidor

Om du behöver extrahera text från en PDF-fil som innehåller flera sidor, förenklar docTR denna process. Följande exempel visar hur man effektivt extraherar text från varje sida.

Extrahera text från PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exempel 3: Känna igen handskriven text

docTR kan också känna igen handskriven text, vilket gör den idealisk för digitalisering av handskrivna anteckningar, formulär eller historiska dokument. Detta exempel visar textextrahering från ett syntetiskt handskrivet dokument.

Extrahera handskriven text


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Sammanfattning

docTR API är en kraftfull OCR-lösning baserad på djupinlärning som förenklar textextrahering från bilder, PDF-filer och handskrivna dokument. Den säkerställer hög noggrannhet samtidigt som dokumentstrukturen bevaras, vilket gör den till ett värdefullt verktyg för AI-driven dokumentbehandling, automatisering och dataextrahering.

Oavsett om du arbetar med dokumentdigitalisering, automatiserad datainmatning eller AI-baserad textigenkänning, erbjuder docTR en flexibel och effektiv lösning anpassad efter dina behov.