Dyb læringsbaseret OCR-løsning i Python

Brug docTR til præcis tekstudtrækning og genkendelse fra billeder.

Hvad er docTR API til Python?

docTR (Document Text Recognition) er et open-source OCR-bibliotek baseret på dyb læring i Python. Det tilbyder førsteklasses tekstdetektion og -genkendelse til scannede dokumenter, billeder og PDF-filer. Ved at anvende avancerede dyb læringsarkitekturer sikrer docTR høj nøjagtighed og effektivitet i tekstudtrækning, samtidig med at dokumentstrukturen bevares.

docTR bruges bredt til digitalisering af dokumenter, automatiseret dataudtrækning og AI-applikationer til tekstgenkendelse. Det understøtter flere sprog, håndskriftgenkendelse og GPU-acceleration for forbedret ydeevne.

Nøglefunktioner i docTR API

Avanceret OCR baseret på dyb læring: Bruger neurale netværk til præcis tekstdetektion og -genkendelse.
Understøtter flere formater: Fungerer problemfrit med billeder, PDF-filer og scannede dokumenter.
Håndskriftgenkendelse: Registrerer og udtrækker håndskrevet tekst med bemærkelsesværdig nøjagtighed.
Flersproget support: Genkender tekst på forskellige sprog og skrifttyper.
Optimeret til hastighed: Effektiv tekstudtrækning med GPU-acceleration.
Bevarer dokumentlayout: Opretholder dokumentstrukturen under tekstgenkendelse.
Skalerbar og open source: Gratis at bruge og aktivt vedligeholdt for løbende forbedringer.

Kom i gang med docTR API

For at installere docTR skal du bruge følgende pip-kommando:

Installation af docTR


pip install python-doctr

Hvis du vil aktivere GPU-acceleration for hurtigere behandling, skal du installere yderligere afhængigheder:

Installation af GPU-afhængigheder


pip install tensorflow-gpu torch torchvision

Kodeeksempler til tekstudtrækning med docTR API

Nedenfor ses eksempler, der demonstrerer tekstudtrækning fra billeder og dokumenter ved hjælp af docTR.

docTR API til OCR

Eksempel 1: Udtrækning af tekst fra et billede

Udtrækning af tekst fra billede


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Eksempel 2: Behandling af en flersidet PDF

Udtrækning af tekst fra PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Eksempel 3: Genkendelse af håndskrevet tekst

Udtrækning af håndskrevet tekst


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Konklusion

docTR API er en kraftfuld OCR-løsning baseret på dyb læring, der forenkler tekstudtrækning fra billeder, PDF-filer og håndskrevne dokumenter. Det sikrer høj præcision samtidig med at dokumentlayoutet bevares, hvilket gør det til et værdifuldt værktøj til AI-drevet dokumentbehandling, automatisering og dataudtrækning.

Uanset om du arbejder med digitalisering af dokumenter, automatiseret dataindtastning eller AI-baseret tekstgenkendelse, giver docTR en fleksibel og effektiv løsning til dine behov.