Dyp læring-basert OCR-løsning i Python

Bruk docTR for nøyaktig tekstuttrekk og gjenkjenning fra bilder.

Hva er docTR API for Python?

docTR (Document Text Recognition) er et åpen kildekode bibliotek for Optisk Tegngjenkjenning (OCR) basert på dyp læring for Python. Det tilbyr avansert tekstdeteksjon og gjenkjenning for skannede dokumenter, bilder og PDF-er. Ved å utnytte moderne dyp læring-arkitekturer, sikrer docTR høy nøyaktighet og effektivitet i tekstuttrekk samtidig som dokumentstrukturen bevares.

docTR brukes mye til digitalisering av dokumenter, automatisk datauttrekk og AI-drevet tekstgjenkjenningsapplikasjoner. Det støtter flere språk, håndskriftsgjenkjenning og GPU-akselerasjon for bedre ytelse.

Hovedfunksjoner i docTR API

Avansert dyp læring OCR: Bruker nevrale nettverk for presis tekstdeteksjon og gjenkjenning
Støtte for flere formater: Fungerer sømløst med bilder, PDF-er og skannede dokumenter
Håndskriftsgjenkjenning: Oppdager og trekker ut håndskrevet tekst med bemerkelsesverdig nøyaktighet
Flerspråklig gjenkjenning: Støtter ulike språk og skriftsystemer
Optimalisert for hastighet: Effektiv tekstuttrekk med GPU-akselerasjon
Bevarer dokumentlayout: Beholder strukturen under tekstgjenkjenning
Skalerbar og åpen kildekode: Gratis å bruke og kontinuerlig vedlikeholdt

Komme i gang med docTR API

For å installere docTR, bruk følgende pip-kommando:

Installer docTR


pip install python-doctr

Hvis du vil aktivere GPU-akselerasjon for raskere behandling, installer tilleggsavhengigheter:

Installer GPU-avhengigheter


pip install tensorflow-gpu torch torchvision

Kodeeksempler for tekstuttrekk med docTR API

Nedenfor er flere eksempler som viser tekstuttrekk fra bilder og dokumenter ved hjelp av docTR.

docTR API for OCR

Eksempel 1: Trekke ut tekst fra et bilde

Dette eksempelet viser hvordan du laster et bilde, bruker OCR med docTR og trekker ut tekst. Den uttrukne teksten inkluderer dens posisjon i bildet, noe som er nyttig for strukturert dokumentbehandling.

Trekk ut tekst fra bilde


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Eksempel 2: Behandle et PDF-dokument med flere sider

Hvis du trenger å trekke ut tekst fra en PDF-fil med flere sider, forenkler docTR denne prosessen. Følgende eksempel viser hvordan du effektivt trekker ut tekst fra hver side.

Trekk ut tekst fra PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Eksempel 3: Gjenkjenne håndskrevet tekst

docTR kan også gjenkjenne håndskrevet tekst, noe som gjør det ideelt for digitalisering av håndskrevne notater, skjemaer eller historiske dokumenter. Dette eksempelet viser tekstuttrekk fra et syntetisk håndskrevet dokument.

Trekk ut håndskrevet tekst


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Konklusjon

docTR API er en kraftfull OCR-løsning basert på dyp læring som forenkler uttrekk av tekst fra bilder, PDF-er og håndskrevne dokumenter. Det sikrer høy nøyaktighet samtidig som dokumentstrukturen bevares, noe som gjør det til et verdifullt verktøy for AI-drevet dokumentbehandling, automatisering og datauttrekk.

Enten du jobber med digitalisering av dokumenter, automatisk dataregistrering eller AI-basert tekstgjenkjenning, tilbyr docTR en fleksibel og effektiv løsning skreddersydd til dine behov.