Dyp læring-basert OCR-løsning i Python
Bruk docTR for nøyaktig tekstuttrekk og gjenkjenning fra bilder.
Hva er docTR API for Python?
docTR (Document Text Recognition) er et åpen kildekode bibliotek for Optisk Tegngjenkjenning (OCR) basert på dyp læring for Python. Det tilbyr avansert tekstdeteksjon og gjenkjenning for skannede dokumenter, bilder og PDF-er. Ved å utnytte moderne dyp læring-arkitekturer, sikrer docTR høy nøyaktighet og effektivitet i tekstuttrekk samtidig som dokumentstrukturen bevares.
docTR brukes mye til digitalisering av dokumenter, automatisk datauttrekk og AI-drevet tekstgjenkjenningsapplikasjoner. Det støtter flere språk, håndskriftsgjenkjenning og GPU-akselerasjon for bedre ytelse.
Hovedfunksjoner i docTR API
- Avansert dyp læring OCR: Bruker nevrale nettverk for presis tekstdeteksjon og gjenkjenning
- Støtte for flere formater: Fungerer sømløst med bilder, PDF-er og skannede dokumenter
- Håndskriftsgjenkjenning: Oppdager og trekker ut håndskrevet tekst med bemerkelsesverdig nøyaktighet
- Flerspråklig gjenkjenning: Støtter ulike språk og skriftsystemer
- Optimalisert for hastighet: Effektiv tekstuttrekk med GPU-akselerasjon
- Bevarer dokumentlayout: Beholder strukturen under tekstgjenkjenning
- Skalerbar og åpen kildekode: Gratis å bruke og kontinuerlig vedlikeholdt
Komme i gang med docTR API
For å installere docTR, bruk følgende pip-kommando:
Installer docTR
pip install python-doctr
Hvis du vil aktivere GPU-akselerasjon for raskere behandling, installer tilleggsavhengigheter:
Installer GPU-avhengigheter
pip install tensorflow-gpu torch torchvision
Kodeeksempler for tekstuttrekk med docTR API
Nedenfor er flere eksempler som viser tekstuttrekk fra bilder og dokumenter ved hjelp av docTR.
Eksempel 1: Trekke ut tekst fra et bilde
Dette eksempelet viser hvordan du laster et bilde, bruker OCR med docTR og trekker ut tekst. Den uttrukne teksten inkluderer dens posisjon i bildet, noe som er nyttig for strukturert dokumentbehandling.
Trekk ut tekst fra bilde
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Eksempel 2: Behandle et PDF-dokument med flere sider
Hvis du trenger å trekke ut tekst fra en PDF-fil med flere sider, forenkler docTR denne prosessen. Følgende eksempel viser hvordan du effektivt trekker ut tekst fra hver side.
Trekk ut tekst fra PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Eksempel 3: Gjenkjenne håndskrevet tekst
docTR kan også gjenkjenne håndskrevet tekst, noe som gjør det ideelt for digitalisering av håndskrevne notater, skjemaer eller historiske dokumenter. Dette eksempelet viser tekstuttrekk fra et syntetisk håndskrevet dokument.
Trekk ut håndskrevet tekst
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Konklusjon
docTR API er en kraftfull OCR-løsning basert på dyp læring som forenkler uttrekk av tekst fra bilder, PDF-er og håndskrevne dokumenter. Det sikrer høy nøyaktighet samtidig som dokumentstrukturen bevares, noe som gjør det til et verdifullt verktøy for AI-drevet dokumentbehandling, automatisering og datauttrekk.
Enten du jobber med digitalisering av dokumenter, automatisk dataregistrering eller AI-basert tekstgjenkjenning, tilbyr docTR en fleksibel og effektiv løsning skreddersydd til dine behov.