Syväoppimiseen perustuva OCR-ratkaisu Pythonissa

Käytä docTR:ää korkean tarkkuuden tekstin poimimiseen ja tunnistamiseen kuvista.

Mikä on docTR API Pythonissa?

docTR (Document Text Recognition) on avoimen lähdekoodin, syväoppimiseen perustuva kirjasto optiseen merkintunnistukseen (OCR) Pythonissa. Se mahdollistaa tekstin tunnistamisen ja poimimisen skannatuista asiakirjoista, kuvista ja PDF-tiedostoista korkealla tarkkuudella. docTR hyödyntää kehittyneitä syväoppimismalleja tarjoten erinomaisen tarkkuuden ja säilyttäen asiakirjan rakenteen.

Tämä työkalu sopii asiakirjojen digitalisointiin, automaattiseen tietojen poimimiseen ja kehittyneisiin tekstintunnistussovelluksiin. Se tukee myös useita kieliä, käsinkirjoitetun tekstin tunnistamista ja GPU-kiihdytystä.

docTR API:n tärkeimmät ominaisuudet

Syväoppimiseen perustuva OCR: Hermoverkkojen hyödyntäminen tarkan tekstintunnistuksen saavuttamiseksi.
Useiden formaattien tuki: Yhteensopivuus kuvien, PDF-tiedostojen ja skannattujen asiakirjojen kanssa.
Käsinkirjoitetun tekstin tunnistus: Kyky tunnistaa ja poimia käsinkirjoitettua tekstiä tarkasti.
Monikielinen tuki: Tekstin tunnistaminen eri kielillä ja kirjaimistoilla.
Optimoitu nopeuteen: Nopea tekstin poiminta GPU-kiihdytyksen avulla.
Asiakirjan rakenteen säilyttäminen: Tekstin tunnistus ilman rakenteen muuttamista.
Avoimen lähdekoodin ja laajennettava: Vapaa käyttöön ja jatkuvasti kehittyvä.

docTR API:n käyttöönotto

Asenna docTR käyttämällä seuraavaa pip-komentoa:

docTR:n asentaminen


pip install python-doctr

Ota käyttöön GPU-kiihdytys nopeampaa käsittelyä varten asentamalla seuraavat paketit:

GPU-riippuvuuksien asentaminen


pip install tensorflow-gpu torch torchvision

Esimerkkikoodit tekstin poimimiseksi docTR APIlla

Esimerkki 1: Tekstin poimiminen kuvasta

Tekstin poimiminen kuvasta


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Esimerkki 2: Monisivuisten PDF-asiakirjojen käsittely

Tekstin poimiminen PDF:stä


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Esimerkki 3: Käsinkirjoitetun tekstin tunnistus

Käsinkirjoitetun tekstin poimiminen


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Johtopäätös

docTR API on tehokas syväoppimiseen perustuva OCR-ratkaisu, joka helpottaa tekstin poimimista kuvista, PDF-tiedostoista ja käsinkirjoitetuista asiakirjoista. Se tarjoaa korkean tunnistustarkkuuden ja säilyttää asiakirjan rakenteen.

Olitpa sitten digitalisoimassa asiakirjoja, automatisoimassa tietojen poimintaa tai kehittämässä AI-pohjaista tekstintunnistusratkaisua, docTR tarjoaa joustavan ja tehokkaan ratkaisun.