Mélytanulás-alapú OCR megoldás Pythonban

Használja a docTR-t pontos szövegkinyeréshez és -felismeréshez képekből.

Mi a docTR API Pythonhoz?

A docTR (Document Text Recognition) egy nyílt forráskódú, mélytanulás-alapú Optikai Karakterfelismerő (OCR) könyvtár Pythonban. Korszerű szövegdetekciót és -felismerést biztosít szkennelt dokumentumokhoz, képekhez és PDF-ekhez. Modern mélytanuló architektúrákat felhasználva a docTR nagy pontosságot és hatékonyságot garantál a szövegkinyerésben, miközben megőrzi a dokumentum szerkezetét.

A docTR-t széles körben használják dokumentumdigitalizáláshoz, automatizált adatkinyeréshez és mesterséges intelligencia alapú szövegfelismerő alkalmazásokhoz. Több nyelvet, kézírás-felismerést és GPU-gyorsítást támogat a jobb teljesítmény érdekében.

A docTR API főbb jellemzői

Fejlett mélytanulás-alapú OCR: Neurális hálózatokat használ pontos szövegdetekcióhoz és -felismeréshez.
Több formátum támogatása: Zökkenőmentesen működik képekkel, PDF-ekkel és szkennelt dokumentumokkal.
Kézírás-felismerés: Kiváló pontossággal ismer fel és nyer ki kézzel írt szöveget.
Többnyelvű felismerés: Támogatja a különböző nyelveket és írásrendszereket.
Gyorsaságra optimalizálva: Hatékony szövegkinyerés GPU-gyorsítással.
Megőrzi a dokumentum elrendezését: Megtartja a szerkezetet a szövegfelismerés során.
Skálázható és nyílt forráskódú: Ingyenesen használható és folyamatosan fejlesztett.

Kezdő lépések a docTR API-val

A docTR telepítéséhez használja a következő pip parancsot:

A docTR telepítése


pip install python-doctr

Ha gyorsabb feldolgozást szeretne GPU-gyorsítással, telepítse a további függőségeket:

GPU függőségek telepítése


pip install tensorflow-gpu torch torchvision

Kódpéldák szövegkinyeréshez a docTR API-val

Az alábbiakban több példa látható a docTR használatával történő szövegkinyerésre képekből és dokumentumokból.

docTR API OCR-hez

1. példa: Szöveg kinyerése képből

Ez a példa bemutatja, hogyan tölthet be egy képet, alkalmazhat OCR-t a docTR-rel, és nyerhet ki szöveget. A kinyert szöveg tartalmazza a képbeli pozícióját, ami strukturált dokumentumfeldolgozáshoz hasznos.

Szöveg kinyerése képből


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

2. példa: Többoldalas PDF dokumentum feldolgozása

Ha több oldalt tartalmazó PDF fájlból kell szöveget kinyernie, a docTR leegyszerűsíti a folyamatot. Az alábbi példa bemutatja, hogyan nyerhet ki hatékonyan szöveget minden oldalról.

Szöveg kinyerése PDF-ből


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

3. példa: Kézzel írt szöveg felismerése

A docTR képes kézzel írt szöveget is felismerni, ami ideális megoldást kínál kézzel írt jegyzetek, nyomtatványok vagy történelmi dokumentumok digitalizálásához. Ez a példa egy szintetikus kézzel írt dokumentumból való szövegkinyerést mutat be.

Kézzel írt szöveg kinyerése


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Összegzés

A docTR API egy hatékony, mélytanulás-alapú OCR megoldás, amely leegyszerűsíti a szövegkinyerést képekből, PDF-ekből és kézzel írt dokumentumokból. A dokumentum szerkezetének megőrzése mellett magas pontosságot biztosít, ami nélkülözhetetlen eszközzé teszi mesterséges intelligencia alapú dokumentumfeldolgozáshoz, automatizáláshoz és adatkinyeréshez.

Legyen szó dokumentumdigitalizálásról, automatizált adatrögzítésről vagy mesterséges intelligencia alapú szövegfelismerésről, a docTR rugalmas és hatékony megoldást kínál az Ön igényeihez igazítva.