Mélytanulás-alapú OCR megoldás Pythonban
Használja a docTR-t pontos szövegkinyeréshez és -felismeréshez képekből.
Mi a docTR API Pythonhoz?
A docTR (Document Text Recognition) egy nyílt forráskódú, mélytanulás-alapú Optikai Karakterfelismerő (OCR) könyvtár Pythonban. Korszerű szövegdetekciót és -felismerést biztosít szkennelt dokumentumokhoz, képekhez és PDF-ekhez. Modern mélytanuló architektúrákat felhasználva a docTR nagy pontosságot és hatékonyságot garantál a szövegkinyerésben, miközben megőrzi a dokumentum szerkezetét.
A docTR-t széles körben használják dokumentumdigitalizáláshoz, automatizált adatkinyeréshez és mesterséges intelligencia alapú szövegfelismerő alkalmazásokhoz. Több nyelvet, kézírás-felismerést és GPU-gyorsítást támogat a jobb teljesítmény érdekében.
A docTR API főbb jellemzői
- Fejlett mélytanulás-alapú OCR: Neurális hálózatokat használ pontos szövegdetekcióhoz és -felismeréshez.
- Több formátum támogatása: Zökkenőmentesen működik képekkel, PDF-ekkel és szkennelt dokumentumokkal.
- Kézírás-felismerés: Kiváló pontossággal ismer fel és nyer ki kézzel írt szöveget.
- Többnyelvű felismerés: Támogatja a különböző nyelveket és írásrendszereket.
- Gyorsaságra optimalizálva: Hatékony szövegkinyerés GPU-gyorsítással.
- Megőrzi a dokumentum elrendezését: Megtartja a szerkezetet a szövegfelismerés során.
- Skálázható és nyílt forráskódú: Ingyenesen használható és folyamatosan fejlesztett.
Kezdő lépések a docTR API-val
A docTR telepítéséhez használja a következő pip parancsot:
A docTR telepítése
pip install python-doctr
Ha gyorsabb feldolgozást szeretne GPU-gyorsítással, telepítse a további függőségeket:
GPU függőségek telepítése
pip install tensorflow-gpu torch torchvision
Kódpéldák szövegkinyeréshez a docTR API-val
Az alábbiakban több példa látható a docTR használatával történő szövegkinyerésre képekből és dokumentumokból.
1. példa: Szöveg kinyerése képből
Ez a példa bemutatja, hogyan tölthet be egy képet, alkalmazhat OCR-t a docTR-rel, és nyerhet ki szöveget. A kinyert szöveg tartalmazza a képbeli pozícióját, ami strukturált dokumentumfeldolgozáshoz hasznos.
Szöveg kinyerése képből
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
2. példa: Többoldalas PDF dokumentum feldolgozása
Ha több oldalt tartalmazó PDF fájlból kell szöveget kinyernie, a docTR leegyszerűsíti a folyamatot. Az alábbi példa bemutatja, hogyan nyerhet ki hatékonyan szöveget minden oldalról.
Szöveg kinyerése PDF-ből
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
3. példa: Kézzel írt szöveg felismerése
A docTR képes kézzel írt szöveget is felismerni, ami ideális megoldást kínál kézzel írt jegyzetek, nyomtatványok vagy történelmi dokumentumok digitalizálásához. Ez a példa egy szintetikus kézzel írt dokumentumból való szövegkinyerést mutat be.
Kézzel írt szöveg kinyerése
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Összegzés
A docTR API egy hatékony, mélytanulás-alapú OCR megoldás, amely leegyszerűsíti a szövegkinyerést képekből, PDF-ekből és kézzel írt dokumentumokból. A dokumentum szerkezetének megőrzése mellett magas pontosságot biztosít, ami nélkülözhetetlen eszközzé teszi mesterséges intelligencia alapú dokumentumfeldolgozáshoz, automatizáláshoz és adatkinyeréshez.
Legyen szó dokumentumdigitalizálásról, automatizált adatrögzítésről vagy mesterséges intelligencia alapú szövegfelismerésről, a docTR rugalmas és hatékony megoldást kínál az Ön igényeihez igazítva.