PaddleOCR: Ipari szintű OCR többnyelvű szövegkinyeréshez

Észlelj és ismerd fel a szöveget képekről és dokumentumokról nagy pontossággal és sebességgel.

Mi a PaddleOCR API?

A PaddleOCR Python API egy hatékony és könnyen használható eszközkészlet optikai karakterfelismerési (OCR) feladatokhoz, amely segítségével a fejlesztők nagy pontossággal nyerhetnek ki és elemezhetnek szöveget képekről. A PaddlePaddle mélytanuló keretrendszerre épülve a PaddleOCR számos nyelvet támogat, és előre betanított modelleket kínál szövegészlelésre, felismerésre és elrendezés-elemzésre. Intuitív Python felületével a felhasználók gyorsan integrálhatják az OCR képességeket alkalmazásaikba, legyen szó dokumentumok digitalizálásáról, szövegkinyerésről fényképekről vagy automatizált adatfeldolgozásról. A PaddleOCR Python API ideális választás mindenkinek, aki robusztus OCR megoldásokat szeretne implementálni minimális beállítással és maximális rugalmassággal.

A PaddleOCR fő előnyei:

Többnyelvű támogatás: Előre betanított modellek 100+ nyelvhez (beleértve a kínai, angol, arab nyelveket stb.)
Nagy pontosság: A PP-OCR modellcsalád vezető eredményeket ér el az ICDAR adathalmazokon
Teljes folyamat: Szövegészleléstől a felismerésig és elrendezés-elemzésig
Könnyű modellek: Mobil- és peremhálózati eszközökre optimalizálva (pl. PP-OCRv3)

Szkennelt dokumentumoktól az utcai táblákig, a PaddleOCR ipari szintű pontossággal nyeri ki a szöveget.

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

Miért válaszd a PaddleOCR-t?

Nyílt forrású kiválóság: 30,000+ GitHub csillag és aktív közösségi hozzájárulások
Sokoldalú telepítés: Támogatja a Python, C++ és mobil platformokat (Android/iOS)
Elrendezés elemzés: Azonosítja a szövegrégiókat, táblázatokat és ábrákat összetett dokumentumokban
Folyamatos frissítések: Rendszeres modellkiadások (pl. PP-OCRv4)
Kereskedelmi használatra alkalmas: Apache 2.0 licenc vállalati felhasználáshoz

Telepítés

A PaddleOCR Python 3.7+ verziót igényel, és telepíthető pip-en keresztül. GPU támogatás CUDA/cuDNN szükséges.

Alap telepítés


pip install paddleocr paddlepaddle  #CPU verzió

GPU gyorsításhoz:

GPU támogatás


pip install paddleocr paddlepaddle-gpu  #CUDA 10.2+ szükséges

Megjegyzés: Az előre betanított modellek automatikusan letölődnek az első használatkor, vagy manuálisan a paddleocr --lang en paranccsal.

Kódpéldák

Ismerd meg a PaddleOCR képességeit ezekkel a példákkal. Mind feltételezi, hogy telepítve van az angol modell.

PaddleOCR Python

1. példa: Alapvető OCR

Ahhoz, hogy képről szöveget nyerj ki a PaddleOCR segítségével az alapértelmezett modellekkel, egyszerűen inicializálni kell az OCR motort a szabványos konfigurációval, amely támogatja az angol nyelvet és szögszétválasztást a pontosság növelése érdekében. A PaddleOCR előre betanított észlelési, felismerési és osztályozási modelleket használ a bemeneti kép szövegének azonosításához és értelmezéséhez. Miután a kép feldolgozásra került, az OCR motor visszaadja az észlelt szöveget annak pozíciójával és egy megbízhatósági pontszámmal minden eredményhez. Ez a beállítás gyors és hatékony módot kínál a képekből történő szöveges tartalom kinyerésére egyéni modelltanítás vagy összetett konfiguráció nélkül.

Kép OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Inicializálás
result = ocr.ocr('image.jpg', cls=True)  # Kép feldolgozása

# Felismert szöveg kiírása
for line in result:
    print(line[-1][0])  # Szöveges tartalom

A kimenet tartalmazza:

Szöveges tartalmat és megbízhatósági pontszámokat
Határolókeret koordinátákat

2. példa: Kötegelt feldolgozás

Több kép hatékony feldolgozásához a PaddleOCR segítségével kihasználhatod a kötegelt feldolgozási technikákat, amelyek minimalizálják a redundáns inicializálásokat és optimalizálják a teljesítményt. Az OCR motor minden képhez történő külön inicializálása helyett ajánlott egyetlen OCR modellpéldányt létrehozni és újrahasznosítani minden bemeneti képhez. Ez a megközelítés jelentősen csökkenti a feldolgozási időt és erőforrás-felhasználást. Ha képútvonalak listáját adod az OCR motornak egy ciklusban vagy párhuzamos feldolgozással (ahol alkalmazható), gyorsan és hatékonyan kinyerhetsz szöveget nagy mennyiségű képből, ami ideális megoldás dokumentumkötegek, szkennelt archívumok vagy tömeges képfeldolgozás esetén.

Kötegelt OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Párhuzamos feldolgozás

3. példa: Elrendezés elemzés

A PaddleOCR nem csak szövegfelismerésre használható, hanem szövegrégiók azonosítására és táblázatokhoz hasonló strukturált elemek felismerésére is. A rendszer először a szöveges területeket azonosítja az észlelési modelljén keresztül, amely keretekkel jelöli ki az egyes szövegrégiókat, lehetővé téve a felhasználók számára, hogy megértsék a szöveg helyzetét a képen belül. Összetettebb elrendezések, például nyomtatványok vagy táblázatokat tartalmazó dokumentumok esetén a PaddleOCR támogatja az elrendezés elemzést és a táblázatszerkezet felismerését. Ez lehetővé teszi a sorok, oszlopok és cellahatárok észlelését, így a táblázatos adatok rendezett formában kinyerhetők. Az ilyen képességek különösen hasznosak szkennelt dokumentumok, számlák vagy táblázatok digitalizálásához, ahol szabad formájú szöveg és táblázatos adatok együtt fordulnak elő.

Elrendezés észlelés


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Haladó funkciók

A PaddleOCR támogatja az összetett munkafolyamatokat:

Egyéni tanítás: Finomhangold a modelleket a saját adataidon:
Modell tanítás
```
    python tools/train.py -c configs/det/det_mv3_db.yml
    
```
Többnyelvű keverés: Vegyes nyelvű dokumentumok feldolgozása:
Többnyelvű OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
PDF támogatás: Közvetlen szövegkinyerés PDF-ből:
PDF feldolgozás
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

Összegzés

A PaddleOCR termeléskész OCR-t kínál páratlan többnyelvű támogatással és skálázhatósággal. Ideális választás:

Dokumentum digitalizálás: Szkennelt PDF-ek, számlák, nyugták
Többnyelvű alkalmazások: Útlevél felismerés, többnyelvű könyvek
Peremhálózati telepítés: Mobilalkalmazások eszközön futó OCR-rel

A PaddlePaddle mélytanuló ökoszisztémája által támogatva, a PaddleOCR továbbra is mércét állít az OCR pontosság és hatékonyság terén.