PaddleOCR: Průmyslové OCR pro vícejazyčnou extrakci textu

Detekujte a rozpoznávejte text z obrázků a dokumentů s vysokou přesností a rychlostí.

Co je PaddleOCR API?

PaddleOCR Python API je výkonná a snadno použitelná sada nástrojů pro úlohy optického rozpoznávání znaků (OCR), navržená pro vývojáře k extrakci a analýze textu z obrázků s vysokou přesností. Postavená na frameworku pro hluboké učení PaddlePaddle, PaddleOCR podporuje širokou škálu jazyků a obsahuje předtrénované modely pro detekci textu, rozpoznávání a analýzu rozvržení. Díky své intuitivní Python rozhraní mohou uživatelé rychle integrovat OCR schopnosti do svých aplikací, ať už pro digitalizaci dokumentů, extrakci textu z fotografií nebo automatizované zpracování dat. PaddleOCR Python API je ideální pro každého, kdo hledá robustní OCR řešení s minimální konfigurací a maximální flexibilitou.

Klíčové výhody PaddleOCR:

Vícejazyčná podpora: Předtrénované modely pro 100+ jazyků (včetně čínštiny, angličtiny, arabštiny atd.)
Vysoká přesnost: Modely řady PP-OCR dosahují špičkových výsledků na datasetech ICDAR
Kompletní řešení: Od detekce textu přes rozpoznání až po analýzu rozvržení
Odlehčené modely: Optimalizované pro mobilní a edge zařízení (např. PP-OCRv3)

Od naskenovaných dokumentů po pouliční cedule, PaddleOCR extrahuje text s průmyslově vedoucí přesností.

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Proč zvolit PaddleOCR?

Excelence open-source: Více než 30 000 hvězd na GitHubu a aktivní přispěvatelská komunita
Univerzální nasazení: Podpora pro Python, C++ a mobilní platformy (Android/iOS)
Analýza rozvržení: Identifikuje textové oblasti, tabulky a obrázky ve složitých dokumentech
Průběžné aktualizace: Pravidelné vydávání modelů (např. PP-OCRv4)
Vhodné pro komerční použití: Licence Apache 2.0 pro podnikové využití

Instalace

PaddleOCR vyžaduje Python 3.7+ a lze jej nainstalovat pomocí pip. Podpora GPU vyžaduje CUDA/cuDNN.

Základní instalace


pip install paddleocr paddlepaddle  #Verze pro CPU

Pro GPU akceleraci:

Podpora GPU


pip install paddleocr paddlepaddle-gpu  #Vyžaduje CUDA 10.2+

Poznámka: Předtrénované modely se stáhnou automaticky při prvním použití nebo ručně pomocí paddleocr --lang en.

Příklady kódu

Prozkoumejte možnosti PaddleOCR s těmito příklady. Všechny příklady předpokládají, že máte nainstalován anglický model.

PaddleOCR Python

Příklad 1: Základní OCR

Pro extrakci textu z obrázku pomocí PaddleOCR s výchozími modely stačí inicializovat OCR engine se standardní konfigurací, která zahrnuje podporu angličtiny a klasifikaci úhlu pro zlepšení přesnosti. PaddleOCR používá předtrénované modely pro detekci, rozpoznávání a klasifikaci k identifikaci a interpretaci textu ve vstupním obrázku. Po zpracování obrázku OCR engine vrátí detekovaný text spolu s jeho pozicí a skóre spolehlivosti pro každý výsledek. Toto nastavení poskytuje rychlý a efektivní způsob extrakce textového obsahu z obrázků bez nutnosti vlastního trénování modelů nebo složitých konfigurací.

OCR obrázku


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Inicializace
result = ocr.ocr('image.jpg', cls=True)  # Zpracování obrázku

# Výpis rozpoznaného textu
for line in result:
    print(line[-1][0])  # Textový obsah

Výstup obsahuje:

Textový obsah a skóre spolehlivosti
Souřadnice ohraničujícího rámečku

Příklad 2: Dávkové zpracování

Pro efektivní zpracování více obrázků pomocí PaddleOCR můžete využít techniky dávkového zpracování, které minimalizují redundantní inicializace a optimalizují výkon. Místo inicializace OCR engine pro každý obrázek se doporučuje vytvořit jednu instanci OCR modelu a znovu ji použít pro všechny vstupní obrázky. Tento přístup výrazně snižuje čas zpracování a spotřebu prostředků. Předáním seznamu cest k obrázkům OCR engine ve smyčce nebo pomocí paralelního zpracování (když je to vhodné) můžete rychle a efektivně extrahovat text z velkých sad obrázků, což je ideální pro pracovní postupy zahrnující dávky dokumentů, skenované archivy nebo hromadnou analýzu obrázků.

Dávkové OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Paralelní zpracování

Příklad 3: Analýza rozvržení

PaddleOCR lze použít nejen pro rozpoznávání textu, ale také pro identifikaci specifických textových oblastí a detekci strukturovaných prvků jako jsou tabulky v obrázku. Systém nejprve lokalizuje textové oblasti prostřednictvím svého detekčního modelu, který ohraničuje každou textovou oblast ohraničovacím rámečkem, což uživatelům umožňuje pochopit, kde se text v obrázku nachází. Pro složitější rozvržení, jako jsou formuláře nebo dokumenty obsahující tabulky, PaddleOCR podporuje analýzu rozvržení a rozpoznávání struktury tabulek. To umožňuje detekci řádků, sloupců a hranic buněk, což umožňuje extrakci tabulkových dat v organizovaném formátu. Tyto schopnosti jsou zvláště užitečné pro digitalizaci skenovaných dokumentů, faktur nebo tabulek, kde se volný text a tabulková data vyskytují společně.

Detekce rozvržení


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Pokročilé funkce

PaddleOCR podporuje složité pracovní postupy:

Vlastní trénink: Upravte modely na svých datech:

Trénink modelu


    python tools/train.py -c configs/det/det_mv3_db.yml

Kombinování jazyků: Zpracování vícejazyčných dokumentů:
Vícejazyčné OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
Podpora PDF: Přímá extrakce textu z PDF souborů:
Zpracování PDF
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

Závěr

PaddleOCR poskytuje produkčně připravená OCR řešení s bezkonkurenční vícejazyčnou podporou a škálovatelností. Ideální pro:

Digitalizaci dokumentů: Skenované PDF, faktury, účtenky
Vícejazyčné aplikace: Rozpoznávání pasů, vícejazyčné knihy
Nasazení na edge zařízeních: Mobilní aplikace s OCR přímo na zařízení

S podporou ekosystému hlubokého učení PaddlePaddle, PaddleOCR i nadále stanovuje standardy v přesnosti a efektivitě OCR.