PaddleOCR: Pramonės klasės OCR daugiakalbei teksto išgavimui

Aptikite ir atpažinkite tekstą iš vaizdų ir dokumentų su dideliu tikslumu ir greičiu

Kas yra PaddleOCR API?

PaddleOCR Python API yra galingas ir lengvai naudojamas įrankis optinio simbolių atpažinimo (OCR) užduotims, skirtas padėti kūrėjams išgauti ir analizuoti tekstą iš vaizdų su dideliu tikslumu. Sukurtas ant PaddlePaddle gilaus mokymosi sistemos, PaddleOCR palaiko platų kalbų spektrą ir siūlo iš anksto apmokytus modelius teksto aptikimui, atpažinimui ir išdėstymo analizei. Turint intuityvią Python sąsają, naudotojai gali greitai integruoti OCR galimybes į savo programas, ar tai būtų dokumentų skaitmeninimas, teksto išgavimas iš nuotraukų ar automatizuotas duomenų apdorojimas. PaddleOCR Python API yra idealus pasirinkimas tiems, kas nori įdiegti patikimus OCR sprendimus su minimaliu nustatymu ir maksimaliu lankstumu.

Pagrindiniai PaddleOCR privalumai:

Daugiakalbė palaikymas: Iš anksto apmokyti modeliai 100+ kalbų (įskaitant kinų, anglų, arabų kt.)
Aukštas tikslumas: PP-OCR modelių serija pasiekia aukščiausius rezultatus ICDAR duomenų rinkiniuose
Visas procesas: Nuo teksto aptikimo iki atpažinimo ir išdėstymo analizės
Lengvi modeliai: Optimizuoti mobiliems ir ribiniams įrenginiams (pvz., PP-OCRv3)

Nuo nuskaitytų dokumentų iki gatvės ženklų, PaddleOCR išskiria tekstą su pramonės lyderių tikslumu.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Kodėl rinktis PaddleOCR?

Atvirojo kodo pranašumai: 30,000+ GitHub žvaigždžių ir aktyvus bendruomenės indėlis
Įvairialypis diegimas: Palaiko Python, C++ ir mobiliąsias platformas (Android/iOS)
Išdėstymo analizė: Nustato teksto sritis, lenteles ir paveikslėlius sudėtinguose dokumentuose
Nuolatiniai atnaujinimai: Reguliarūs modelių leidimai (pvz., PP-OCRv4)
Verslui draugiškas: Apache 2.0 licencija komerciniam naudojimui

Diegimas

PaddleOCR reikalauja Python 3.7+ ir gali būti įdiegtas per pip. GPU palaikymui reikalinga CUDA/cuDNN.

Pagrindinis diegimas


pip install paddleocr paddlepaddle  #CPU versija

GPU pagreitinimui:

GPU palaikymas


pip install paddleocr paddlepaddle-gpu  #Reikalauja CUDA 10.2+

Pastaba: Iš anksto apmokyti modeliai automatiškai atsisiunčiami pirmą kartą naudojant arba rankiniu būdu per paddleocr --lang en.

Kodo pavyzdžiai

Ištirkite PaddleOCR galimybes su šiais pavyzdžiais. Visi daro prielaidą, kad turite įdiegtą anglų kalbos modelį.

PaddleOCR Python

1 pavyzdys: Pagrindinis OCR

Norėdami išgauti tekstą iš vaizdo naudodami PaddleOCR su numatytaisiais modeliais, tereikia inicijuoti OCR variklį su standartine konfigūracija, kuri apima anglų kalbos palaikymą ir kampo klasifikaciją tikslumui padidinti. PaddleOCR naudoja iš anksto apmokytus aptikimo, atpažinimo ir klasifikavimo modelius, kad identifikuotų ir interpretuotų tekstą iš įvesties vaizdo. Kai vaizdas apdorojamas, OCR variklis grąžina aptiktą tekstą kartu su jo padėtimi ir pasitikėjimo balą kiekvienam rezultatui. Šis nustatymas suteikia greitą ir efektyvų būdą išgauti teksto turinį iš vaizdų nereikalaujant specialaus modelio mokymo ar sudėtingos konfigūracijos.

Vaizdo OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Inicijavimas
result = ocr.ocr('image.jpg', cls=True)  # Vaizdo apdorojimas

# Spausdinti atpažintą tekstą
for line in result:
    print(line[-1][0])  # Teksto turinys

Išvestis apima:

Teksto turinį ir pasitikėjimo balus
Ribinio lango koordinates

2 pavyzdys: Grupinis apdorojimas

Norėdami efektyviai apdoroti kelis vaizdus naudodami PaddleOCR, galite pasinaudoti grupinio apdorojimo technikomis, kurios sumažina pasikartojančią inicijavimą ir optimizuoja veikimą. Užuot inicijavę OCR variklį kiekvienam vaizdui atskirai, rekomenduojama sukurti vieną OCR modelio egzempliorių ir jį pakartotinai naudoti visiems įvesties vaizdams. Šis metodas žymiai sumažina apdorojimo laiką ir išteklių sunaudojimą. Pateikdami vaizdų kelių sąrašą OCR varikliui cikle arba naudodami lygiagretų apdorojimą (kur tinkama), galite greitai ir efektyviai išgauti tekstą iš didelių vaizdų rinkinių, o tai ypač tinka dokumentų partijoms, nuskaitytiems archyvams ar masiniam vaizdų analizavimui.

Grupinis OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Lygiagretus apdorojimas

3 pavyzdys: Išdėstymo analizė

PaddleOCR gali būti naudojamas ne tik teksto atpažinimui, bet ir specifinėms teksto sritims identifikuoti bei struktūrizuotiems elementams, tokiems kaip lentelės, aptikti vaizdo viduje. Sistema pirmiausia nustato teksto sritis per savo aptikimo modelį, kuris apibrėžia kiekvieną teksto sritį ribiniais langais, leisdamas naudotojams suprasti teksto vietą vaizde. Sudėtingesniems išdėstymams, tokiems kaip formos ar dokumentai, kuriuose yra lentelių, PaddleOCR palaiko išdėstymo analizę ir lentelės struktūros atpažinimą. Tai leidžia aptikti eilutes, stulpelius ir langelių ribas, todėl galima išgauti lentelės duomenis organizuotu formatu. Tokios galimybės ypač naudingos nuskaitytų dokumentų, sąskaitų faktūrų ar skaičiuoklių skaitmeninimui, kur laisvos formos tekstas ir lentelės duomenys egzistuoja kartu.

Išdėstymo aptikimas


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Išplėstinės funkcijos

PaddleOCR palaiko sudėtingus darbo procesus:

Adaptyvus mokymas: Tinkinkite modelius savo duomenims:

Modelio mokymas


    python tools/train.py -c configs/det/det_mv3_db.yml

Daugiakalbis maišymas: Apdorokite mišrios kalbų dokumentus:
Daugiakalbis OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
PDF palaikymas: Tiesioginis teksto išgavimas iš PDF:
PDF apdorojimas
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

Išvados

PaddleOCR siūlo gamybai paruoštą OCR su nepalyginamu daugiakalbiu palaikymu ir mastelio keitimu. Idealus:

Dokumentų skaitmeninimui: Nuskaityti PDF, sąskaitos, kvitai
Daugiakalbėms programoms: Paso atpažinimas, daugiakalbės knygos
Ribiniam diegimui: Mobilios programos su įrenginyje veikiančiu OCR

Remiantis PaddlePaddle gilaus mokymosi ekosistema, PaddleOCR ir toliau nustato OCR tikslumo ir efektyvumo standartus.