PaddleOCR: Rūpnieciskā klases OCR daudzvalodu teksta iegūšanai

Atpazīstiet un identificējiet tekstu no attēliem un dokumentiem ar augstu precizitāti un ātrumu

Kas ir PaddleOCR API?

PaddleOCR Python API ir jaudīgs un lietotājam draudzīgs rīku komplekts optiskās rakstzīmju atpazīšanas (OCR) uzdevumiem, kas paredzēts, lai palīdzētu izstrādātājiem iegūt un analizēt tekstu no attēliem ar augstu precizitāti. Veidots uz PaddlePaddle dziļā mācīšanās platformas, PaddleOCR atbalsta plašu valodu klāstu un piedāvā iepriekš apmācītus modeļus teksta noteikšanai, atpazīšanai un izkārtojuma analīzei. Ar savu intuitīvo Python saskarni, lietotāji var ātri integrēt OCR iespējas savās lietojumprogrammās, vai tas būtu dokumentu digitalizācija, teksta iegūšana no fotogrāfijām vai automatizēta datu apstrāde. PaddleOCR Python API ir ideāls izvēle ikvienam, kas vēlas ieviest robustus OCR risinājumus ar minimālu iestatīšanu un maksimālu elastību.

PaddleOCR galvenās priekšrocības:

Daudzvalodu atbalsts: Iepriekš apmācīti modeļi 100+ valodām (ieskaitot ķīniešu, angļu, arābu u.c.)
Augsta precizitāte: PP-OCR modeļu sērija sasniedz vadošos rezultātus ICDAR datu kopās
Pilna procesa ķēde: No teksta noteikšanas līdz atpazīšanai un izkārtojuma analīzei
Vieglie modeļi: Optimizēti mobilajām un malu ierīcēm (piem., PP-OCRv3)

No skenētiem dokumentiem līdz ielu zīmēm, PaddleOCR izdala tekstu ar nozaries vadošu precizitāti.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Kāpēc izvēlēties PaddleOCR?

Atvērtā koda pārākums: 30,000+ GitHub zvaigznes un aktīva kopienas ieguldījums
Daudzpusīga ieviešana: Atbalsta Python, C++ un mobilo platformu (Android/iOS)
Izkārtojuma analīze: Identificē teksta reģionus, tabulas un attēlus sarežģītos dokumentos
Pastāvīgi atjauninājumi: Regulāri modeļu izlaidumi (piem., PP-OCRv4)
Uzņēmumiem draudzīgs: Apache 2.0 licence komerciālai lietošanai

Instalēšana

PaddleOCR prasa Python 3.7+ un var tikt instalēts caur pip. GPU atbalstam nepieciešams CUDA/cuDNN.

Pamata instalācija


pip install paddleocr paddlepaddle  #CPU versija

GPU paātrinājumam:

GPU atbalsts


pip install paddleocr paddlepaddle-gpu  #Nepieciešams CUDA 10.2+

Piezīme: Iepriekš apmācītie modeļi tiek automātiski lejupielādēti pirmās lietošanas laikā vai manuāli, izmantojot paddleocr --lang en.

Koda piemēri

Izpētiet PaddleOCR iespējas ar šiem piemēriem. Visi pieņem, ka esat instalējis angļu valodas modeli.

PaddleOCR Python

1. piemērs: Pamata OCR

Lai iegūtu tekstu no attēla, izmantojot PaddleOCR ar noklusējuma modeļiem, jums vienkārši jāinicializē OCR dzinējs ar standarta konfigurāciju, kas ietver angļu valodas atbalstu un leņķa klasifikāciju precizitātes uzlabošanai. PaddleOCR izmanto iepriekš apmācītus noteikšanas, atpazīšanas un klasifikācijas modeļus, lai identificētu un interpretētu tekstu no ievades attēla. Kad attēls ir apstrādāts, OCR dzinējs atgriež noteikto tekstu kopā ar tā atrašanās vietu un ticamības punktu skaitu katram rezultātam. Šis iestatījums nodrošina ātru un efektīvu veidu, kā iegūt teksta saturu no attēliem, neprasot pielāgotu modeļu apmācību vai sarežģītu konfigurāciju.

Attēla OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Inicializācija
result = ocr.ocr('image.jpg', cls=True)  # Attēla apstrāde

# Drukāt atpazīto tekstu
for line in result:
    print(line[-1][0])  # Teksta saturs

Izvade ietver:

Teksta saturu un ticamības vērtējumus
Robežrāmja koordinātas

2. piemērs: Partijas apstrāde

Lai efektīvi apstrādātu vairākus attēlus, izmantojot PaddleOCR, varat izmantot partijas apstrādes metodes, kas samazina lieko inicializāciju un optimizē veiktspēju. Tā vietā, lai inicializētu OCR dzinēju katram attēlam atsevišķi, ieteicams izveidot vienu OCR modeļa instanci un to atkārtoti izmantot visiem ievades attēliem. Šī pieeja ievērojami samazina apstrādes laiku un resursu patēriņu. Iesniedzot attēlu ceļu sarakstu OCR dzinējam cilpā vai izmantojot paralēlo apstrādi (ja attiecināms), varat ātri un efektīvi iegūt tekstu no lielām attēlu kolekcijām, kas ir ideāli piemērots dokumentu partijām, skenētiem arhīviem vai masveida attēlu analīzei.

Partijas OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Paralēlā apstrāde

3. piemērs: Izkārtojuma analīze

PaddleOCR var izmantot ne tikai teksta atpazīšanai, bet arī konkrētu teksta reģionu identificēšanai un strukturētu elementu, piemēram, tabulu, noteikšanai attēlā. Sistēma vispirms nosaka teksta apgabalus, izmantojot tās noteikšanas modeli, kas ieskauj katru teksta reģionu ar robežrāmjiem, ļaujot lietotājiem saprast teksta atrašanās vietu attēlā. Sarežģītākiem izkārtojumiem, piemēram, veidlapām vai dokumentiem, kas satur tabulas, PaddleOCR atbalsta izkārtojuma analīzi un tabulu struktūras atpazīšanu. Tas ļauj noteikt rindas, kolonnas un šūnu robežas, padarot iespējamu tabulas datu iegūšanu organizētā formātā. Šādas iespējas ir īpaši noderīgas skenētu dokumentu, rēķinu vai izklājlapu digitalizācijai, kur brīvā formā teksts un tabulas dati pastāv kopā.

Izkārtojuma noteikšana


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Paplašinātās funkcijas

PaddleOCR atbalsta sarežģītus darba procesus:

Pielāgota apmācība: Pielāgojiet modeļus saviem datiem:
Modeļa apmācība
```
    python tools/train.py -c configs/det/det_mv3_db.yml
    
```
Daudzvalodu sajaukums: Apstrādājiet vairāku valodu dokumentus:
Daudzvalodu OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```

PDF atbalsts: Tieša teksta iegūšana no PDF:

PDF apstrāde


    result = ocr.ocr('document.pdf', type='pdf')

Secinājumi

PaddleOCR piedāvā ražošanai gatavu OCR ar nepārspējamu daudzvalodu atbalstu un mērogojamību. Ideāli piemērots:

Dokumentu digitalizācijai: Skenēti PDF, rēķini, kvītis
Daudzvalodu lietojumprogrammām: Pases atpazīšana, daudzvalodu grāmatas
Malas ieviešanai: Mobilās lietotnes ar ierīcē darbojošos OCR

Atbalstīts ar PaddlePaddle dziļās mācīšanās ekosistēmu, PaddleOCR turpina noteikt standartus OCR precizitātē un efektivitātē.