Atvirojo kodo Python biblioteka teksto išgavimui iš vaizdų

Naudokite PyTesseract OCR norint lengvai išgauti spausdintą ar ranka rašytą tekstą iš vaizdų.

Kas yra PyTesseract API Python kalboje?

PyTesseract yra Python paketas, suteikiantis sąsają su Tesseract-OCR – galingu atvirojo kodo įrankiu teksto išgavimui iš vaizdų. Ši biblioteka leidžia programuotojams konvertuoti nuskenuotus dokumentus, ranka rašytas pastabas ir vaizduose esantį tekstą į mašinai suprantamą formatą be didelių pastangų. PyTesseract plačiai naudojamas automatizavimui, duomenų ištraukimui, dokumentų skaitmenizavimui bei dirbtinio intelekto (AI) sprendimuose, kuriems reikalingas optinis simbolių atpažinimas (OCR).

Ši biblioteka yra ypač naudinga automatizuojant duomenų įvedimą, atpažįstant tekstą ekrano nuotraukose ir skaitmeninant spausdintus dokumentus. Palaikydama kelias kalbas ir pažangias vaizdų apdorojimo technologijas, PyTesseract suteikia efektyvų ir lankstų teksto ištraukimo iš vaizdų sprendimą.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Pagrindinės PyTesseract API savybės

Vaizdų konvertavimas į tekstą: Išgaukite spausdintą ar ranka rašytą tekstą iš vaizdų naudojant OCR.
Daugiakalbė parama: Tesseract OCR modeliai atpažįsta daugiau nei 100 kalbų.
Priešapdorojimo palaikymas: Veikia kartu su OpenCV ir PIL siekiant pagerinti vaizdo kokybę prieš OCR apdorojimą.
Teksto ištraukimas iš PDF: Konvertuoja nuskenuotus PDF failus į tekstą, kurį galima ieškoti.
Teksto išgavimas su ribojančiomis dėžutėmis: Leidžia atpažinti tekstą kartu su jo pozicija vaizde.
Masinis apdorojimas: Efektyviai apdoroja kelis vaizdus vienu metu.
Kelių platformų palaikymas: Veikia Windows, macOS ir Linux operacinėse sistemose.
Atvirojo kodo projektas: Nemokamas naudoti ir palaikomas bendruomenės.

PyTesseract diegimas

Prieš naudodami PyTesseract, įsitikinkite, kad jūsų sistemoje yra įdiegtas Tesseract-OCR.

Diegimo procesas

PyTesseract ir priklausomybių diegimas


pip install pytesseract pillow opencv-python

Tesseract-OCR diegimas Windows sistemoje:

Tesseract-OCR diegimas (Windows)


# Atsisiųskite Tesseract iš:
https://github.com/UB-Mannheim/tesseract/wiki

Tesseract-OCR diegimas Linux sistemoje:

Tesseract-OCR diegimas (Linux)


sudo apt install tesseract-ocr

PyTesseract API naudojimo pavyzdžiai

Pavyzdys 1: Teksto ištraukimas iš vaizdo

Teksto ištraukimas iš vaizdo


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Pavyzdys 2: Teksto išgavimas su ribojančiomis dėžutėmis

Teksto išgavimas su ribojančiomis dėžutėmis


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Pavyzdys 3: Teksto ištraukimas iš pilkų atspalvių vaizdo

Teksto ištraukimas iš pilkų atspalvių vaizdo


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)