Biblioteca de Python de codi obert per extreure text d’imatges

Utilitzeu PyTesseract OCR per extreure fàcilment text imprès i manuscrit d’imatges.

Què és l'API PyTesseract per a Python?

PyTesseract és una interfície Python per a Tesseract-OCR, una eina potent i de codi obert per extreure text d’imatges. Permet als desenvolupadors convertir documents escanejats, notes manuscrites i text basat en imatges en un format llegible per màquina amb un esforç mínim. PyTesseract s’utilitza àmpliament en automatització, extracció de dades, digitalització de documents i aplicacions d’IA que requereixen reconeixement òptic de caràcters (OCR).

La biblioteca és especialment útil per automatitzar l’entrada de dades, extreure text de captures de pantalla i digitalitzar documents impresos. Amb suport per a múltiples idiomes i tècniques de processament d’imatges, PyTesseract ofereix una solució eficient i flexible per extreure text d’imatges.

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Característiques clau de PyTesseract API

Conversió d’imatges a text: Extreure text imprès o manuscrit d’imatges utilitzant OCR.
Suport per a múltiples idiomes: Reconeix més de 100 idiomes amb els models de Tesseract OCR.
Compatibilitat amb preprocessament: Funciona amb OpenCV i PIL per millorar les imatges abans de l’OCR.
Extracció de text de PDFs: Converteix PDFs escanejats en format de text.
Extracció de text amb caixes delimitadores: Obté text amb la seva posició dins de la imatge.
Processament per lots: Executa OCR en múltiples imatges de manera eficient.
Compatible amb múltiples plataformes: Funciona en Windows, macOS i Linux.
Codi obert: Disponible gratuïtament i mantingut per la comunitat.

Instal·lació de PyTesseract

Abans d’utilitzar PyTesseract, assegureu-vos que Tesseract-OCR està instal·lat al vostre sistema.

Instal·lació

Instal·lar PyTesseract i dependències


pip install pytesseract pillow opencv-python

Instal·lació de Tesseract-OCR a Windows:

Instal·lació de Tesseract-OCR (Windows)


# Baixeu Tesseract des de:
https://github.com/UB-Mannheim/tesseract/wiki

A Linux, executeu:

Instal·lació de Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Exemples de codi per a l’extracció de text amb PyTesseract

Exemple 1: Extreure text d’una imatge

Extreure text d’una imatge


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Exemple 2: Extreure text amb caixes delimitadores

Extreure text amb caixes delimitadores


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Exemple 3: Extreure text d’una imatge en escala de grisos

Extreure text d’una imatge en escala de grisos


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)