Biblioteca de Python de codi obert per extreure text d’imatges
Utilitzeu PyTesseract OCR per extreure fàcilment text imprès i manuscrit d’imatges.
Què és l'API PyTesseract per a Python?
PyTesseract és una interfície Python per a Tesseract-OCR, una eina potent i de codi obert per extreure text d’imatges. Permet als desenvolupadors convertir documents escanejats, notes manuscrites i text basat en imatges en un format llegible per màquina amb un esforç mínim. PyTesseract s’utilitza àmpliament en automatització, extracció de dades, digitalització de documents i aplicacions d’IA que requereixen reconeixement òptic de caràcters (OCR).
La biblioteca és especialment útil per automatitzar l’entrada de dades, extreure text de captures de pantalla i digitalitzar documents impresos. Amb suport per a múltiples idiomes i tècniques de processament d’imatges, PyTesseract ofereix una solució eficient i flexible per extreure text d’imatges.
Característiques clau de PyTesseract API
- Conversió d’imatges a text: Extreure text imprès o manuscrit d’imatges utilitzant OCR.
- Suport per a múltiples idiomes: Reconeix més de 100 idiomes amb els models de Tesseract OCR.
- Compatibilitat amb preprocessament: Funciona amb OpenCV i PIL per millorar les imatges abans de l’OCR.
- Extracció de text de PDFs: Converteix PDFs escanejats en format de text.
- Extracció de text amb caixes delimitadores: Obté text amb la seva posició dins de la imatge.
- Processament per lots: Executa OCR en múltiples imatges de manera eficient.
- Compatible amb múltiples plataformes: Funciona en Windows, macOS i Linux.
- Codi obert: Disponible gratuïtament i mantingut per la comunitat.
Instal·lació de PyTesseract
Abans d’utilitzar PyTesseract, assegureu-vos que Tesseract-OCR està instal·lat al vostre sistema.
Instal·lació
Instal·lar PyTesseract i dependències
pip install pytesseract pillow opencv-python
Instal·lació de Tesseract-OCR a Windows:
Instal·lació de Tesseract-OCR (Windows)
# Baixeu Tesseract des de:
https://github.com/UB-Mannheim/tesseract/wiki
A Linux, executeu:
Instal·lació de Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Exemples de codi per a l’extracció de text amb PyTesseract
Exemple 1: Extreure text d’una imatge
Extreure text d’una imatge
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Exemple 2: Extreure text amb caixes delimitadores
Extreure text amb caixes delimitadores
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Exemple 3: Extreure text d’una imatge en escala de grisos
Extreure text d’una imatge en escala de grisos
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)