Open-Source Python Bibliotheek voor Tekst Extractie uit Afbeeldingen

Gebruik PyTesseract OCR om eenvoudig gedrukte en handgeschreven tekst uit afbeeldingen te extraheren.

Wat is de PyTesseract API voor Python?

PyTesseract is een Python-wrapper voor Tesseract-OCR, een krachtige open-source tool voor tekstextractie uit afbeeldingen. Hiermee kunnen ontwikkelaars gescande documenten, handgeschreven notities en tekst in afbeeldingen eenvoudig converteren naar een machinaal leesbaar formaat. PyTesseract wordt veel gebruikt in automatisering, gegevensverwerking, digitalisering van documenten en AI-toepassingen die optische tekenherkenning (OCR) vereisen.

Deze bibliotheek is vooral handig voor het automatiseren van gegevensinvoer, het herkennen van tekst in schermafbeeldingen en het digitaliseren van gedrukte documenten. Met ondersteuning voor meerdere talen en geavanceerde beeldverwerkingstechnieken biedt PyTesseract een efficiënte en flexibele oplossing voor tekstextractie uit afbeeldingen.

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Belangrijkste Kenmerken van PyTesseract API

Afbeeldingen omzetten naar tekst: Extraheer gedrukte of handgeschreven tekst uit afbeeldingen met OCR.
Ondersteuning voor meerdere talen: Herkent meer dan 100 talen met behulp van Tesseract OCR-modellen.
Compatibiliteit met beeldvoorbewerking: Werkt met OpenCV en PIL om de beeldkwaliteit te verbeteren vóór OCR-verwerking.
Tekstextractie uit PDF: Converteert gescande PDF-bestanden naar doorzoekbare tekst.
Tekstextractie met bounding boxes: Extraheert tekst samen met de positie in de afbeelding.
Batchverwerking: Efficiënte OCR-verwerking op meerdere afbeeldingen tegelijk.
Multi-platform ondersteuning: Werkt op Windows, macOS en Linux.
Open-source: Gratis te gebruiken en ondersteund door de community.

Installatie van PyTesseract

Voordat je PyTesseract gebruikt, zorg ervoor dat Tesseract-OCR op je systeem is geïnstalleerd.

Installatieproces

Installeer PyTesseract en afhankelijkheden


pip install pytesseract pillow opencv-python

Installatie van Tesseract-OCR op Windows:

Tesseract-OCR installeren (Windows)


# Download Tesseract van:
https://github.com/UB-Mannheim/tesseract/wiki

Installatie op Linux:

Tesseract-OCR installeren (Linux)


sudo apt install tesseract-ocr

Codevoorbeelden voor Tekstextractie met PyTesseract API

Voorbeeld 1: Tekst uit een afbeelding extraheren

Tekst uit een afbeelding extraheren


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Voorbeeld 2: Tekst extractie met bounding boxes

Tekst extractie met bounding boxes


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Voorbeeld 3: Tekst extractie uit een grijswaardenafbeelding

Tekst extractie uit een grijswaardenafbeelding


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)