Open-Source Python Bibliotheek voor Tekst Extractie uit Afbeeldingen
Gebruik PyTesseract OCR om eenvoudig gedrukte en handgeschreven tekst uit afbeeldingen te extraheren.
Wat is de PyTesseract API voor Python?
PyTesseract is een Python-wrapper voor Tesseract-OCR, een krachtige open-source tool voor tekstextractie uit afbeeldingen. Hiermee kunnen ontwikkelaars gescande documenten, handgeschreven notities en tekst in afbeeldingen eenvoudig converteren naar een machinaal leesbaar formaat. PyTesseract wordt veel gebruikt in automatisering, gegevensverwerking, digitalisering van documenten en AI-toepassingen die optische tekenherkenning (OCR) vereisen.
Deze bibliotheek is vooral handig voor het automatiseren van gegevensinvoer, het herkennen van tekst in schermafbeeldingen en het digitaliseren van gedrukte documenten. Met ondersteuning voor meerdere talen en geavanceerde beeldverwerkingstechnieken biedt PyTesseract een efficiënte en flexibele oplossing voor tekstextractie uit afbeeldingen.
Belangrijkste Kenmerken van PyTesseract API
- Afbeeldingen omzetten naar tekst: Extraheer gedrukte of handgeschreven tekst uit afbeeldingen met OCR.
- Ondersteuning voor meerdere talen: Herkent meer dan 100 talen met behulp van Tesseract OCR-modellen.
- Compatibiliteit met beeldvoorbewerking: Werkt met OpenCV en PIL om de beeldkwaliteit te verbeteren vóór OCR-verwerking.
- Tekstextractie uit PDF: Converteert gescande PDF-bestanden naar doorzoekbare tekst.
- Tekstextractie met bounding boxes: Extraheert tekst samen met de positie in de afbeelding.
- Batchverwerking: Efficiënte OCR-verwerking op meerdere afbeeldingen tegelijk.
- Multi-platform ondersteuning: Werkt op Windows, macOS en Linux.
- Open-source: Gratis te gebruiken en ondersteund door de community.
Installatie van PyTesseract
Voordat je PyTesseract gebruikt, zorg ervoor dat Tesseract-OCR op je systeem is geïnstalleerd.
Installatieproces
Installeer PyTesseract en afhankelijkheden
pip install pytesseract pillow opencv-python
Installatie van Tesseract-OCR op Windows:
Tesseract-OCR installeren (Windows)
# Download Tesseract van:
https://github.com/UB-Mannheim/tesseract/wiki
Installatie op Linux:
Tesseract-OCR installeren (Linux)
sudo apt install tesseract-ocr
Codevoorbeelden voor Tekstextractie met PyTesseract API
Voorbeeld 1: Tekst uit een afbeelding extraheren
Tekst uit een afbeelding extraheren
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Voorbeeld 2: Tekst extractie met bounding boxes
Tekst extractie met bounding boxes
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Voorbeeld 3: Tekst extractie uit een grijswaardenafbeelding
Tekst extractie uit een grijswaardenafbeelding
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)