Open-source Python bibliotek til tekstudtrækning fra billeder
Brug PyTesseract OCR til nemt at udtrække trykt og håndskrevet tekst fra billeder.
Hvad er PyTesseract API til Python?
PyTesseract er en Python-wrapper til Tesseract-OCR, et kraftfuldt open-source værktøj til at udtrække tekst fra billeder. Det giver udviklere mulighed for at konvertere scannede dokumenter, håndskrevne noter og billedbaseret tekst til maskinlæsbart format med minimal indsats. PyTesseract bruges bredt i automatisering, dataudtrækning, dokumentdigitalisering og AI-applikationer, der kræver optisk tegngenkendelse (OCR).
Biblioteket er især nyttigt til automatisering af dataindtastning, tekstgenkendelse fra skærmbilleder og digitalisering af trykte dokumenter. Med understøttelse af flere sprog og billedbehandlingsteknikker tilbyder PyTesseract en effektiv og fleksibel løsning til tekstudtrækning fra billeder.
Nøglefunktioner i PyTesseract API
- Konvertering af billeder til tekst: Uddrag trykt eller håndskrevet tekst fra billeder ved hjælp af OCR.
- Understøttelse af flere sprog: Genkender mere end 100 sprog ved hjælp af Tesseract OCR-modeller.
- Kompatibilitet med billedforbehandling: Fungerer med OpenCV og PIL for at forbedre billeder før OCR.
- Tekstudtrækning fra PDF: Konverterer scannede PDF-filer til tekstformat.
- Tekstudtrækning med markeringsbokse: Uddrag tekst med dens placering i billedet.
- Batch-behandling: Kør OCR effektivt på flere billeder.
- Understøttelse af flere platforme: Fungerer på Windows, macOS og Linux.
- Open-source: Gratis at bruge og understøttet af fællesskabet.
Installation af PyTesseract
Før du bruger PyTesseract, skal du sikre dig, at Tesseract-OCR er installeret på dit system.
Installation
Installer PyTesseract og afhængigheder
pip install pytesseract pillow opencv-python
Installation af Tesseract-OCR på Windows:
Installation af Tesseract-OCR (Windows)
# Download Tesseract fra:
https://github.com/UB-Mannheim/tesseract/wiki
På Linux, kør følgende kommando:
Installation af Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Kodeeksempler til tekstudtrækning med PyTesseract API
Eksempel 1: Uddrag tekst fra et billede
Uddrag tekst fra et billede
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Eksempel 2: Uddrag tekst med markeringsbokse
Uddrag tekst med markeringsbokse
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Eksempel 3: Uddrag tekst fra et gråtonebillede
Uddrag tekst fra et gråtonebillede
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)