Open-Source Python-bibliotek för textutvinning från bilder

Använd PyTesseract OCR för att enkelt extrahera tryckt och handskriven text från bilder.

Vad är PyTesseract API för Python?

PyTesseract är en Python-wrapper för Tesseract-OCR, ett kraftfullt open-source-verktyg för att extrahera text från bilder. Det gör det möjligt för utvecklare att enkelt konvertera skannade dokument, handskrivna anteckningar och text i bilder till ett maskinläsbart format. PyTesseract används ofta inom automatisering, datautvinning, dokumentdigitalisering och AI-applikationer som kräver optisk teckenigenkänning (OCR).

Detta bibliotek är särskilt användbart för att automatisera datainmatning, identifiera text i skärmdumpar och digitalisera tryckta dokument. Med stöd för flera språk och avancerade bildbehandlingstekniker erbjuder PyTesseract en effektiv och flexibel lösning för textutvinning från bilder.

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Huvudfunktioner i PyTesseract API

Konvertering av bilder till text: Extrahera tryckt eller handskriven text från bilder med OCR.
Stöd för flera språk: Identifierar över 100 språk med hjälp av Tesseract OCR-modeller.
Kompatibilitet med bildförbehandling: Fungerar med OpenCV och PIL för att förbättra bildkvaliteten innan OCR-behandling.
Textutvinning från PDF: Konverterar skannade PDF-filer till sökbar text.
Textutvinning med markerade områden: Hämtar text tillsammans med dess position i bilden.
Batchbearbetning: Utför OCR effektivt på flera bilder samtidigt.
Plattformsoberoende: Fungerar på Windows, macOS och Linux.
Open-source: Gratis att använda och stöds av communityn.

Installation av PyTesseract

Innan du använder PyTesseract, se till att Tesseract-OCR är installerat på ditt system.

Installationsprocess

Installera PyTesseract och dess beroenden


pip install pytesseract pillow opencv-python

Installation av Tesseract-OCR på Windows:

Installera Tesseract-OCR (Windows)


# Ladda ner Tesseract från:
https://github.com/UB-Mannheim/tesseract/wiki

Installation på Linux:

Installera Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Kodexempel för textutvinning med PyTesseract API

Exempel 1: Extrahera text från en bild

Extrahera text från en bild


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Exempel 2: Textutvinning med markerade områden

Textutvinning med markerade områden


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Exempel 3: Extrahera text från en gråskalebild

Extrahera text från en gråskalebild


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)