Open-Source Python-bibliotek för textutvinning från bilder
Använd PyTesseract OCR för att enkelt extrahera tryckt och handskriven text från bilder.
Vad är PyTesseract API för Python?
PyTesseract är en Python-wrapper för Tesseract-OCR, ett kraftfullt open-source-verktyg för att extrahera text från bilder. Det gör det möjligt för utvecklare att enkelt konvertera skannade dokument, handskrivna anteckningar och text i bilder till ett maskinläsbart format. PyTesseract används ofta inom automatisering, datautvinning, dokumentdigitalisering och AI-applikationer som kräver optisk teckenigenkänning (OCR).
Detta bibliotek är särskilt användbart för att automatisera datainmatning, identifiera text i skärmdumpar och digitalisera tryckta dokument. Med stöd för flera språk och avancerade bildbehandlingstekniker erbjuder PyTesseract en effektiv och flexibel lösning för textutvinning från bilder.
Huvudfunktioner i PyTesseract API
- Konvertering av bilder till text: Extrahera tryckt eller handskriven text från bilder med OCR.
- Stöd för flera språk: Identifierar över 100 språk med hjälp av Tesseract OCR-modeller.
- Kompatibilitet med bildförbehandling: Fungerar med OpenCV och PIL för att förbättra bildkvaliteten innan OCR-behandling.
- Textutvinning från PDF: Konverterar skannade PDF-filer till sökbar text.
- Textutvinning med markerade områden: Hämtar text tillsammans med dess position i bilden.
- Batchbearbetning: Utför OCR effektivt på flera bilder samtidigt.
- Plattformsoberoende: Fungerar på Windows, macOS och Linux.
- Open-source: Gratis att använda och stöds av communityn.
Installation av PyTesseract
Innan du använder PyTesseract, se till att Tesseract-OCR är installerat på ditt system.
Installationsprocess
Installera PyTesseract och dess beroenden
pip install pytesseract pillow opencv-python
Installation av Tesseract-OCR på Windows:
Installera Tesseract-OCR (Windows)
# Ladda ner Tesseract från:
https://github.com/UB-Mannheim/tesseract/wiki
Installation på Linux:
Installera Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Kodexempel för textutvinning med PyTesseract API
Exempel 1: Extrahera text från en bild
Extrahera text från en bild
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Exempel 2: Textutvinning med markerade områden
Textutvinning med markerade områden
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Exempel 3: Extrahera text från en gråskalebild
Extrahera text från en gråskalebild
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)