Nyílt forráskódú Python könyvtár szövegkinyeréshez képekből

Használja a PyTesseract OCR-t, hogy könnyedén kinyerje a nyomtatott és kézírásos szöveget a képekből.

Mi az a PyTesseract API?

A PyTesseract a Tesseract-OCR Python csomagja, amely egy hatékony nyílt forráskódú eszköz a képekből történő szövegkinyeréshez. Lehetővé teszi a fejlesztők számára, hogy a szkennelt dokumentumokat, kézzel írt jegyzeteket és a képeken található szöveget könnyen géppel olvasható formátumba alakítsák. A PyTesseract széles körben használatos az automatizálásban, adatkivonásban, dokumentumok digitalizálásában és mesterséges intelligencia (AI) alkalmazásokban, ahol optikai karakterfelismerésre (OCR) van szükség.

Ez a könyvtár különösen hasznos az adatok automatikus beviteléhez, a képernyőképeken található szöveg azonosításához és a nyomtatott dokumentumok digitalizálásához. A többnyelvű támogatás és a fejlett képkezelési technikák révén a PyTesseract hatékony és rugalmas megoldást kínál a szöveg kinyerésére képekből.

A PyTesseract API fő funkciói

Képek konvertálása szöveggé: OCR segítségével kinyeri a nyomtatott vagy kézírásos szöveget a képekből.
Többnyelvű támogatás: Több mint 100 nyelvet képes felismerni a Tesseract OCR modellekkel.
Előfeldolgozási kompatibilitás: Az OpenCV és PIL segítségével javítja a képminőséget az OCR előtt.
Szöveg kinyerése PDF-ekből: A szkennelt PDF fájlokat kereshető szöveggé alakítja.
Szöveg kinyerése pozícióinformációval: A szöveg helyzetének megőrzése a képen belül.
Tömeges feldolgozás: OCR végrehajtása több képen egyszerre.
Platformfüggetlen működés: Windows, macOS és Linux rendszereken is működik.
Nyílt forráskódú: Ingyenesen használható és közösségi támogatással rendelkezik.

A PyTesseract telepítése

Mielőtt használná a PyTesseractot, győződjön meg róla, hogy a Tesseract-OCR telepítve van a rendszerére.

Telepítési lépések

Telepítse a PyTesseractot és a szükséges csomagokat


pip install pytesseract pillow opencv-python

Tesseract-OCR telepítése Windows rendszeren:

Tesseract-OCR telepítése Windowsra


# Töltse le a Tesseractot innen:
https://github.com/UB-Mannheim/tesseract/wiki

Telepítés Linux rendszeren:

Tesseract-OCR telepítése Linuxra


sudo apt install tesseract-ocr

Kódpéldák a PyTesseract API használatára

Példa 1: Szöveg kinyerése képből

Szöveg kinyerése képből


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Példa 2: Szöveg kinyerése pozícióval

Szöveg kinyerése pozícióval


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Példa 3: Szöveg kinyerése szürkeárnyalatos képből

Szöveg kinyerése szürkeárnyalatos képből


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)