Nyílt forráskódú Python könyvtár szövegkinyeréshez képekből
Használja a PyTesseract OCR-t, hogy könnyedén kinyerje a nyomtatott és kézírásos szöveget a képekből.
Mi az a PyTesseract API?
A PyTesseract a Tesseract-OCR Python csomagja, amely egy hatékony nyílt forráskódú eszköz a képekből történő szövegkinyeréshez. Lehetővé teszi a fejlesztők számára, hogy a szkennelt dokumentumokat, kézzel írt jegyzeteket és a képeken található szöveget könnyen géppel olvasható formátumba alakítsák. A PyTesseract széles körben használatos az automatizálásban, adatkivonásban, dokumentumok digitalizálásában és mesterséges intelligencia (AI) alkalmazásokban, ahol optikai karakterfelismerésre (OCR) van szükség.
Ez a könyvtár különösen hasznos az adatok automatikus beviteléhez, a képernyőképeken található szöveg azonosításához és a nyomtatott dokumentumok digitalizálásához. A többnyelvű támogatás és a fejlett képkezelési technikák révén a PyTesseract hatékony és rugalmas megoldást kínál a szöveg kinyerésére képekből.
A PyTesseract API fő funkciói
- Képek konvertálása szöveggé: OCR segítségével kinyeri a nyomtatott vagy kézírásos szöveget a képekből.
- Többnyelvű támogatás: Több mint 100 nyelvet képes felismerni a Tesseract OCR modellekkel.
- Előfeldolgozási kompatibilitás: Az OpenCV és PIL segítségével javítja a képminőséget az OCR előtt.
- Szöveg kinyerése PDF-ekből: A szkennelt PDF fájlokat kereshető szöveggé alakítja.
- Szöveg kinyerése pozícióinformációval: A szöveg helyzetének megőrzése a képen belül.
- Tömeges feldolgozás: OCR végrehajtása több képen egyszerre.
- Platformfüggetlen működés: Windows, macOS és Linux rendszereken is működik.
- Nyílt forráskódú: Ingyenesen használható és közösségi támogatással rendelkezik.
A PyTesseract telepítése
Mielőtt használná a PyTesseractot, győződjön meg róla, hogy a Tesseract-OCR telepítve van a rendszerére.
Telepítési lépések
Telepítse a PyTesseractot és a szükséges csomagokat
pip install pytesseract pillow opencv-python
Tesseract-OCR telepítése Windows rendszeren:
Tesseract-OCR telepítése Windowsra
# Töltse le a Tesseractot innen:
https://github.com/UB-Mannheim/tesseract/wiki
Telepítés Linux rendszeren:
Tesseract-OCR telepítése Linuxra
sudo apt install tesseract-ocr
Kódpéldák a PyTesseract API használatára
Példa 1: Szöveg kinyerése képből
Szöveg kinyerése képből
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Példa 2: Szöveg kinyerése pozícióval
Szöveg kinyerése pozícióval
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Példa 3: Szöveg kinyerése szürkeárnyalatos képből
Szöveg kinyerése szürkeárnyalatos képből
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)