Avoimen lähdekoodin Python-kirjasto tekstin poimintaan kuvista
Hyödynnä PyTesseract OCR -ratkaisua painetun ja käsinkirjoitetun tekstin poimimiseen kuvista.
Mikä on PyTesseract API Pythonille?
PyTesseract on Python-kääre Tesseract-OCR:lle, tehokkaalle avoimen lähdekoodin työkalulle tekstin poimintaan kuvista. Se mahdollistaa kehittäjille skannattujen asiakirjojen, käsinkirjoitettujen muistiinpanojen ja kuvissa olevan tekstin muuntamisen koneluettavaan muotoon vähällä vaivalla. PyTesseractia käytetään laajasti automaatiossa, tiedon poiminnassa, asiakirjojen digitalisoinnissa ja tekoälypohjaisissa sovelluksissa, jotka vaativat optista merkintunnistusta (OCR).
Kirjasto on erityisen hyödyllinen tiedonsyötön automatisointiin, tekstin tunnistamiseen kuvakaappauksista ja painettujen asiakirjojen digitalisointiin. Sen monikielinen tuki ja kuvankäsittelytekniikat tekevät siitä tehokkaan ja joustavan ratkaisun tekstin poimintaan kuvista.
PyTesseract API:n tärkeimmät ominaisuudet
- Kuvien muuntaminen tekstiksi: Poimi painettu tai käsinkirjoitettu teksti kuvista OCR:n avulla.
- Useiden kielten tuki: Tukee yli 100 kieltä Tesseract OCR -malleilla.
- Esikäsittelyn yhteensopivuus: Toimii OpenCV:n ja PIL:n kanssa kuvien parantamiseksi ennen OCR-käsittelyä.
- Tekstin poiminta PDF-tiedostoista: Muuntaa skannatut PDF-tiedostot tekstimuotoon.
- Tekstin poiminta sijaintitiedoilla: Poimii tekstin ja sen sijainnin kuvasta.
- Eräkäsittely: Suorittaa OCR-prosessin tehokkaasti useille kuville.
- Monialustainen tuki: Toimii Windowsissa, macOS:ssä ja Linuxissa.
- Avoimen lähdekoodin ratkaisu: Ilmainen ja yhteisön tukema.
PyTesseractin asennus
Ennen kuin käytät PyTesseractia, varmista, että Tesseract-OCR on asennettu järjestelmääsi.
Asennus
Asenna PyTesseract ja tarvittavat paketit
pip install pytesseract pillow opencv-python
Asenna Tesseract-OCR Windowsissa:
Tesseract-OCR:n asennus (Windows)
# Lataa Tesseract osoitteesta:
https://github.com/UB-Mannheim/tesseract/wiki
Asennus Linuxissa:
Tesseract-OCR:n asennus (Linux)
sudo apt install tesseract-ocr
Koodiesimerkkejä tekstin poimimiseen PyTesseract API:lla
Esimerkki 1: Tekstin poiminta kuvasta
Tekstin poiminta kuvasta
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Esimerkki 2: Tekstin poiminta sijaintitiedoilla
Tekstin poiminta sijaintitiedoilla
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Esimerkki 3: Tekstin poiminta harmaasävykuvasta
Tekstin poiminta harmaasävykuvasta
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)