Perpustakaan Python Open-Source untuk Ekstraksi Teks dari Gambar

Gunakan PyTesseract OCR untuk mengekstrak teks tercetak dan tulisan tangan dari gambar dengan mudah.

Apa Itu PyTesseract API untuk Python?

PyTesseract adalah pembungkus Python untuk Tesseract-OCR, alat open-source yang kuat untuk mengekstrak teks dari gambar. Alat ini memungkinkan pengembang untuk mengonversi dokumen yang dipindai, catatan tulisan tangan, dan teks dalam gambar menjadi format yang dapat dibaca mesin dengan sedikit usaha. PyTesseract banyak digunakan dalam otomatisasi, ekstraksi data, digitalisasi dokumen, dan aplikasi kecerdasan buatan (AI) yang memerlukan pengenalan karakter optik (OCR).

Perpustakaan ini sangat berguna untuk otomatisasi input data, pengenalan teks dari tangkapan layar, dan digitalisasi dokumen cetak. Dengan dukungan untuk berbagai bahasa dan teknik pemrosesan gambar, PyTesseract menawarkan solusi yang efisien dan fleksibel untuk mengekstrak teks dari gambar.

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Fitur Utama PyTesseract API

Konversi gambar ke teks: Mengekstrak teks tercetak atau tulisan tangan dari gambar menggunakan OCR.
Dukungan multi-bahasa: Mengenali lebih dari 100 bahasa menggunakan model Tesseract OCR.
Kompabilitas dengan pra-pemrosesan: Bekerja dengan OpenCV dan PIL untuk meningkatkan kualitas gambar sebelum OCR.
Ekstraksi teks dari PDF: Mengonversi file PDF yang dipindai menjadi teks yang dapat dicari.
Ekstraksi teks dengan bounding box: Mengambil teks beserta lokasinya dalam gambar.
Pemrosesan batch: Menjalankan OCR secara efisien pada banyak gambar sekaligus.
Dukungan multi-platform: Berjalan di Windows, macOS, dan Linux.
Open-source: Gratis digunakan dan didukung oleh komunitas.

Instalasi PyTesseract

Sebelum menggunakan PyTesseract, pastikan Tesseract-OCR telah terinstal di sistem Anda.

Instalasi

Instal PyTesseract dan dependensi


pip install pytesseract pillow opencv-python

Instalasi Tesseract-OCR di Windows:

Instalasi Tesseract-OCR (Windows)


# Unduh Tesseract dari:
https://github.com/UB-Mannheim/tesseract/wiki

Instalasi di Linux:

Instalasi Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Contoh Kode untuk Ekstraksi Teks Menggunakan PyTesseract API

Contoh 1: Mengekstrak teks dari gambar

Mengekstrak teks dari gambar


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Contoh 2: Mengekstrak teks dengan bounding box

Mengekstrak teks dengan bounding box


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Contoh 3: Mengekstrak teks dari gambar skala abu-abu

Mengekstrak teks dari gambar skala abu-abu


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)