Perpustakaan Python Open-Source untuk Ekstraksi Teks dari Gambar
Gunakan PyTesseract OCR untuk mengekstrak teks tercetak dan tulisan tangan dari gambar dengan mudah.
Apa Itu PyTesseract API untuk Python?
PyTesseract adalah pembungkus Python untuk Tesseract-OCR, alat open-source yang kuat untuk mengekstrak teks dari gambar. Alat ini memungkinkan pengembang untuk mengonversi dokumen yang dipindai, catatan tulisan tangan, dan teks dalam gambar menjadi format yang dapat dibaca mesin dengan sedikit usaha. PyTesseract banyak digunakan dalam otomatisasi, ekstraksi data, digitalisasi dokumen, dan aplikasi kecerdasan buatan (AI) yang memerlukan pengenalan karakter optik (OCR).
Perpustakaan ini sangat berguna untuk otomatisasi input data, pengenalan teks dari tangkapan layar, dan digitalisasi dokumen cetak. Dengan dukungan untuk berbagai bahasa dan teknik pemrosesan gambar, PyTesseract menawarkan solusi yang efisien dan fleksibel untuk mengekstrak teks dari gambar.
Fitur Utama PyTesseract API
- Konversi gambar ke teks: Mengekstrak teks tercetak atau tulisan tangan dari gambar menggunakan OCR.
- Dukungan multi-bahasa: Mengenali lebih dari 100 bahasa menggunakan model Tesseract OCR.
- Kompabilitas dengan pra-pemrosesan: Bekerja dengan OpenCV dan PIL untuk meningkatkan kualitas gambar sebelum OCR.
- Ekstraksi teks dari PDF: Mengonversi file PDF yang dipindai menjadi teks yang dapat dicari.
- Ekstraksi teks dengan bounding box: Mengambil teks beserta lokasinya dalam gambar.
- Pemrosesan batch: Menjalankan OCR secara efisien pada banyak gambar sekaligus.
- Dukungan multi-platform: Berjalan di Windows, macOS, dan Linux.
- Open-source: Gratis digunakan dan didukung oleh komunitas.
Instalasi PyTesseract
Sebelum menggunakan PyTesseract, pastikan Tesseract-OCR telah terinstal di sistem Anda.
Instalasi
Instal PyTesseract dan dependensi
pip install pytesseract pillow opencv-python
Instalasi Tesseract-OCR di Windows:
Instalasi Tesseract-OCR (Windows)
# Unduh Tesseract dari:
https://github.com/UB-Mannheim/tesseract/wiki
Instalasi di Linux:
Instalasi Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Contoh Kode untuk Ekstraksi Teks Menggunakan PyTesseract API
Contoh 1: Mengekstrak teks dari gambar
Mengekstrak teks dari gambar
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Contoh 2: Mengekstrak teks dengan bounding box
Mengekstrak teks dengan bounding box
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Contoh 3: Mengekstrak teks dari gambar skala abu-abu
Mengekstrak teks dari gambar skala abu-abu
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)