Leabharlann Python foinse oscailte chun téacs a bhaint as íomhánna
Bain úsáid as PyTesseract OCR chun téacs clóite agus lámhscríofa a bhaint go héasca as íomhánna.
Cad é PyTesseract API do Python?
Is fillteán Python é PyTesseract don uirlis foinse oscailte Tesseract-OCR, a ligeann do ríomhchláraitheoirí doiciméid scanta, nótaí lámhscríofa, agus téacs in íomhánna a thiontú go formáid atá intuigthe ag ríomhairí gan mórán iarrachta. Úsáidtear PyTesseract go forleathan i ndigitiú doiciméad, eastóscadh sonraí, agus feidhmchláir AI a bhfuil aitheantas optúil carachtar (OCR) de dhíth orthu.
Tá an leabharlann seo thar a bheith úsáideach chun ionchur sonraí a uathoibriú, téacs a aithint ó ghrianghraif scáileáin, agus doiciméid chlóite a dhigitiú. Le tacaíocht do theangacha iomadúla agus teicnící réamhphróiseála íomhánna, soláthraíonn PyTesseract réiteach éifeachtach agus solúbtha chun téacs a bhaint as íomhánna.
Príomhghnéithe PyTesseract API
- Tiontú íomhánna go téacs: Bain téacs clóite nó lámhscríofa as íomhánna ag úsáid OCR.
- Tacaíocht do theangacha iomadúla: Aithníonn sé níos mó ná 100 teanga le samhlacha Tesseract OCR.
- Comhoiriúnacht réamhphróiseála: Oibríonn sé le OpenCV agus PIL chun feabhas a chur ar íomhánna sula ndéantar OCR orthu.
- Eastóscadh téacs ó PDF: Tiontaíonn sé comhaid PDF scanta go formáid téacs.
- Eastóscadh téacs le boscaí teorann: Bain téacs agus a shuíomh san íomhá amach.
- Próiseáil bhaisc: Déanann sé OCR ar ilíomhánna go héifeachtach.
- Comhoiriúnacht ilardán: Oibríonn sé ar Windows, macOS, agus Linux.
- Foinse oscailte: Saor in aisce agus tacaíocht ón bpobal.
Suiteáil PyTesseract
Sula n-úsáideann tú PyTesseract, cinntigh go bhfuil Tesseract-OCR suiteáilte ar do chóras.
Suiteáil
Suiteáil PyTesseract agus spleáchais
pip install pytesseract pillow opencv-python
Suiteáil Tesseract-OCR ar Windows:
Suiteáil Tesseract-OCR (Windows)
# Íoslódáil Tesseract ó:
https://github.com/UB-Mannheim/tesseract/wiki
Ar Linux, rith an t-ordú seo:
Suiteáil Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Samplaí Cód chun Téacs a Bhaint Amach le PyTesseract API
Sampla 1: Bain téacs as íomhá
Bain téacs as íomhá
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Sampla 2: Bain téacs le boscaí teorann
Bain téacs le boscaí teorann
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Sampla 3: Bain téacs as íomhá liathscála
Bain téacs as íomhá liathscála
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)