1. Products
  2.   Parser
  3.   Python
  4.   PyTesseract
 
  

Leabharlann Python foinse oscailte chun téacs a bhaint as íomhánna

Bain úsáid as PyTesseract OCR chun téacs clóite agus lámhscríofa a bhaint go héasca as íomhánna.

Cad é PyTesseract API do Python?

Is fillteán Python é PyTesseract don uirlis foinse oscailte Tesseract-OCR, a ligeann do ríomhchláraitheoirí doiciméid scanta, nótaí lámhscríofa, agus téacs in íomhánna a thiontú go formáid atá intuigthe ag ríomhairí gan mórán iarrachta. Úsáidtear PyTesseract go forleathan i ndigitiú doiciméad, eastóscadh sonraí, agus feidhmchláir AI a bhfuil aitheantas optúil carachtar (OCR) de dhíth orthu.

Tá an leabharlann seo thar a bheith úsáideach chun ionchur sonraí a uathoibriú, téacs a aithint ó ghrianghraif scáileáin, agus doiciméid chlóite a dhigitiú. Le tacaíocht do theangacha iomadúla agus teicnící réamhphróiseála íomhánna, soláthraíonn PyTesseract réiteach éifeachtach agus solúbtha chun téacs a bhaint as íomhánna.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Príomhghnéithe PyTesseract API

  • Tiontú íomhánna go téacs: Bain téacs clóite nó lámhscríofa as íomhánna ag úsáid OCR.
  • Tacaíocht do theangacha iomadúla: Aithníonn sé níos mó ná 100 teanga le samhlacha Tesseract OCR.
  • Comhoiriúnacht réamhphróiseála: Oibríonn sé le OpenCV agus PIL chun feabhas a chur ar íomhánna sula ndéantar OCR orthu.
  • Eastóscadh téacs ó PDF: Tiontaíonn sé comhaid PDF scanta go formáid téacs.
  • Eastóscadh téacs le boscaí teorann: Bain téacs agus a shuíomh san íomhá amach.
  • Próiseáil bhaisc: Déanann sé OCR ar ilíomhánna go héifeachtach.
  • Comhoiriúnacht ilardán: Oibríonn sé ar Windows, macOS, agus Linux.
  • Foinse oscailte: Saor in aisce agus tacaíocht ón bpobal.

Suiteáil PyTesseract

Sula n-úsáideann tú PyTesseract, cinntigh go bhfuil Tesseract-OCR suiteáilte ar do chóras.

Suiteáil

Suiteáil PyTesseract agus spleáchais


pip install pytesseract pillow opencv-python

Suiteáil Tesseract-OCR ar Windows:

Suiteáil Tesseract-OCR (Windows)


# Íoslódáil Tesseract ó:
https://github.com/UB-Mannheim/tesseract/wiki

Ar Linux, rith an t-ordú seo:

Suiteáil Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Samplaí Cód chun Téacs a Bhaint Amach le PyTesseract API

Sampla 1: Bain téacs as íomhá

Bain téacs as íomhá


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Sampla 2: Bain téacs le boscaí teorann

Bain téacs le boscaí teorann


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Sampla 3: Bain téacs as íomhá liathscála

Bain téacs as íomhá liathscála


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)

Similar Products

     Gaeilge