Réiteach OCR bunaithe ar fhoghlaim dhomhain i Python

Bain úsáid as docTR chun téacs a bhaint agus a aithint go cruinn ó íomhánna.

Cad é API docTR do Python?

Is leabharlann OCR foinse oscailte bunaithe ar fhoghlaim dhomhain i Python é docTR (Document Text Recognition). Soláthraíonn sé braite agus aithint téacs den scoth le haghaidh doiciméid scanta, íomhánna agus comhaid PDF. Trí úsáid a bhaint as ailtireachtaí nua-aimseartha foghlama domhain, cinntíonn docTR cruinneas ard agus éifeachtacht is fearr agus struchtúr na ndoiciméad á chaomhnú aige.

Úsáidtear docTR go forleathan chun doiciméid a dhigitiú, sonraí a bhaint go huathoibríoch, agus feidhmchláir aithint téacs bunaithe ar AI. Tacaíonn sé le teangacha iolracha, aithint lámhscríbhneoireachta, agus luasghéarú GPU le haghaidh feidhmíochta feabhsaithe.

Gnéithe Príomhúla API docTR

  • OCR ardleibhéil bunaithe ar fhoghlaim dhomhain: Úsáideann sé líonraí néarógacha chun braite agus aithint téacs a dhéanamh go cruinn.
  • Tacaíocht ilfhormáid: Oibríonn sé le híomhánna, comhaid PDF agus doiciméid scanta.
  • Aithint lámhscríbhneoireachta: Braith agus bain téacs lámhscríofa le cruinneas ard.
  • Aithint ilteangach: Tacaíonn sé le teangacha agus aibítrí éagsúla.
  • Optamaithe le haghaidh luas: Baintear téacs go héifeachtach le luasghéarú GPU.
  • Caomhnaíonn sé an leagan amach: Coinníonn sé struchtúr na ndoiciméad agus an téacs á aithint.
  • Inscálaithe agus foinse oscailte: Saor in aisce agus cothabhálaítear é go gníomhach le haghaidh feabhsuithe leanúnacha.

Tús a chur le API docTR

Chun docTR a shuiteáil, bain úsáid as an ordú pip seo:

Suiteáil docTR


pip install python-doctr

Chun luasghéarú GPU a ghníomhachtú le haghaidh próiseála níos tapúla, suiteáil na spleáchais bhreise:

Suiteáil spleáchais GPU


pip install tensorflow-gpu torch torchvision

Samplaí Cód le haghaidh Baint Téacs le docTR

Seo roinnt samplaí a thaispeánann conas téacs a bhaint as íomhánna agus doiciméid ag baint úsáide as docTR.

API docTR don OCR

Sampla 1: Téacs a Bhaint as Íomhá

Téacs a bhaint as íomhá


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Sampla 2: Próiseáil Doiciméid PDF Illeathanach

Téacs a bhaint as PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Sampla 3: Aithint Téacs Lámhscríofa

Téacs lámhscríofa a bhaint


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Conclúid

Is réiteach OCR cumhachtach é API docTR atá bunaithe ar fhoghlaim dhomhain, rud a éascaíonn baint téacs as íomhánna, comhaid PDF, agus doiciméid lámhscríofa. Cinntíonn sé cruinneas ard agus caomhnaíonn sé struchtúr na ndoiciméad, rud a fhágann go bhfuil sé ina uirlis luachmhar le haghaidh próiseáil doiciméad AI-bhunaithe, uathoibriú agus eastóscadh sonraí.

Cibé an bhfuil tú ag obair ar dhigitiú doiciméad, iontráil sonraí uathoibrithe, nó aithint téacs AI-bhunaithe, cuireann docTR réiteach solúbtha agus éifeachtach ar fáil atá oiriúnach do do riachtanais.

Similar Products

 Gaeilge