trOCR: Réabhlóid san Aitheantas Téacs le Transformers

Bain amach cruinneas ar leibhéal an duine maidir le hastóscadh téacs ó ábhar clóite, lámhscríofa agus ilteangach.

Cad é API trOCR?

Is é trOCR (Aitheantas Optúil Carachtar Bunaithe ar Transformer) samhail OCR réabhlóideach ó Microsoft a úsáideann cumhacht ailtireachtaí transformer chun cruinneas gan sárú a bhaint amach in aitheantas téacs. Murab ionann agus córais OCR traidisiúnta a bhraitheann ar líonraí comhtháite amháin, comhcheanglaíonn trOCR transformers amhairc (ViTs) le samhaltú seicheamh-go-seicheamh, rud a ligeann dó comhthéacs agus caidrimh spásúla sa téacs a thuiscint - fiú amháin le haghaidh ionchuir dhúshlánacha cosúil le nótaí lámhscríofa, scánaithe ar íseal-táthú nó scripteanna casta.

Buntáistí trOCR:

  • Aitheantas cosúil le duine: Sár-mhaitheas i léamh lámhscríbhinní agus téacs saobhadh
  • Tacaíocht Ilteangach: Samhlacha réamh-oilte do Bhéarla, Fraincis, Gearmáinis agus níos mó
  • Próiseas Comhtháite: Comhcheanglaíonn braiteadh téacs agus aitheantas
  • Comhtháthú Réidh: Tógtha ar leabharlann Transformers Hugging Face
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Cén fáth trOCR a roghnú?

  • 15-20% níos cruinne ná samhlacha bunaithe ar CNN
  • Níos mó ná 90% cruinneas le haghaidh téacs lámhscríofa
  • Réamhphróiseáil íosta: Acmhainneach i leith éagsúlachtaí cló, treoshuíomh agus torann
  • Próiseáil éifeachtach: Optamaithe le haghaidh GPU

Suiteáil

Teastaíonn PyTorch nó TensorFlow agus leabharlann Hugging Face Transformers ó trOCR:

Suiteáil le PyTorch (GPU molta)


pip install transformers torch torchvision
pip install datasets  # Roghnach le haghaidh mín-oiliúna

Nóta: Teastaíonn ~1.5GB spáis diosca in aghaidh na leagain (clóite/lámhscríofa) ó na samhlacha microsoft/trocr-base. Déan cinnte go bhfuil dóthain spáis agus RAM (8GB+ le haghaidh próiseála baisc) agat.

Samplaí Cóid

Aitheantas Téacs Lámhscríofa

Aitheantas lámhscríbhinní


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

image = Image.open("note_lamhscriofa.jpg").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(f"Téacs astógtha: {text}")

Próiseáil Doiciméad Clóite

Eastóscadh téacs clóite


from transformers import pipeline
from PIL import Image

ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")
image = Image.open("doicimead.png").convert("RGB")
results = ocr(image)

for item in results:
    print(item['generated_text'])

Leideanna Casta

  • Feabhsaigh íomhánna le OpenCV roimh phróiseáil
  • Oirigh an samhail do do riachtanais shonracha

Feidhmchláir

  • Digitithe cartlann stairiúil
  • Próiseáil uathoibrithe sonraíochtaí
  • Teicneolaíochtaí inrochtana

Similar Products

 Gaeilge