trOCR: Réabhlóid san Aitheantas Téacs le Transformers
Bain amach cruinneas ar leibhéal an duine maidir le hastóscadh téacs ó ábhar clóite, lámhscríofa agus ilteangach.
Cad é API trOCR?
Is é trOCR (Aitheantas Optúil Carachtar Bunaithe ar Transformer) samhail OCR réabhlóideach ó Microsoft a úsáideann cumhacht ailtireachtaí transformer chun cruinneas gan sárú a bhaint amach in aitheantas téacs. Murab ionann agus córais OCR traidisiúnta a bhraitheann ar líonraí comhtháite amháin, comhcheanglaíonn trOCR transformers amhairc (ViTs) le samhaltú seicheamh-go-seicheamh, rud a ligeann dó comhthéacs agus caidrimh spásúla sa téacs a thuiscint - fiú amháin le haghaidh ionchuir dhúshlánacha cosúil le nótaí lámhscríofa, scánaithe ar íseal-táthú nó scripteanna casta.
Buntáistí trOCR:
- Aitheantas cosúil le duine: Sár-mhaitheas i léamh lámhscríbhinní agus téacs saobhadh
- Tacaíocht Ilteangach: Samhlacha réamh-oilte do Bhéarla, Fraincis, Gearmáinis agus níos mó
- Próiseas Comhtháite: Comhcheanglaíonn braiteadh téacs agus aitheantas
- Comhtháthú Réidh: Tógtha ar leabharlann Transformers Hugging Face
Cén fáth trOCR a roghnú?
- 15-20% níos cruinne ná samhlacha bunaithe ar CNN
- Níos mó ná 90% cruinneas le haghaidh téacs lámhscríofa
- Réamhphróiseáil íosta: Acmhainneach i leith éagsúlachtaí cló, treoshuíomh agus torann
- Próiseáil éifeachtach: Optamaithe le haghaidh GPU
Suiteáil
Teastaíonn PyTorch nó TensorFlow agus leabharlann Hugging Face Transformers ó trOCR:
Suiteáil le PyTorch (GPU molta)
pip install transformers torch torchvision
pip install datasets # Roghnach le haghaidh mín-oiliúna
Nóta: Teastaíonn ~1.5GB spáis diosca in aghaidh na leagain (clóite/lámhscríofa) ó na samhlacha microsoft/trocr-base
. Déan cinnte go bhfuil dóthain spáis agus RAM (8GB+ le haghaidh próiseála baisc) agat.
Samplaí Cóid
Aitheantas Téacs Lámhscríofa
Aitheantas lámhscríbhinní
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")
image = Image.open("note_lamhscriofa.jpg").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(f"Téacs astógtha: {text}")
Próiseáil Doiciméad Clóite
Eastóscadh téacs clóite
from transformers import pipeline
from PIL import Image
ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")
image = Image.open("doicimead.png").convert("RGB")
results = ocr(image)
for item in results:
print(item['generated_text'])
Leideanna Casta
- Feabhsaigh íomhánna le OpenCV roimh phróiseáil
- Oirigh an samhail do do riachtanais shonracha
Feidhmchláir
- Digitithe cartlann stairiúil
- Próiseáil uathoibrithe sonraíochtaí
- Teicneolaíochtaí inrochtana