trOCR: Revolutionerer tekstgenkendelse med Transformers

Opnå menneskelig nøjagtighed i tekstudtrækning fra trykt, håndskrevet og flersproget indhold

Hvad er trOCR API?

trOCR (Transformer-baseret Optical Character Recognition) er Microsofts banebrydende OCR-model, der udnytter transformer-arkitekturer til enestående nøjagtighed i tekstgenkendelse. I modsætning til traditionelle OCR-systemer, der kun bruger convolutional networks, kombinerer trOCR vision transformers (ViTs) med sequence-to-sequence-modellering, hvilket gør den i stand til at forstå kontekst og rumlige relationer i tekst - selv for udfordrende input som håndskrevne noter, lavopløselige scanninger eller komplekse skrifttyper.

Nøglefordele ved trOCR:

Menneske-lignende genkendelse: Fremragende til at læse håndskrift og forvrænget tekst
Flersproget støtte: Forhåndstrænede modeller til engelsk, fransk, tysk og flere
Helhedsproces: Kombinerer tekstdetektering og genkendelse
Problemfri integration: Bygget på Hugging Face's Transformers-bibliotek

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Hvorfor vælge trOCR?

15-20% højere nøjagtighed end CNN-baserede modeller
Over 90% nøjagtighed for håndskrevet tekst
Minimal forbehandling nødvendig
Effektiv behandling på GPU

Installation

trOCR kræver PyTorch eller TensorFlow og Hugging Face Transformers-biblioteket:

Installér med PyTorch (GPU anbefales)


pip install transformers torch torchvision
pip install datasets  # Valgfrit

Bemærk: Modellerne kræver ~1.5GB plads

Kodeeksempler

Genkendelse af håndskrevet tekst

Læs håndskrift


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

image = Image.open("handwritten.jpg").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(f"Tekst: {text}")

Behandling af trykt tekst

Behandling af dokumenter


from transformers import pipeline
from PIL import Image

ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")
image = Image.open("document.png").convert("RGB")
results = ocr(image)

for item in results:
    print(item['generated_text'])