제품
파서
Python

문서 파서 파이썬을 위한 API

문서 파싱을 위한 오픈 소스 Python API

PDF, DOC/DOCX, XLS/XLSX, HTML 등 다양한 문서 형식에서 텍스트, 이미지 및 기타 정보를 구문 분석하고 추출하는 데 특화된 오픈 소스 Python 라이브러리를 알아보세요.

Python용 문서 파서 API에는 다음이 포함됩니다.

EasyOCR 80개 이상의 언어를 지원하는 기업용 OCR, 사전 훈련된 모델로 정확한 텍스트 추출

PaddleOCR 사전 훈련된 모델로 100개 이상의 언어를 지원하는 강력한 OCR 도구 키트

pdfminer.six PDF 문서에서 서식 정보가 포함된 텍스트를 구문 분석하고 읽고 추출하는 Python 라이브러리입니다.

PyMuPDF PDF 문서에서 텍스트, 이미지, 표 등을 읽고 구문 분석하고 추출하는 Python으로 작성된 PDF 파서 라이브러리입니다.

pypdf PDF를 읽고 PDF 문서에서 텍스트, 이미지 및 첨부 파일을 추출하는 Python PDF 파서 라이브러리입니다.

PyTesseract Tesseract OCR을 사용하여 이미지에서 텍스트를 추출하는 오픈소스 Python API.

spaCy 20개 이상의 언어에 대한 사전 훈련된 모델을 갖춘 빠르고 효율적인 NLP 라이브러리

Keras-OCR Keras와 TensorFlow를 사용한 경량 OCR(광학 문자 인식) Python API

trOCR 다국어 및 필기체 인식에 탁월한 트랜스포머 기반 OCR 모델