PDF फ़ाइलों को DOCX में बदलने के लिए ओपन सोर्स पायथन लाइब्रेरी
अपने पायथन अनुप्रयोगों के भीतर से PDF दस्तावेज़ों को DOCX में परिवर्तित करने के लिए ओपन सोर्स पायथन लाइब्रेरी की शक्ति का अन्वेषण करें।
pdf2docx क्या है?
pdf2docx एपीआई सुविधाएँ
पीडीएफ2डॉक्स एपीआई की कुछ मुख्य विशेषताएं निम्नलिखित हैं:
- बहु-पृष्ठ PDF का रूपांतरण: बहु-पृष्ठ PDF दस्तावेज़ों को संभालता है, प्रत्येक पृष्ठ को DOCX फ़ाइल में संबंधित अनुभाग में परिवर्तित करता है।
- पाठ निष्कर्षण: मूल पीडीएफ के समान लेआउट और स्वरूपण को बनाए रखते हुए कुशलतापूर्वक पाठ निकालता है।
- तालिका पहचान और रूपांतरण: तालिकाओं को पहचानने और निकालने के लिए बुद्धिमान एल्गोरिदम का उपयोग करता है, उन्हें संपादन योग्य DOCX प्रारूप तालिकाओं में परिवर्तित करता है।
- छवि निष्कर्षण: पीडीएफ में एम्बेड की गई छवियों को निकालता है और उन्हें DOCX फ़ाइल में उचित रूप से रखता है।
- फ़ॉन्ट शैलियाँ और स्वरूपण: रूपांतरण के दौरान मूल फ़ॉन्ट शैलियाँ और स्वरूपण जैसे बोल्ड, इटैलिक्स और रेखांकन को बनाए रखता है।
- पृष्ठ लेआउट संरक्षण: इसका उद्देश्य पैराग्राफ, कॉलम और अन्य स्वरूपण तत्वों सहित पीडीएफ के मूल लेआउट को संरक्षित करना है।
- कस्टम रूपांतरण सेटिंग्स: रूपांतरण प्रक्रिया के लिए कस्टम सेटिंग्स के विनिर्देशन की अनुमति देता है, जैसे छवियों को अनदेखा करना या केवल पाठ निकालना।
- बैच प्रोसेसिंग: बैच प्रोसेसिंग का समर्थन करता है, जिससे एक साथ कई PDF को DOCX प्रारूप में परिवर्तित किया जा सकता है।
- टेम्प्लेट-आधारित निष्कर्षण: सुसंगत लेआउट वाले PDF के लिए, निष्कर्षण प्रक्रिया को निर्देशित करने के लिए टेम्पलेट्स की परिभाषा की अनुमति देता है, जिससे विशिष्ट दस्तावेज़ प्रकारों के लिए सटीकता में सुधार होता है।
pdf2docx के साथ आरंभ करना
आप GitHub से या pip install कमांड का उपयोग करके pdf2docx लाइब्रेरी डाउनलोड कर सकते हैं।
इंस्टालेशन
pdf2docx को स्थापित करना सरल है और इसे टर्मिनल से किया जा सकता है जैसा कि नीचे दिखाया गया है:
pdf2docx स्थापित करना
pip3 install pdf2docx
pdf2docx कोड उदाहरण
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.pdf2docx का उपयोग करके PDF को DOCX में बदलें
pdf2docx के साथ, आप अपने पायथन एप्लिकेशन के भीतर से PDF दस्तावेज़ को DOCX में बदल सकते हैं। इसे प्राप्त करने के लिए अपने पायथन एप्लिकेशन में निम्न नमूना कोड का उपयोग करें।
छवि स्रोत: pdf2docx Github रेपो
pdf2docx का उपयोग करके PDF फ़ाइल के विशिष्ट पृष्ठों को परिवर्तित करें
pdf2docx आपको PDF फ़ाइल के विशिष्ट पृष्ठों को DOCX में बदलने की सुविधा भी देता है। आप DOCX में बदलने के लिए PDF फ़ाइल के आरंभ और अंतिम पृष्ठों को परिभाषित करते हैं और फिर API इन्हें DOCX में बदल देता है।
pdf2docx का उपयोग करके पीडीएफ फाइल से तालिकाएँ निकालें
pdf2docx आपको PDF फ़ाइल से टेबल निकालने और उससे टेक्स्ट प्राप्त करने की सुविधा भी देता है। वैकल्पिक रूप से, आप PDF फ़ाइल से टेबल निकाल सकते हैं और उन्हें DOCX फ़ाइलों में भी सहेज सकते हैं।
pdf2docx सीमाएं
pdf2docx में कुछ सीमाएँ भी हैं जिन्हें API के साथ काम करते समय ध्यान में रखना चाहिए। ये हैं:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- सामान्य पठन दिशा, कोई शब्द परिवर्तन / घूर्णन नहीं
- नियम-आधारित विधि PDF लेआउट को 100% रूपांतरित नहीं कर सकती
pdf2docx संसाधन
निष्कर्ष
pdf2docx आपके Python एप्लीकेशन के अंदर से PDF को DOCX में बदलने के लिए एक बहुत ही शक्तिशाली लाइब्रेरी है। एक एप्लीकेशन डेवलपर के रूप में, आप शक्तिशाली PDF रूपांतरण एप्लीकेशन बनाने के लिए इस API का उपयोग कर सकते हैं और अपने एप्लीकेशन में PDF को DOCX कार्यक्षमता में बदलने के लिए उन्हें ऑनलाइन होस्ट कर सकते हैं।
इसी तरह के उत्पादों
- Apache POI XWPF | DOCX फ़ाइलें बनाने और संशोधित करने के लिए ओपन सोर्स जावा API
- DocX | DOCX फ़ाइलें बनाने और संशोधित करने के लिए ओपन सोर्स .NET API
- Docx4J | DOC और DOCX फ़ाइलें बनाने और संशोधित करने के लिए ओपन सोर्स जावा API
- ExcelDataReader | XLS, XLSX, CSV और स्प्रेडशीट दस्तावेज़ों को पढ़ने के लिए ओपन सोर्स .NET API
- FileFormat.Cells | C# .NET के साथ Excel फ़ाइलें बनाएँ और अपडेट करें