विषय-सूची
पीडीएफ फाइल में स्प्रेडशीट से माइक्रोसॉफ्ट एक्सेल शीट में डेटा ट्रांसफर करने का काम हमेशा "मजेदार" होता है। विशेष रूप से यदि आपके पास फ़ाइनरीडर या ऐसा कुछ महंगा पहचान सॉफ़्टवेयर नहीं है। सीधी नकल करने से आमतौर पर कुछ भी अच्छा नहीं होता, क्योंकि। कॉपी किए गए डेटा को शीट पर चिपकाने के बाद, सबसे अधिक संभावना है कि वे एक कॉलम में "एक साथ रहेंगे"। तो फिर उन्हें एक उपकरण का उपयोग करके श्रमसाध्य रूप से अलग करना होगा कॉलम द्वारा टेक्स्ट टैब से जानकारी (डेटा - कॉलम से टेक्स्ट).
और निश्चित रूप से, केवल उन पीडीएफ फाइलों के लिए कॉपी करना संभव है जहां एक टेक्स्ट लेयर है, यानी एक दस्तावेज के साथ जिसे पेपर से पीडीएफ में स्कैन किया गया है, यह सिद्धांत रूप में काम नहीं करेगा।
लेकिन यह इतना दुखद नहीं है, वास्तव में
यदि आपके पास Office 2013 या 2016 है, तो कुछ ही मिनटों में, अतिरिक्त कार्यक्रमों के बिना, PDF से Microsoft Excel में डेटा स्थानांतरित करना काफी संभव है। और Word और Power Query इसमें हमारी मदद करेंगे।
उदाहरण के लिए, आइए इस पीडीएफ रिपोर्ट को यूरोप के आर्थिक आयोग की वेबसाइट से टेक्स्ट, फ़ार्मुलों और तालिकाओं के एक समूह के साथ लें:
... और एक्सेल में इसे बाहर निकालने का प्रयास करें, पहली तालिका कहें:
चलिए चलते हैं!
चरण 1. वर्ड में पीडीएफ खोलें
किसी कारण से, बहुत कम लोग जानते हैं, लेकिन 2013 से Microsoft Word ने PDF फ़ाइलों को खोलना और पहचानना सीख लिया है (यहां तक कि स्कैन की गई, यानी बिना टेक्स्ट लेयर के!)। यह पूरी तरह से मानक तरीके से किया जाता है: Word खोलें, क्लिक करें फ़ाइल - खुला (फ़ाइल - खुला) और विंडो के निचले दाएं कोने में ड्रॉप-डाउन सूची में पीडीएफ प्रारूप निर्दिष्ट करें।
फिर हमें जिस पीडीएफ फाइल की जरूरत है उसे चुनें और क्लिक करें प्रारंभिक (खुला हुआ). वर्ड हमें बताता है कि यह इस दस्तावेज़ पर ओसीआर को पाठ के लिए चलाने जा रहा है:
हम सहमत हैं और कुछ ही सेकंड में हम देखेंगे कि हमारा पीडीएफ वर्ड में पहले से ही संपादन के लिए खुला है:
बेशक, डिज़ाइन, शैली, फ़ॉन्ट, हेडर और फ़ुटर आदि आंशिक रूप से दस्तावेज़ से दूर हो जाएंगे, लेकिन यह हमारे लिए महत्वपूर्ण नहीं है - हमें केवल तालिकाओं से डेटा की आवश्यकता है। सिद्धांत रूप में, इस स्तर पर, पहले से ही मान्यता प्राप्त दस्तावेज़ से तालिका को वर्ड में कॉपी करना और इसे एक्सेल में पेस्ट करना पहले से ही आकर्षक है। कभी-कभी यह काम करता है, लेकिन अधिक बार यह सभी प्रकार के डेटा विकृतियों की ओर ले जाता है - उदाहरण के लिए, संख्याएँ तिथियों में बदल सकती हैं या पाठ बनी रह सकती हैं, जैसा कि हमारे मामले में है, क्योंकि। पीडीएफ गैर-विभाजक का उपयोग करता है:
तो चलिए कोनों को नहीं काटते, बल्कि सब कुछ थोड़ा और जटिल बनाते हैं, लेकिन सही।
चरण 2: दस्तावेज़ को वेब पेज के रूप में सहेजें
फिर प्राप्त डेटा को एक्सेल (पावर क्वेरी के माध्यम से) में लोड करने के लिए, वर्ड में हमारे दस्तावेज़ को वेब पेज प्रारूप में सहेजा जाना चाहिए - यह प्रारूप, इस मामले में, वर्ड और एक्सेल के बीच एक सामान्य भाजक है।
ऐसा करने के लिए, मेनू पर जाएं फ़ाइल - इस रूप में सहेजें (फ़ाइल - इस रूप में सहेजें) या कुंजी दबाएं F12 कीबोर्ड पर और खुलने वाली विंडो में, फ़ाइल प्रकार चुनें एक फ़ाइल में वेब पेज (वेबपेज - सिंगल फाइल):
सहेजने के बाद, आपको mhtml एक्सटेंशन वाली एक फ़ाइल मिलनी चाहिए (यदि आप एक्सप्लोरर में फ़ाइल एक्सटेंशन देखते हैं)।
चरण 3. पावर क्वेरी के माध्यम से फ़ाइल को एक्सेल में अपलोड करना
आप बनाई गई एमएचटीएमएल फ़ाइल को सीधे एक्सेल में खोल सकते हैं, लेकिन फिर हम सबसे पहले, पीडीएफ की सभी सामग्री को एक साथ टेक्स्ट और अनावश्यक तालिकाओं के एक समूह के साथ प्राप्त करेंगे, और दूसरी बात, हम फिर से गलत होने के कारण डेटा खो देंगे विभाजक। इसलिए, हम Power Query ऐड-इन के माध्यम से Excel में आयात करेंगे। यह पूरी तरह से मुफ्त ऐड-ऑन है जिसके साथ आप लगभग किसी भी स्रोत (फाइल, फोल्डर, डेटाबेस, ईआरपी सिस्टम) से एक्सेल में डेटा अपलोड कर सकते हैं और फिर प्राप्त डेटा को हर संभव तरीके से बदल सकते हैं, इसे वांछित आकार दे सकते हैं।
यदि आपके पास एक्सेल 2010-2013 है, तो आप आधिकारिक माइक्रोसॉफ्ट वेबसाइट से पावर क्वेरी डाउनलोड कर सकते हैं - स्थापना के बाद आपको एक टैब दिखाई देगा पावर क्वेरी. यदि आपके पास एक्सेल 2016 या नया है, तो आपको कुछ भी डाउनलोड करने की आवश्यकता नहीं है - सभी कार्यक्षमता पहले से ही एक्सेल में डिफ़ॉल्ट रूप से निर्मित है और टैब पर स्थित है जानकारी (तारीख) समूह में डाउनलोड करें और कनवर्ट करें (प्राप्त करें और रूपांतरित करें).
तो हम या तो टैब पर जाते हैं जानकारी, या टैब पर पावर क्वेरी और एक टीम चुनें डेटा प्राप्त करने के लिए or क्वेरी बनाएँ - फ़ाइल से - XML से. न केवल एक्सएमएल फाइलों को दृश्यमान बनाने के लिए, विंडो के निचले दाएं कोने में ड्रॉप-डाउन सूची में फ़िल्टर को बदलें सभी फ़ाइलें (सभी फाइलें) और हमारी एमएचटीएमएल फ़ाइल निर्दिष्ट करें:
कृपया ध्यान दें कि आयात सफलतापूर्वक पूरा नहीं होगा, क्योंकि। Power Query हमसे XML की अपेक्षा करता है, लेकिन हमारे पास वास्तव में एक HTML स्वरूप है। इसलिए, दिखाई देने वाली अगली विंडो में, आपको Power Query के लिए समझ से बाहर फ़ाइल पर राइट-क्लिक करना होगा और उसका प्रारूप निर्दिष्ट करना होगा:
उसके बाद, फ़ाइल को सही ढंग से पहचाना जाएगा और हम इसमें शामिल सभी तालिकाओं की एक सूची देखेंगे:
आप डेटा कॉलम में कक्षों की सफेद पृष्ठभूमि (शब्द तालिका में नहीं!) में बाईं माउस बटन पर क्लिक करके तालिकाओं की सामग्री देख सकते हैं।
जब वांछित तालिका परिभाषित की जाती है, तो हरे शब्द पर क्लिक करें तालिका - और आप इसकी सामग्री में "गिरते हैं":
इसकी सामग्री को "कंघी" करने के लिए कुछ सरल कदम उठाना बाकी है, अर्थात्:
- अनावश्यक कॉलम हटाएं (कॉलम हेडर पर राइट-क्लिक करें - हटाना)
- डॉट्स को कॉमा से बदलें (कॉलम चुनें, राइट-क्लिक करें - मूल्यों को बदलना)
- हेडर में समान चिह्न हटाएं (कॉलम चुनें, राइट-क्लिक करें – मूल्यों को बदलना)
- शीर्ष पंक्ति को हटा दें (होम - लाइनें हटाएं - शीर्ष लाइनें हटाएं)
- खाली लाइनों को हटा दें (होम - लाइनें हटाएं - खाली लाइनें हटाएं)
- तालिका शीर्षलेख के लिए पहली पंक्ति बढ़ाएँ (होम - शीर्षक के रूप में पहली पंक्ति का प्रयोग करें)
- फ़िल्टर का उपयोग करके अनावश्यक डेटा को फ़िल्टर करें
जब टेबल को उसके सामान्य रूप में लाया जाता है, तो उसे कमांड के साथ शीट पर उतारा जा सकता है बंद करें और डाउनलोड करें (बंद करें और लोड करें) on मुख्य टैब। और हमें ऐसी सुंदरता मिलेगी जिसके साथ हम पहले से ही काम कर सकते हैं:
- पावर क्वेरी के साथ एक कॉलम को टेबल में बदलना
- स्टिकी टेक्स्ट को कॉलम में विभाजित करना