Power Query के माध्यम से PDF से Excel में डेटा आयात करें

पीडीएफ फाइल में स्प्रेडशीट से माइक्रोसॉफ्ट एक्सेल शीट में डेटा ट्रांसफर करने का काम हमेशा "मजेदार" होता है। विशेष रूप से यदि आपके पास फ़ाइनरीडर या ऐसा कुछ महंगा पहचान सॉफ़्टवेयर नहीं है। सीधी नकल करने से आमतौर पर कुछ भी अच्छा नहीं होता, क्योंकि। कॉपी किए गए डेटा को शीट पर चिपकाने के बाद, सबसे अधिक संभावना है कि वे एक कॉलम में "एक साथ रहेंगे"। तो फिर उन्हें एक उपकरण का उपयोग करके श्रमसाध्य रूप से अलग करना होगा कॉलम द्वारा टेक्स्ट टैब से जानकारी (डेटा - कॉलम से टेक्स्ट).

और निश्चित रूप से, केवल उन पीडीएफ फाइलों के लिए कॉपी करना संभव है जहां एक टेक्स्ट लेयर है, यानी एक दस्तावेज के साथ जिसे पेपर से पीडीएफ में स्कैन किया गया है, यह सिद्धांत रूप में काम नहीं करेगा।

लेकिन यह इतना दुखद नहीं है, वास्तव में

यदि आपके पास Office 2013 या 2016 है, तो कुछ ही मिनटों में, अतिरिक्त कार्यक्रमों के बिना, PDF से Microsoft Excel में डेटा स्थानांतरित करना काफी संभव है। और Word और Power Query इसमें हमारी मदद करेंगे।

उदाहरण के लिए, आइए इस पीडीएफ रिपोर्ट को यूरोप के आर्थिक आयोग की वेबसाइट से टेक्स्ट, फ़ार्मुलों और तालिकाओं के एक समूह के साथ लें:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

... और एक्सेल में इसे बाहर निकालने का प्रयास करें, पहली तालिका कहें:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

चलिए चलते हैं!

चरण 1. वर्ड में पीडीएफ खोलें

किसी कारण से, बहुत कम लोग जानते हैं, लेकिन 2013 से Microsoft Word ने PDF फ़ाइलों को खोलना और पहचानना सीख लिया है (यहां तक ​​कि स्कैन की गई, यानी बिना टेक्स्ट लेयर के!)। यह पूरी तरह से मानक तरीके से किया जाता है: Word खोलें, क्लिक करें फ़ाइल - खुला (फ़ाइल - खुला) और विंडो के निचले दाएं कोने में ड्रॉप-डाउन सूची में पीडीएफ प्रारूप निर्दिष्ट करें।

फिर हमें जिस पीडीएफ फाइल की जरूरत है उसे चुनें और क्लिक करें प्रारंभिक (खुला हुआ). वर्ड हमें बताता है कि यह इस दस्तावेज़ पर ओसीआर को पाठ के लिए चलाने जा रहा है:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

हम सहमत हैं और कुछ ही सेकंड में हम देखेंगे कि हमारा पीडीएफ वर्ड में पहले से ही संपादन के लिए खुला है:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

बेशक, डिज़ाइन, शैली, फ़ॉन्ट, हेडर और फ़ुटर आदि आंशिक रूप से दस्तावेज़ से दूर हो जाएंगे, लेकिन यह हमारे लिए महत्वपूर्ण नहीं है - हमें केवल तालिकाओं से डेटा की आवश्यकता है। सिद्धांत रूप में, इस स्तर पर, पहले से ही मान्यता प्राप्त दस्तावेज़ से तालिका को वर्ड में कॉपी करना और इसे एक्सेल में पेस्ट करना पहले से ही आकर्षक है। कभी-कभी यह काम करता है, लेकिन अधिक बार यह सभी प्रकार के डेटा विकृतियों की ओर ले जाता है - उदाहरण के लिए, संख्याएँ तिथियों में बदल सकती हैं या पाठ बनी रह सकती हैं, जैसा कि हमारे मामले में है, क्योंकि। पीडीएफ गैर-विभाजक का उपयोग करता है:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

तो चलिए कोनों को नहीं काटते, बल्कि सब कुछ थोड़ा और जटिल बनाते हैं, लेकिन सही।

चरण 2: दस्तावेज़ को वेब पेज के रूप में सहेजें

फिर प्राप्त डेटा को एक्सेल (पावर क्वेरी के माध्यम से) में लोड करने के लिए, वर्ड में हमारे दस्तावेज़ को वेब पेज प्रारूप में सहेजा जाना चाहिए - यह प्रारूप, इस मामले में, वर्ड और एक्सेल के बीच एक सामान्य भाजक है।

ऐसा करने के लिए, मेनू पर जाएं फ़ाइल - इस रूप में सहेजें (फ़ाइल - इस रूप में सहेजें) या कुंजी दबाएं F12 कीबोर्ड पर और खुलने वाली विंडो में, फ़ाइल प्रकार चुनें एक फ़ाइल में वेब पेज (वेबपेज - सिंगल फाइल):

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

सहेजने के बाद, आपको mhtml एक्सटेंशन वाली एक फ़ाइल मिलनी चाहिए (यदि आप एक्सप्लोरर में फ़ाइल एक्सटेंशन देखते हैं)।

चरण 3. पावर क्वेरी के माध्यम से फ़ाइल को एक्सेल में अपलोड करना

आप बनाई गई एमएचटीएमएल फ़ाइल को सीधे एक्सेल में खोल सकते हैं, लेकिन फिर हम सबसे पहले, पीडीएफ की सभी सामग्री को एक साथ टेक्स्ट और अनावश्यक तालिकाओं के एक समूह के साथ प्राप्त करेंगे, और दूसरी बात, हम फिर से गलत होने के कारण डेटा खो देंगे विभाजक। इसलिए, हम Power Query ऐड-इन के माध्यम से Excel में आयात करेंगे। यह पूरी तरह से मुफ्त ऐड-ऑन है जिसके साथ आप लगभग किसी भी स्रोत (फाइल, फोल्डर, डेटाबेस, ईआरपी सिस्टम) से एक्सेल में डेटा अपलोड कर सकते हैं और फिर प्राप्त डेटा को हर संभव तरीके से बदल सकते हैं, इसे वांछित आकार दे सकते हैं।

यदि आपके पास एक्सेल 2010-2013 है, तो आप आधिकारिक माइक्रोसॉफ्ट वेबसाइट से पावर क्वेरी डाउनलोड कर सकते हैं - स्थापना के बाद आपको एक टैब दिखाई देगा पावर क्वेरी. यदि आपके पास एक्सेल 2016 या नया है, तो आपको कुछ भी डाउनलोड करने की आवश्यकता नहीं है - सभी कार्यक्षमता पहले से ही एक्सेल में डिफ़ॉल्ट रूप से निर्मित है और टैब पर स्थित है जानकारी (तारीख) समूह में डाउनलोड करें और कनवर्ट करें (प्राप्त करें और रूपांतरित करें).

तो हम या तो टैब पर जाते हैं जानकारी, या टैब पर पावर क्वेरी और एक टीम चुनें डेटा प्राप्त करने के लिए or क्वेरी बनाएँ - फ़ाइल से - XML ​​से. न केवल एक्सएमएल फाइलों को दृश्यमान बनाने के लिए, विंडो के निचले दाएं कोने में ड्रॉप-डाउन सूची में फ़िल्टर को बदलें सभी फ़ाइलें (सभी फाइलें) और हमारी एमएचटीएमएल फ़ाइल निर्दिष्ट करें:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

कृपया ध्यान दें कि आयात सफलतापूर्वक पूरा नहीं होगा, क्योंकि। Power Query हमसे XML की अपेक्षा करता है, लेकिन हमारे पास वास्तव में एक HTML स्वरूप है। इसलिए, दिखाई देने वाली अगली विंडो में, आपको Power Query के लिए समझ से बाहर फ़ाइल पर राइट-क्लिक करना होगा और उसका प्रारूप निर्दिष्ट करना होगा:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

उसके बाद, फ़ाइल को सही ढंग से पहचाना जाएगा और हम इसमें शामिल सभी तालिकाओं की एक सूची देखेंगे:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

आप डेटा कॉलम में कक्षों की सफेद पृष्ठभूमि (शब्द तालिका में नहीं!) में बाईं माउस बटन पर क्लिक करके तालिकाओं की सामग्री देख सकते हैं।

जब वांछित तालिका परिभाषित की जाती है, तो हरे शब्द पर क्लिक करें तालिका - और आप इसकी सामग्री में "गिरते हैं":

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

इसकी सामग्री को "कंघी" करने के लिए कुछ सरल कदम उठाना बाकी है, अर्थात्:

  1. अनावश्यक कॉलम हटाएं (कॉलम हेडर पर राइट-क्लिक करें - हटाना)
  2. डॉट्स को कॉमा से बदलें (कॉलम चुनें, राइट-क्लिक करें - मूल्यों को बदलना)
  3. हेडर में समान चिह्न हटाएं (कॉलम चुनें, राइट-क्लिक करें – मूल्यों को बदलना)
  4. शीर्ष पंक्ति को हटा दें (होम - लाइनें हटाएं - शीर्ष लाइनें हटाएं)
  5. खाली लाइनों को हटा दें (होम - लाइनें हटाएं - खाली लाइनें हटाएं)
  6. तालिका शीर्षलेख के लिए पहली पंक्ति बढ़ाएँ (होम - शीर्षक के रूप में पहली पंक्ति का प्रयोग करें)
  7. फ़िल्टर का उपयोग करके अनावश्यक डेटा को फ़िल्टर करें

जब टेबल को उसके सामान्य रूप में लाया जाता है, तो उसे कमांड के साथ शीट पर उतारा जा सकता है बंद करें और डाउनलोड करें (बंद करें और लोड करें) on मुख्य टैब। और हमें ऐसी सुंदरता मिलेगी जिसके साथ हम पहले से ही काम कर सकते हैं:

Power Query के माध्यम से PDF से Excel में डेटा आयात करें

  • पावर क्वेरी के साथ एक कॉलम को टेबल में बदलना
  • स्टिकी टेक्स्ट को कॉलम में विभाजित करना

एक जवाब लिखें