Scraping

Scraping, या “web scraping”, एक website से बड़ी मात्रा में जानकारी निकालने की एक तरह की प्रक्रिया होती है। इसमें कई web page या पूरी साइट download करना शामिल हो सकता है। डाउनलोड की गई content में केवल pages का text, पूर्ण HTML, या प्रत्येक पृष्ठ से HTML और चित्र दोनों शामिल हो सकते हैं।

वेबसाइट स्क्रैप करने के कई अलग-अलग तरीके होते हैं। सबसे बुनियादी है तरीका होता है, की मैन्युअल रूप से वेब पेज डाउनलोड करना। यह प्रत्येक पृष्ठ की सामग्री को text editor में copy और paste करके या अलग-अलग पृष्ठों की स्थानीय copies को save करके अपने ब्राउज़र के आदेश का उपयोग करके किया जा सकता है। web scraping software का उपयोग करके स्क्रैपिंग स्वचालित रूप से भी की जा सकती है। किसी वेबसाइट से बड़ी संख्या में page डाउनलोड करने का यह सबसे सामान्य तरीका है। कुछ मामलों में, किसी वेबसाइट को नियमित अंतराल पर scrap करने के लिए bots का उपयोग किया जा सकता है।

वेब स्क्रैपिंग कई अलग-अलग उद्देश्यों के लिए किया जा सकता है। उदाहरण के लिए, हो सकता है कि आप किसी वेबसाइट के किसी section को offline access के लिए store करना चाहें। अपने computer पर कई पेज डाउनलोड करके, आप उन्हें बाद में इंटरनेट से कनेक्ट किए बिना पढ़ सकते हैं। web developers कभी-कभी प्रत्येक पृष्ठ के भीतर टूटे हुए link और image के परीक्षण के दौरान अपनी वेबसाइटों को स्क्रैप करते हैं। स्क्रैपिंग गैर-कानूनी उद्देश्यों के लिए भी किया जा सकता है, जैसे किसी वेबसाइट की प्रतिलिपि बनाना और उसे किसी अलग नाम से publish करना। इस प्रकार के स्क्रैपिंग को copyright उल्लंघन के रूप में देखा जाता है और इससे कानूनी मुकदमा चलाया जा सकता है।

नोट: जानकारी को पुनर्प्रकाशित करने के उद्देश्य से किसी वेबसाइट को स्क्रैप करना हमेशा गलत होता है, अन्य उद्देश्यों के लिए साइट को स्क्रैप करना अभी भी वेबसाइट की उपयोग की शर्तों का उल्लंघन हो सकता है। इसलिए, साइट से सामग्री डाउनलोड करने से पहले आपको हमेशा वेबसाइट के उपयोग की शर्तों को पढ़ना चाहिए।