डाटा एनालिटिक्स का सफर
बहुत बड़ी मात्रा में डाटा से अर्थपूर्ण अंतर्दृष्टि की यात्रा है एनालिटिक्स की यात्रा। डाटा एनालिटिक्स की यात्रा आमतौर पर स्टैंडर्ड डाटा संचालित प्रक्रियाओं के सेट के माध्यम से की जाती है जो अंततः अपेक्षित आउटपुट प्राप्त करने में मदद करती है। सेंटर ऑफ एक्सिलेंस फॉर डाटा एनालिटिक्स डाटा माइनिंग के लिए क्रॉस– इंडस्ट्री प्रॉसेस (सीआरआईएसपी– डीएम कार्यप्रणाली) का पालन करता है। यह इंडस्ट्री का सक्षम और प्रमाणित पद्धति है।
एक एनालिटिक्स प्रोजेक्ट के जीवन चक्र के छह चरण होते हैं। चरणों का क्रम निर्धारित नहीं है। अक्सर अलग– अलग चरणों में आगे बढ़ना और फिर से वापस लौटने की आवश्यकता होती है। प्रत्येक चरण का परिणाम निर्धारित करता है कि अब, कौन सा चरण या किसी चरण का कौन सा विशेष कार्य किया जाएगा। तीर के संकेत चरणों के बीच सबसे महत्वपूर्ण और अक्सर रहने वाली निर्भरता को दर्शाते हैं। एनालिटिक्स की प्रक्रिया प्रकृति से चक्रीय होती है और समाधान दिए जाने के बाद समाप्त नहीं होती। प्रक्रिया के दौरान मिले सबक और अपनाए गए समाधान नए, अक्सर अधिक– केंद्रित व्यवसायिक प्रश्नों को पैदा कर सकते हैं। इसके बाद किए जाने वाले डाटा माइनिंग की प्रक्रियाओं को पिछले अनुभवों से लाभ होगा। निम्नलिखित में हमने हर एक चरण को संक्षेप में बताया हैः
1. चरण एक– व्यवसाय का उद्देश्य निर्धारण
डाटा एनालिटिक्स लाइफ साइकल का यह पहला चरण है। वास्तव में, विभाग एक या एक से अधिक समस्या वाले क्षेत्रों से शुरुआत करेगा, विभाग इनकी जांच और विश्लेषण करना चाह सकता है और डाटा का प्रयोग कर सत्यापन करेगा एवं इसका समाधान तलाशेगा। प्रॉब्लेम स्टेटमेंट्स में– क्या विभाग द्वारा कार्यान्वित कार्यक्रम अपेक्षित परिणाम प्राप्त कर रहे हैं या नहीं, का पता लगाने से लेकर विभिन्न क्षेत्रों के बीच संबंधों का पता लगाने का उल्लेख हो सकता है ताकि नई नीतियां एवं कार्यक्रम बनाए जा सकें। इस चरण में, एनालिटिक्स टीम को बिजनेस डोमेन (व्यवसाय क्षेत्र) के बारे में व्यापक समझ प्राप्त करने और विभाग के अधिकारियों के साथ विचार–मंथन सत्रों की श्रृंखला के माध्यम से विभाग जिस समस्या की जांच करना चाहता है उसे साफ– साफ समझने की आवश्यकता होगी।
2. चरण दो– डाटा अंडरस्टैंडिंग (आंकड़े को समझना
व्यावसायिक क्षेत्र एवं समस्या वाले क्षेत्रों के बारे में साफ– साफ जान लेने के बाद, दूसरा चरण होगा विभाग के पास उपलब्ध डाटा सेट को समझना। यह डाटा एक विभाग या एक से अधिक विभागों में एकल डाटा सोर्स के रूप में या एक से अधिक डाटा सोर्सेस में उपलब्ध हो सकता है। कभी– कभी, सरकार के बाहर के स्रोतों के आंकड़ों के प्रयोग करने की भी आवश्यकता पड़ सकती है। पहचान किए गए डाटा सुसंरचिक, अर्ध– संरचित या असंरचित हो सकते हैं। डाटा का आरंभिक निरीक्षण अतिरिक्त, छिपी हुई जानकारी बता सकता है जिसे उपभोक्ता विभाग को तत्काल नहीं समझ आया हो सकता है। एनालिटिक्स प्रोजेक्ट के दायरे को निर्धारित करने के लिए इन अतिरिक्त जानकारियों को विभाग के साथ साझा किया जा सकता है।
3. चरण तीन– डाटा प्रेपरैशन (आंकड़े तैयार करना)
मॉडलिंग की गहराई में जाने से पहले, यह समझ लिया जाना चाहिए कि अभ्यास से मिली जानकारियां, जिस डाटा पर वे आधारित हैं, उसके जितनी ही वास्तविक होंगी। डाटा क्वालिटी (आंकड़े की गुणवत्ता) डाटा की सटीकता, वैधता एवं पूर्णता का पैमाना है और यह अच्छी एनालिटिक्स जानकारी की नींव बनाती है। डाटा प्रेपरैशन (आंकड़े तैयार करना) में वे सभी गतिविधियां आती हैं जो आरंभिक रॉ डाटा से अंतिम डाटासेट तैयार करने के लिए आवश्यक होती हैं (मॉडलिंग टूलों में डाले जाने वाले डाटा)। डाटा प्रेपरैशन कार्यों को कई बार करने की जरूरत होती है और इनका कोई निर्धारित क्रम नहीं होता। डाटा प्रेपरैशन की सीमा उपयोग किए जा रहे मॉडल की प्रकृति के अनुसार अलग– अलग हो सकती है और इसमें अन्य बातों के अलावा नई विशेषताएं या सुविधाएं या वर्तमान सुविधाओं में परिवर्तन भी किए जा सकते हैं।
4. चरण चार– माडलिंग
इस चरण में, माडलिंग के विभिन्न तकनीकों को चुना और लागू किया जाता है एवं उनके पैमानों को इष्टतम मानों पर अंशांकित किया जाता है। वास्तव में, उचित सैंपलिंग तकनीकों का प्रयोग कर डाटा का प्रतिनिधि नमूना लिया जाता है और उचित सांख्यिकीय एवं मशीन लर्निंग एल्गोरिद्म का प्रयोग कर माडल तैयार किया जाता है। इस प्रकार तैयार किए गए माडल को जांच के लिए रखे गए डाटा से सत्यापित किया जाता है और पता लगाया जाता है कि यह माडल वास्तविक– परिस्थिति के कितना करीब है। आमतौर पर, एक ही प्रकार के डाटा माइनिंग समस्या के लिए कई तकनीकें होती हैं। कुछ तकनीकों में डेटा के रूप में विशेष जरूरतों को पूरा करना होता है। इसलिए, अक्सर डाटा प्रेपरैशन चरण में फिर से लौटना अनिवार्य हो जाता है।
5. चरण पांच– मूल्यांकन
माडल को लागू करने से पहले यह सुनिश्चित करने के लिए कि माडल सही तरीके से व्यावसायिक उद्देश्यों को प्राप्त कर पाएगा, इसका अच्छी तरह से मूल्यांकन करना और इसे बनाने में लगे चरणों की समीक्षा करना बहुत महत्वपूर्ण है। तैयार किए गए अंतिम माडल से प्राप्त होने वाली जानकारी को क्लाइंट के साथ सत्यापित किया जाता है ताकि यह पता लगाया जा सके कि यह क्षेत्र की आवश्यकताओं को पूरा कर पाएगा या नहीं। क्लाइंट द्वारा बतायी जाने वाली किसी भी कमी के बारे में एनालिटिक्स टीम को सूचित किया जाता है, टीम फिर से काम करती है और पता लगाती है कि क्या कोई काम छूट तो नहीं गया था। एक मुख्य उद्देश्य यह निर्धारित करना है कि क्या कोई ऐसा महत्वपूर्ण व्यावसायिक मुद्दा छूट गया है जिस पर पर्याप्त विचार न किया गया हो। इस चरण के आखिर में, डाटा एनालिटिक्स के परिमाणों के उपयोग पर निर्णय किया जाता है।
6. चरण छह– नियुक्ति
आमतौर पर, माडल को तैयार कर लेने से परियोजना समाप्त नहीं हो जाती। प्रोजेक्ट के पूरे जीवनचक्र के दौरान प्राप्त जानकारी को व्यवस्थित करने और इस प्रकार प्रस्तुत करने की आवश्यकता होगी कि व्यवसाय में इसका प्रयोग किया जा सके। नतीजों को एक रिपोर्ट के रूप में या विजुअलाइज़ेशन टूलों का प्रयोग कर उपयोगकर्ता–के अनुकूल तरीके से प्रस्तुत किया जा सकता है। डाटा विजुअलाइज़ेशन दृष्य रूप में उपयोगकर्ता को एनालिसिट के परिणामों को समझने में मदद करता है ताकि उपयोगकर्ता डाटा एनालिटिक्स द्वारा दी गई जानकारी को अच्छी तरह से समझ सके और उसकी व्याख्या कर सके। आवश्यकताओं के अनुसार, नियुक्ति चरण एक रिपोर्ट बनाने जैसा साधारण या उपक्रमों के बीच दोहराए जाने वाले डाटा माइनिंग प्रक्रिया को लागू करने जैसा जटिल हो सकता है।