داده کاوی چیست؟
داده کاوی در حقیقت ساختارهای جالب توجه، غیر منتظره و با ارزش از روی مجموعه گسترده ای داده ها است و فعالیتی است که اساسا با امار و تحلیل موشکافانه داده ها منطبق است. همچنین فعالیتی است که با سایر رشته ها مشخصا مانند تئوری بانک اطلاعاتی، یادگیری ماشین، الگو شناسی و هوش منوعی در تداخل است. هر یک از این رشته ها رنگ و بوی خاصی به کار داده کاوی می بخشد و هر یک از آنها احساس تعلقی منطقی به قلمروی نوظهور داده کاوی دارند که ممکن است بروز تنشهایی را موجب شود. خوشبختانه این تنشها چنانچه پژوهشگران رشته های مختلف بر دیدگاهها و نظرات یکیدیگر ارج نهند ثمربخش خواهد بود.
علت اینکه این مقوله بجای دو دهه گذشته احیرا مطرح شده است این واقعیت است که فن آوری امروزی به انباشتگی مجموعه های بسیار حجیمی از داده ها منجر شده است. هند Hand ( 1998) در این رابطه نمونه هایی را ارائه کرده است. این مجموعه داده ها حاوی میلیونها و بلکه میلیاردها قلم سوابق ثبت شده است. این داده ها نوعا به این منظور استخراج می شوند تا پاسخگوی سواتلاتی باشند که صرفا برای آنها جمع آوری و ذخیره شده اند.
امروزه ذخیره سازی اطلاعات بسیار ارزان است. طوری که توده های گسترده ای از داده های گوناگون در همه جحا پراکنده است. آشکار است و یا حداقل طرفداران داده کاوی این نوید را می دهند که کوه های عظیم داده ها در دل خود اطلاعاتی دارند که میتواند ارزشمند باشد. برای بهره برداری از این مخازن عظیم تنها زحمتی که باقی می ماند اقدام به بیرون کشیدن آن اطلاعات ارزشمند است. بنابراین اصطلاح داده کاوی برای گردآوری ناهمگن ابزارها بمنظور استخراج اطلاعات بالقوه ارزشمند از درون سلسله کوه های عظیم داده ها به کار می رود.
ارائه خدمات درگاه بانکی برای وب مستران صاحبان کسب و کار ایرانی در ePayBank.ir
اهداف داده کاوی
در اینجا تمایز بین دو نوع روش داده کاوی مفید بنظر می رسد. روش اول مدل سازی داده ها است. در این روش هدف ارائه یک جمع بندی کلی از داده های مفروض است که ویژگی های عمده آنرا بدست دهد. بنابراین برای مثال میتوانیم شبکه ای را مبتنی بر دیدگاه بیضی، مدل رگرسیونی، شبکه عصبی ، مدل درختی و غیره ایجاد کنیم. آشکار است که هدف در اعمال این روش با هدف مدلسازی استاندارد آماری بسیار شباهت دارد. به خصوص احتمال دارد که الگوریتم های استاندارد خیلی کند باشد و مدل سازی استاندارد آماری نیز به مدل های بیش از حد پیچیده منجر شود زیرا حتی ویژگی های جزئی هم کاملا معنی دار خواهند بود. در ادامه بحث این نکات را بررسی خواهیم کرد.
احتمالا واقعیت دارد که بگوییم بیشتر فعالیت های آماری به نحوی از انحناء با استنباط در ارتباط است. بدین معنی که هدف از بهره گیری از داده های موجود ارائه فرضیات در خصوص جامعه مولد این داده ها، ارزش مشاهدات آینده و سایر مقولات است. بیشتر فعالیت های داده کاوی دارای همین ماهیت است. در چنین شرایطی به داده های موجود به عنوان نمونه ای از جامعه منتخب با ارزشهای ویژه نگریسته می شود. ولی در بسیاری از شرایط داده کاوی کلیه داده های ممکن در دسترس است و هدف این نیست که استنباطی که صورت میگیرد از حدود این داده ها فراتر رودبلکه آنچه مطلوب است توصیف داده ها است.
در این حالت استفاده از روشهای استنباط مانند آزمونهای فرض برای تعیین اینکه اصولا کدام یک از ویژگی های مدل توضیف کننده باید مد نظر قرار گیرد، نامربوط به نظر می رسد. بنابراین باید از سایر معیارها بهره گیری شود.
نوع دوم روش داده کاوی الگویابی است. در این روش هدف ساختن مدلی توصیفی که کاملا جامع و فراگیر باشد نیست بلکه کشف ویژگی ها، بی قاعدگیها یا صرفا الگوهای غیرمعمول یا توجه برانگیز در داده ها مد نظر است. لازم بذکر است که آمار شناسان در اجرای فعالیت ها توجه اصلی خود را صرفا به الگویابی معطوف نکرده اند چونکه هدف ( استنباطی ) عدمدتا ارزیابی واقعیت یک الگو بمحض کشف آن بوده است. هدف در داده کاوی در درجه اول یافتن الگو ها است و نوعا باید ثبت واقعیت ، مطلوبیت و یا ارزش آن الگو برعهده مالک بانک اطلاعات یا کارشناس ذیربط قرار گیرد. بنابراین کاونده ی داده ها ممکن است به دنبال یافتن خوشه هایی از مردمی باشد که مبتلا به بیماریهای خاص هستند در حالیکه متخصصین بیماریهای واگیردار خوشه مورد نظر را ارزیابی کنند تا ببینند که صرفا برآمده از تغییرات تصادفی است یا خیر. البته بیشتر مسائل در فضاهای داده های بیش از دو متغیر ( همراه با نقطه های زیاد ) بروز می کند که به همین علت، باید از راهکارهای تحلیلی رسمی بهره گیری کنیم.
تصور من این است که بیشتر خوانندگان این مقاله آشنایی گسترده ای با مدل سازی دارند و به بحث من که بیشتر حول الگویابی دور می زند عنایت خواهند کرد.
3- الگوها همه جا پراکنده اند
ما همواره الگوها را در مجموعه داده های گسترده خواهیم یافت. در درجه اول این طبیعت قوه درک انسان است که سعی می کند تصاویر یا سایر محرکه ها را برحسب اشیاء شناخته شده تفسیر کند.
نکته این است که ما ساختاری را در داده ها مشاهده می کنیم که با مجموعه وسیعی از الگوهای شناخته شده ( اشیاء ) تطبیق می دهیم تا الگوی مطلوب خود را بیابیم. چنانچه از پیش محدودیتی برای الگوی مورد نظر خود قائل نشویم شناخت یک ساختار به عنوان یک الگو خیلی دشوار نخواهد بود.
دوم اینکه پدیدار شدن برخی از الگوها در مجموعه داده ها غیرقابل اجتناب است. با فرض اینکه عناصر مجموعه ای از داده ها بتوانند 100 ارزش احتمالی را احراز کنند و 101 موضوع هم محاسبه شده باشد، مطمئنا حداقل دو تا از آنها از ارزش یکسانی برخوردار خواهند بود. چنانچه 10001 موضوع را برحسب ارزشهایی که در مورد یک متغیر احراز می کنند مرتب کنیم بدین ترتیب این اطمینان حاصل می شود که میتوانیم 101 موضوع را بیابیم که در مورد هر متغیر دیگر رتبه ای صعودی یا نزولی داشته باشند.
سوم اینکه چنانچه مجموعه ای از داده های بحد کافی بزرگ در اختیار داشته باشیم در نتیجه احتمال وجود الگوی کوچکی هم بزرگ خواهد بود در مقابل اولین حالتی که فوق ذکر شد ما الگوهای ( مضووعات ) شناخته شده را با مجموعه وسیعی از رخدادهای بالقوه موجود در داده ها تطبیق می دهیم. احتمال اینکه هر یک از سوابق ثبت شده الگوئی خاص را نشان دهد فقط یک در یک میلیون است اما چنانچه 100 میلیون مورد از سوابق ثبت شده وجود داشته باشد نباید از مشاهده الگوی مورد نظر خیلی تعجب کنیم.
چنانچه الگوها خیلی محتمل باشند و یا حتی غیر قابل اجتناب باشند چگونه میتوانیم معین کنیم که الگوی مشاهده شده نمایانگر چیزی واقعی است؟ و یا چیزی است که شناختن آن ارزش دارد؟ البته هر دو سوال با هم تفاوت دارند ولی در مقوله داده کاوی دارای یک پاسخ هستند: باید به کارشناس ذیربط رجوع شود. وظیفه کاونده داده ها یافتن الگوهاست تا انها را به نظر فردی برساند که اهمیت ذاتی و بالقوه داده ها و الگوها را تشخیص می دهد. من در فعالیت های مربوط به خود دریافته ام که چنین کارشناسان توانایی اغلب میتوانند تحلیل های گذشته نگرانه را برای الگو ارائه کنند.
به علاوه بنظرم می رسد که این امر را میتوان به عنوان نماگر واقعیت تلقی کرد و مطمئنا میتوان آنرا به عنوان شاخص اطمینانی در نظر گرفت که فرد باید در مورد الگوی کشف شده قائل شود.
اگر شخص نتواند توجیهی را برای چگونگی بروز ساختار الگو تصور کند باید نسبت به مبنا قراردادن ساختار مذکور برای تصمیمات و برنامه های آینده تردید کند.
روش های داده کاوی الگوهای زیادی را بدست می دهد. برای مثال از طریق تحلیل سبد بازار میتوان هزاران مورد از گروه هایی از کالاها که خریداران در سوپرمارکتها مایل بخرید هستند مورد شناسایی قرار داد. ما ابزاری را برای یافتن خوشه های محلی در داده ها تهیه کرده ایم که میتواند تعداد زیادی از این خوشه ها را بیابد. در حالیکه اصولا میتوان این تعداد از خوشه ها را به کارشناس ذیربط ( برای مثال مدیر سوپر مارکت ) انتقال داد ولی این امر در عمل امکان پذیر نبوده است. در درجه اول باید روشی را برای انتخاب یکی از راهکارها برگزید تا از جهتی متضمن بیشترین نوید برای تحقق هدف باشد. انتخاب بر مبنای آزمون معنی دار بودن آماری موثر نخواهد بود. چنانچه تعداد بسیاری از الگوهای بالقوه مدنظر قرار گیرند، تفسیر مبنی بر احتمال شبهه آمیز خواهد بود و چنانچه میزان خطائی کلی مبتنی بر تجربه اتخاذ شود این احتمال وجود دارد که هیچ الگوئی پذیرفته نشود. البته پاسخ کافی در این مورد وجود ندارد. راهکار کاملا پذیرفته شده استفاده از تابع نمره ( امتیاز ) یعنی معیاری از توجه برانگیز بودن، غیر منتظره بودن یا غیرمعمول بودن الگو ها است و نیز نادیده گرفته الگوهائی است که بالاترین نمره را احراز می کنند. البته برخی از اوقات تابع نمره ( امتیاز ) یک معیار شناخته شده آماری است ولی فاقد تفسیر احتمالاتی است.
کیفیت داده ها
داده های بی کیفیت همواره نتایج بی کیفیت بدست می دهد. اما مشکل، زمانی حادتر می شود که مجموعه داده ها وسیع باشد. چنانچه مجموعه داده ها گسترده باشد حاکی از این معنی است که فرد لزوما از آن دور می افتد به طوریکه چیزهای زیادی وجود دارد که در داخل مجموعه تداوم می یابند و ممکن است به طرق مختلف مجموعه به خطا رود و فرد از این موارد بی اطلاع باشد.
به علاوه مجموعه داده های بزرگ با احتمال بیشتری نسبت به مجموعه داده های کوچک دچار خطا می شوند. در حقیقت چنانچه مجموعه داده های ظاهرا شفاف در اختیار فرد قرار گیرد، این سوال بدرستی مطرح می شود که آیا این مجموعه را به طریقی شفاف کرده اند؟ آیا مشاهدات ناقص حذف شده اند یا ارزشهای گم شده جانهی شده اتند؟ آیا عومل بیرونی حذف شده اند؟ این موارد و سایر روش های شفاف سازی داده ها میتاواند بر نتایج تاثیر بگذارد و این امر نیز اهمیت دارد که بدانیم آیا داده ها واقعا معرف آن چیزی هستند که باید باشند.
حتی مجموعه داده هائی که فرد امیدوار است دقیق باشد ممکن است پر از خطا باشد. در تحلیل مجموعه ای از داده های مربوط به شرح بازپرداخت وامهای بانکی، متوجه شدیم که ارقام کوچک پرداخت نشده ، به این معنی بود که مشتریان به عنوان بدهکار بدحساب طبقه بندی شده بودند، که ارزشهایی منفی از نظر مبلغ بدهی تلقی می شد، و همچنین وامهای دوازده ماهه که پس از 24 ماه هنوز باز پرداخت نشده بودند ( که از نظر فنی بر طبق مقررات بانکی غیر ممکن است ) و ترازهای معوقه به صفر رسیده بودند و سپس مجددا مثبت شده بودند و نیز ترازهایی که همیشه صفر بودند و تعداد ماههای پس افتاده هم برحسب بیش از یک رقم منفرد در یک ماه در حال افزایش بود و اینها فقط مواردی بودند که ما به آنها پی بردیم. تجاربی که در مورد بانک ها داریم نشان میدهد که این موارد اصلا غیرمعمول نیست بلکه روندی قابل انتظار است. کیفیت داده ها مسئله ای اساسی در داده کاوی است نه فقط به این خاطر که داده های تحریف شده بمعنی نتایج تحریف شده تلقی می شود بلکه به این علت هم که بسیاری از الگوهای توجه برانگیز یا غیرمعمول کشف شده ممکن است مستقیما منتج از داده های معیوب باشند.
من با نمونه های عینی روبرو شده ام که همبستگی های زیاد حاصل از داده های گمشده بوده است و الگوها بواسطه روشی که گروه بندی شده بودند تحمیل شده است البته نمونه دیگری هم وجود دارد. بدون اینکه از بسیاری از الگوهای توجه برانگیز ذکری به میان آورم من و افراد گروهم الگوهائی را کشف کرده ایم که ساخته روشهای اندازه گیری هستند. در حقیقت ما الگوهای بسیار زیادی را یافته ایم که قابل انتساب به مسائل مرتبط با داده ها هستند. در این ارتباط نظر من این است که ممکن است اکثریت الگوهای غریمنتظره را به توان به همین علت منتسب نمود که این امر برای آینده داده کاوی به عنوان یک مقوله ویژه حاوی پیامدهای آشکار خواهد بود.
تاکنون بحث کیفیت داده ها حول محور سوابق فردی دور زده است. شاید مسائل حاصل از اریب انتخاب به این خاطر که غافلگیر کننده هستند بسیار حاد باشند. چه سوابق جامعی از روی بانک اطلاعاتی مفقود شده است، آیا این سوابق در سراسر جامعه به طور متفاوت مفقود شده است،آیا سوابق منتخب به این علت درج شده اند که دستیابی به آنها آسان بوده است؟ و سایر پرسشهائی که مطرح است. آمار مربوط به حوادث در جاده ها نمونه مطلوبی را زا وجود خطرات بدست می دهد. معمولا حوادث حادتری که منجر به تلفات جانی می شود با دقت زیادی ثبت می شود اما حوادثی که شدت آن کمتر است مانند موادری که منجر به صدمات جزئی می شود یا هیچ صدمه ای را ببار نمی آورد چندان دقیق ثبت نمی شود. در حقیقت نسبت بالائی اساسا ثبت نمی شود. این امر موجب انحراف در برداشتها می شود که منتج به نتیجه گیری های نادرست می شود.
در بسیاری از موارد بدلیل مشکل ارزیابی داده ها ( برای مثال چنانچه توزیع داده ها از طریق ماشینهای زیادی انجام گیرد ) و این واقعیت که داده ها ممکن است پویا باشد فعالیت ها ممکن است به طور مغشوش انجام شود. بنابراین ممکن است لازم شود که تحلیل مورد نظر بر مبنای زمان واقعی صورت گیرد.
5- الگوریتم ها
مجموعه داده های گسترده به این معنی است که فرد نمیتواند داده های مورد نظر را شناسایی کند. تحقیقات لازم باید زاط ریق برنامه های پیچیده کامپیوتری به عنوان واسطه صورت گیرد. از آنجائیکه این برنامه ها نیروی لازم را فراهم می اورند بدون انها اصولا نمیتوانیم پیش برویم.
البته این برنامه ها حاوی این معنی هم هستند که ما ممکن است دچار قصور در توجه به موردی شویم که ما از پیشروی باز دارد.
نظر به اینکه این برنامه ها در مورد مجموعه های وسیعی از داده ها اعمال می شود باید از سرعت لازم برخوردار باشند. اعمال روشهای متوالی و انطباقی ضروری است و یک راهکار ساده ولی نسبتا بهینه باید به روشی که از نظر تئوری برتر است ولی مستلزم صرف زمان بسیار طولانی است ترجیح داده شود. برای مثال ما دریافته ایم که در بسیاری از مسائل رگرسیون خطی دارای مزیت های منعنی داری نسبت به رگرسیون لژستیکی است که هرچند رگرسیون لژستیکی ممکن است مطلوب تر به نظر رسد.
در مقابل تاکیدی که بر استفاده از مدلها در آمار وجود دارد نقش برنامه های کلیدی منجر به تاکید بیشتر بر الگوریتمها در کار داده کاوی شده است. ایده این است که فرد الگوریتم را به این منظور در مورد داده ها به کار می برد که از چگونگی عملکرد و خصوصیاتی که احراز می کند اطلاع حاصل کند بدون اینکه به مدل یا الگوئی که ممکن است بنا کند توجه نماید.
6- نتیجه گیری
بحث محتصری که در این مطلب در مورد تفاوتهای بین داده کاوی و امار ارائه شده، بسیاری از زمینه های مهم را در برنگرفته است. نمایش گرافیکی مجموعه داده هایی وسیع ( که متاسفانه گاهی تصویرسازی نامیده می شود) شاید یک نمایش بسیار با اهمیت باشد گرچه مشکل است که بتوانیم آنرا از طریق یکصفحه مکتوب به درتس مورد بحث قرار دهیم.
کاربرد داده کاوی در بازاریابی
کاربرد داده کاوی در بانکداری
کاربرد داده کاوی در بیمه
کاربرد داده کاوی در سیستم های تشخیص نفوذ در شبکه
کاربرد داده کاوی در پیش بینی سهام
کاربرد داده کاوی در فروشگاه های زنجیره ای
کاربرد داده کاوی در خدمات الکترونیکی دولت
کاربرد داده کاوی در پزشکی
کاربرد داده کاوی در مخابرات
کاربرد داده کاوی در صنعت
کاربرد داده کاوی در خدمات
کاربرد داده کاوی در امور دولتی
کاربرد داده کاوی در کشف جرم و پیش بینی آن
کاربرد داده کاوی در شهرداری
کاربرد داده کاوی در آموزش
کاربرد داده کاوی در مدیریت شهری و شهرداری
کاربرد داده کاوی در مقوله فرهنگی
کاربرد داده کاوی در صادارت و واردات
کاربرد داده کاوی در فروش
کاربرد داده کاوی در حمل و نقل
کاربرد داده کاوی در امور انتظامی
کاربرد داده کاوی در امور خدماتی شهری
کاربرد داده کاوی در امور مالیاتی و پیش بینی تخلف
کاربرد داده کاوی در شرکت های حمل و نقل مسافربری
کاربرد داده کاوی در ورزش
کاربرد داده کاوی در مدیریت ارتباط با مشتری
کاربرد داده کاوی در ارزیابی تامین کنندگان
کاربرد داده کاوی در هواشناسی
- داده کاوی در بانکداری (40)
- الگوریتم های داده کاوی (39)
- داده کاوی (39)
- الگوریتم داده کاوی (13)