مروری بر مفاهیم داده کاوی
داده کاوی، شامل بهره گیری از ابزارهای داده های پیچیده ای برای کشف الگوهای موجود و روابط ناشناخته میان داده ها در حجمی وسیع می باشد. این ابزارها شامل مدل های آماری ، الگوریتم های ریاضی و متدهای یادگیری ماشین می باشد، الگوریتم هایی که بازدهی خود را به صورت خودکار از طریق تجربه افزایش می دهند، مانند شبکه های عصبی و درخت های تصمیم گیری. نتیجه داده کاوی، علاوه بر جمع آوری و مدیریت داده ها، دربرگیرنده آنالیز و پیش بینی هایی نیز می شود. داده کاوی میتواند روی داده های ارائه شده در فرم های عددی متنی و یا چند رسانه ای اعمال شود. کشف پول شویی و فساد مالی و به دست آوردن نتایج راهبردی جهت تصمیم گیری های آینده، از مهم ترین کاربردهای آن به شمار می رود.
واژگاه کلیدی : داده کاوی ، انبار داده ها ، اکتشاف علوم.
درگاه پرداخت ePayBank.ir به عنوان سایت ارائه کننده درگاه بانکی با بهره گیری از مفاهیم داده کاوی سعی در بهبود کیفیت خدمات درگاه پرداخت بانکی برای پذیرندگان درگاه پرداخت دارد .
در دنیای به شدت رقابتی امروز، اطلاعات به عنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه، تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است.
حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع انها به شکل داده متنی، اعداد، گرافیک ها، نقشه ها، عکس ها، تصاویر ماهواره ای و عکس های گرفته شده با اشعه ایکس، نمایانگر پیچیدگی کار تبدیل داده ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرایندهای تولید داده مثل روش انالوگ مبتنی بر کاغذ و روش های دیجیتالی مبتنی بر رایانه، مزید بر علت شده است. استراتژی ها و فنون متعددی برای گردآوری، ذخیره ، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنادار به کار رو به رشد هستند. به علاوه، عملکرد مناسب ابر داده که داده ای درباره داده است در عمل عالی به نظر می رسد.
انقلاب دیجیتالی که منجر به دیجیتالی شدن اطلاعات شد، گردآوری، پردازش، نگهداری ، توزیع و انتقال اطلاعات را آسان کرده است.
پیشرفت های حاصله در علم اطلاع رسانی و فناوری اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانک های اطلاعات تامین می کنند. این پیشرفت ها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند. ریزپردازنده های سریع، ابزارهای ذخیره داده های انبوه پیوسته و غیر پیوسته، اسکنرهاچاپگرها و دیگر ابزارهای جانبی، نمایانگر پیشرفت های حوزه سخت افزار هستند. پیشرفت های حاصل در نظام مدیریت بانک اطلاعات در طی چهار سال گذشته، نمایانگر تلاش های بخش نرم افزاری است. این تلاش ها در بخش نرم افزار را میتوان به عنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکه ها و بانک های اطلاعاتی رابطه ای و سلسله مراتبی برای پاسخگویی به نیاز روز افزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور، در هر دوره، نظام های مدیریت بانک اطلاعات مناسب، سازگار با نرم افزار سیستم عامل و سخت افزار رایج گسترش یافته اند. در این باره میتوان از محصولاتی مانند Sybase – Dbase -IV – Oracle – Unify نام برد. داده کاوی، یکی از پیشرفت های اخیر در راستای فناوری های مدیریت داده ها است. داده کاوی، مجموعه ای از فنون است که به شخص امکان می دهدتا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی یا پنهان است، کمک می کند. انگیزه برای گسترش داده کاوی به طور عمده از دنیای تجارت در دهه 1990 پدید آمد، به طور مثال، داده کاوی در حوزه بازاریابی، به دلیل پیوستگی غیر قابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد می کند، اهمیت خاص دارد.
تحلیل رکوردهای حجیم، نگهداری سخت افزار صنعتی، داده های هواشناسی و دیدن کانال های تلویزیونی، از دیگر کاربردها آن است. در حوزه مدیریت کتابخانه، کاربرد داده کاوی به عنوان فرایند ماخذ کاوی نامگذاری شده است.
تعاریف داده کاوی
داده کاوی، پل ارتباطی میان علم آمار، علم رایانه، هوش مصنوعی، الگو شناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد.
داده کاوی، فرایندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدل ها برای انسان ها قابل درک باشند.
داده کاوی، به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرایندی است که بایستی به صورت یک پروژه پیاده سازی شود.
عبارت داده کاوی، مترادف با یکی از عبارتهای استخراج دانش، برداشت اطلاعات، وارسی داده ها و حتی لایروبی کردن داده ها است که در حقیقت کشف دانش در پایگاه داده ها KDD را توصیف می کند. بنابراین، ایده ای که مبنای داده کاوی است. یک فرایند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و در نهایت قابل درک در داده ها است. واژه کشف دانش در پایگاه داده ها، در اوایل دهه 80 در مراجعه به مفهوم کلی، گستردهریال سطح بالا و به دنبال جستجوی دانش در اطلاعات شکل گرفته است. داده کاوی، کاربرد سطح بالای فنون و ابزار به کار برده شده، برای معرفی و تحلیل داده های تصمیم گیرندگان است. اصطلاح داده کاوی را آمارشناسان، تحلیل گران داده ها و انجمن سیستم های اطلاعات مدیریت به کار برده اند، در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی، از KDD اکتشاف علوم ، بیشتر استفاده می کنند.
برنامه های کاربردی داده کاوی میتوانند از پارامترهای متنوعی برای رسیدگی به داده ها استفاده کنند. برخی از این پارامتر ها برای رسیدگی به داده ها به شرح زیر می باشند:
- ترکیبات : نمونه هایی که در آنها یک رویداد به رویداد دیگری وابسته است، همچون خرید یک خودکار و خرید کاغذ.
- تحلیل ترتیب یا روش : نمونه هایی که در آنها انجام یک رویداد، منجر به رویداد دیگری می شود، همچون تولد یک نوزاد و خرید نیازمندی های او
- طبقه بندی : شناسایی نمونه های جدید، مثل تطابق بین لوله های خریداری شده و درپوش های پلاستیکی ان ها.
- دسته بندی : یافتن و مستندسازی بصری گروه هایی از حقایق ناشناخته قبلی، مثل موقعیت جغرافیایی و نشان های تبلیغاتی.
- پیش بینی : کشف و یافتن نمونه هایی که بتوان از آنها پیش بینی های منطقی به عمل آورد، مثلا افرادی که در یک کلوپ ورزشی سرمایه گذاری می کنند، ممکن است در کلاس ها و برنامه های ورزشی شرکت کنند.
- داده کاوی، کاربرد فنون یادگیری ماشین بر روی پایگاه داده برای کشف دانش ها و الگوهای نهفته در داده های پایگاه می باشد.
داده کاوی، کاربرد فنون یادگیری ماشین بر روی پایگاه داده برای کشف دانش و الگوهای نهفته در داده های پایگاه می باشد.
داده کاوی، اکتشاف و تحلیل مقادیر زیاد داده برای استخراج الگوها و قوانین با معنای درون پایگاه را انجام می دهد.
به طور کلی، داده ها در جهان واقعی آلوده هستند. این داده های بی کیفیت، ناقص ، پرخطا و متناقض می باشند. بدیهی است که داده های بی کیفیت، همیشه منجر به نتایج بی کیفیت می شوند.
داده کاوی، با ساتفاده از رایانه به جمع آوری اطلاعات سودمند از بین حجم عظیمی از داده های ذخیره شده در پایگاه داده ها که چه بسا تا حد زیادی بی کیفیت هستند، می پردازد تا ساختارهای با ارزش، الگو ها، ارتباطات، اصول و ارزش های پنهانی داده ها را کشف نماید.
زیر بنای داده کاوی
فنون داده کاوی، نتیجه تحقیقات گسترده و بلند مدتی است که در طول سال ها برای افزایش بازدهی تجاری موسسات به کار برده می شدند. تحقیقات در این زمینه از زمانی آغاز شد که برای نخستین بار اطلاعات تجاری هر سازمان، روی سیستم های ذخیره سازی آن زمان که از نوع مغناطیسی بودند، ذخیره شدند. این رشته تحقیقات با توسعه و پیشرفت سیستم های اطلاعات که قابلیت ذخیره حجم بیشتری از داده ها را فراهم می کردند و همچنین از سرعت بسیار بالاتری در ذخیره سازی و بازیابی اطلاعات برخوردار بودند، اهمیت بیشتری یافت. روش های دسترسی تصادفی به اطلاعات و پیدایش روش های حرکت در میان داده ها، خصوصا به صورت بلادرنگ فناوری داده کاوی را متحول ساخت.
داده کاوی با استفاده از رایانه به جمع آوری اطلاعات سودمند از بین حجم عظیمی از داده های ذخیره شده در پایگاه داده ها که چه بسا تا حد زیادی بی کیفیت هستند، می پردازد تا ساختارهای با ارزش، الگو ها ، ارتباطات ، اصول و ارزش های پنهانی داده ها را کشف نماید.
روش های داده کاوی، بر پایه های زیر استوار هستند:
- گرد اوری حجم عظیمی داده
- رایانه های چند پردازنده ای قدرتمند
- الگوریتم های داده کاوی
در سال 1960 ام صنعت گرد آوری اطلاعات و امکان ذخیره داده ها در تجهیزاتی نظیر نوار و دیسک توسط شرکت هایی که IBM و CDC از پیشگامان آنها بودند، شکل تجاری به خود گرفت. با رواج چنین مکانیسم هایی، تبادل استاتیک اطلاعات امکان پذیر شده، پرسش های تجاری از قبیل آن که سود خالص شرکت در پنج سال آخر فعالیت چقدر بوده است؟ پاسخ داده می شود. 20 سال بعد از فناوری فوق، با پیشرفت های نرم افزاری و استفاده از بانک های اطلاعاتی رابطه ای یا RDBMS و زبان جستجوی ساخت یافته SQL توسط شرکت های موفقی همچون OracleوSybaseوInformixوIBM و Microsoft اطلاعات در همان لحظه ثبت شدن قابل تبادل بودند، به عبارت دیگر، تبادل اطلاعات بهص ورت دینامیک امکان پذیر شده بود. نمونه ای از سوالات تجاری که این سیستم پاسخگوی آن است چنین بود: مقدار فروش شعب، کشور یا شهر مورد نظر ، در ماه مارس گذشته چه میزان بوده است؟ در سالهای دهه 90 نوبت به فناوری هایی همچون DataWare Housing و امکانات تصمیم گیری نرم افزاری رسید.
اساس داده کاوی
داده کاوی، بر مبنای سه فعالیت اصلی استوار است که ذیلا به انها اشاره می شود:
- حذف داده ها : داده های بی ارزش و عوامل بیرونی حذف می شوند.
- فشرده سازی داده ها : این عمل به وسیله کد گذاری داده ها صورت می گیرد.
- کشف الگوها : الگوهای موجود در پایگاه داده ها از قبیل : طبقه بندی، الگوهای زنجیری و … کشف می شوند.
عناصر داده کاوی
توصیف و کمک به پیش بینی، دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیر ها از گذشته و حال و درک الگو، مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند، مثالی از توانایی پیشگویانه داده کاوی است.
برای عملی شدن هر یک از این دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی، اما مهم باید اجرا شوند که از این قرارند:
- انتخاب داده ها
- پاک سازی داده ها
- غنی سازی داده ها
- کد گذاری داده ها
با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتوانند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شوند. این رکوردهای داده جمع آوری شده، اغلب از آنچه آلودگی داده ها نامگذاری شده است، رنج می برند و بنابراین، لازم است پاکسازی شوند تا از یکدستی فرمت ( شکل ) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه به عمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت، داده های مشخصی باید گردآوری شوند تا بانک اطلاعاتی اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند، مرحله غنی سازی داده ها را تکمیل می کند. یک سیستم کد گذاری مناسب، معمولا جهت انتقال داده ها به فرم ساختار بندی شده جدید، متناسب برای عملیات داده کاوی تعبیه می شود.
نگاهی مختصر به دو نمونه الگوریتم داده کاوی
رگرسیون یا Regression : از قدیمی ترین و معروف ترین فنونی است که در داده کاوی به کار می رود. اساسا رگرسیون یک مجموعه اطلاعات و داده را در اختیار گرفته و یک فرمول ریاضی متناسب با ان داده ها ایجاد می کند و زمانی که شما بخواهید از نتایج داده هایتان آینده را پیش بینی کنید، کافی است داده های جدید خود را به فرمول تولید شده توسط رگرسیون داده و نتایج حاصل را که همان پیش بینی های مورد نظر شما سات، دریافت دارید. محدودیت اصلی این فن در آن است که تنها با مقادیر داده ای پیوسته همجون ، وزن ، سرعت و … به خوبی کار می کند و در صورتی که شما با مقادیر داده ای گسسته مانند رنگ ، جنسیت ، اسم سروکار دارید بهتر است فن دیگری را برای این کار انتخاب کنید.
طبقه بندی Classification : اگر شما با داده های طبقه بندی شده و یا ترکیبی از داده های عددی و دسته بندی شده سروکار دارید، تحلیل های طبقه بندی شده، نیاز شما را مرتفع می کند. این فن، توانایی پردازش مجموعه های وسیع تری از داده ها را – نسبت به فن رگرسیون – داشته و در حال گسترش عمومی می باشد. همچنین خروجی ای که شما در این حالت دریافت می کنید، از لحاظ پیچیدگی بیسار ساده تر است و راحت تر تفسیر می شود. در این روش، شما به جای دریافت فرمول های ریاضی پیچیدهف یک درخت تصمیم گیری را که حاوی تعدادی تصمیم مشخص دوگانه binary می باشد، دریافت می کنید.
رگرسیون و طبقه بندی، دو مورد از پرکاربردترین روش های طبقه بندی اطلاعات هستند، اما این دو ، تنها تکه ای از یک مجموعه بزرگ هستند.
کاربرد علم آمار در داده کاوی
همان گونه که واضح است با گذشت زمان علم نیز پیشرفت می کند، هر چه جلوتر می رویم، روش های جدیدتر و بهتر مورد استفاده قرار می گیرد. علم امروز نسبت به دیروز جدیدتر است. روش های جدید علمی، در پی کشف محدودیت های روش های قدیمی ایجاد می شود و از آن جایی که روش های آماری، جزء روش های قدیمی ایجاد می شود و از آن جایی که روش های آماری، جزء روش های قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند، مستثنا نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در این جا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتاب های مختلف بحث شده است، می پردازیم.
فنون داده کاوی و آماری در مباحثی چون تعریف مقدار هدف برای پیشگویی، ارزشیابی خوب و داده های دقیق Clean data خوب عمل می کنند. همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسائل ( پیشگویی، کلاس بندی و کشف ) استفاده می شوند. بنابراین، تفاوت این دو چیست؟ چرا ما ان چنان که علاقه مند به کاربردن روش های داده کاوی هستیم، علاقه مند روش های آماری نیستیم؟ برای جواب این سوال، چندین دلیل وجود دارد: اول این که روش های کلاسیک داده کاوی از قبیل شبکه های عصبی و فنون نزدیک ترین همسایه، روش های قدرتمندی برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند، راحت تر است و بهتر میتوانند از آن استفاده کنند. دلیل دیگر این که معمولا داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روش ها با اطلاعات کمتر بهتر می توانند کار کنند و همچنین این که برای داده های وسیع کاربرد دارند.
در جایی دیگر، این گونه بیان شده است که داده های جمع آوری شده نوعا خیلی از فرض های قدیمی اماری، را رد نظر نمی گیرند، از قبیل این که : مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها همپوشانی زیاد دارند و تخلف کردن از هر کردام از فرض ها میتواند مشکلات بزرگی ایجاد کند، زمانی که یک کاربر ( تصمیم گیرنده ) سعی می کند که نتیجه ای را به سدت اورد. داده های جمع آوری شده، به طور کلی، تنها مجموعه ای از مشاهدات چند بعد است، بدون توجه به این که چگونه جمع آوری شده اند.
در جایی پایه و اساس Data Mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روش های مصنوعی به عنوان روش های یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روش های آماری و روش های یادگیری ماشین Machine learning براساس فرض ها و یا طبیعت داده هایی است که پردازش می شوند. به عنوان یک قانون کلی، فرض های فنون آماری براین اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع، طبیعی است و در نهایت، درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روش های یادگیری، یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی ند و همین مورد، باعث تفاوت هایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روش های یادگیری ماشین برای ساخت مدل dataset از حداقل استنتاج آماری استفاده می کنند که این سماله به طور خاص، در شبکه عصبی دیده می شود.
به طور کلی، روش های اماری روش های قدیمی تری هستند که به حالت های احتمالای مربوط می شوند. Data mining جایگاه جدیدتری دارد که به هوش مصنوعی ، یادگیری ماشین، سیستم های اطلاعات مدیریت MIS و روش Database مربوط می شود.
روش های آماری، بیشتر زمانی که تعداد داده ها کمتر است و اطلاعات بیشتری در مورد داده ها میتوان بدست آورد، استفاده می شوند، به عبارت دیگر، این روش ها با مجموعه داده های کوچک تر سر و کار دارند. همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد، برخلاف روش هایی از قبیل شبکه عصبی که فرایند مبهمی دارد، به طور کلی، این روش در محدوده مشخصی از داده های ورودی به کار می رود. به کار بردن این روش ها، مجموعه داده های زیاد احتمال خطا در این روش ها را زیاد می کند. چون در داده ها احتمال Noise و خطا بیشتر می شود و نیز روش های اماری معمولا به حذف Noise می پردازند بنابراین خطای محاسبات در این حالت زیاد می شود.
در بعضی از روش های اماری نیاز داریم که توزیع داده ها را بدانیم. اگر بتوان به ان دسترسی پیدا کرد، با بکار بردن روش آماری میتوان به نتایج خوبی رسید.
روش های آماری چون پایه ریاضی دارند، نتایج دقیق تری نسبت به دیگر روش های Data mining ارائه می دهند، ولی استفاده از روابط ریاضی، نیازمند داشتن اطلاعات بیشتری در مورد داده ها است.
مزیت دیگر روش های آماری، در تعبیر و تفسیر داده ها است. هر چند روش های اماری به جهت داشتن ساختار ریاضی تفسیر سخت تری دارند، ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است. به طور کلی، روش های اماری زمانی که تفسیر داده ها توسط روش های دیگر مشکل است، بسیار مفید هستند.
کاربرد های داده کاوی
داده کاوی در ابتدا از حوزه تجارت برخاست، اما کاربردهای آن در سایر حوزه هایی که به گردآوری حجم وسیعی از داده هایی می پردازند که دستخوش تغییرات پویا نیز می گردند، مفید شناخته شد. بخش هایی مثل: بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.
انتظار می رود که استفاده از داده کاوی در بخش آموزش به طور عام، امکان های جدید بسیاری ارائه می دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش، در ذیل مورد بحث قرار گرفته اند.
داده کاوی کتابخانه ای: عملیات کتابداری، به طور کلی ، شامل : مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و به طور جداگانه پردازش می شود، هرچند انجام تحلیل ترکیبی بر این مجموعه های داده نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید.
کاربردهای داده کاوی در کتابخانه ها
بانک اطلاعاتی : کاربرد متصور
گردآوری منابع: برای تعیین نقاط قوت و ضعف مجموعه
استفاده از مجموعه : برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال
امانت بین کتابخانه ای : برای تحلیل سفارش های پاسخ داده شده و سفارش های دریافت شده
داده های بخش امانت : برای پیش بینی روند بازگشت منابع
داده کاوی میتواند برای پاسخ داده به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک می کنند. برای مثال، سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود، چقدر است؟ تا میزان اشتراک مورد انظتار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواست های اعضا برای میکروفیلم های طی سال گذشته نیز همگی مثال هایی از کشف روندهای عمومیاند. دامنه تحلیلی استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.
نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تاکید بر حداقل دخالت انسانی باشند، از یک سو و روی آوردن به روش های تحلیلی متناسب با حجم داده های زیاد از سوی دیگر، به خوبی احساس می شود. در حال حاضر، داده کاوی، مهم ترین فناوری برای بهره برداری موثر، صحیح و سریع از داده های حجیم بوده و اهمیت آن رو به افزایش است.
یکی از نمونه های بارز داده کاوی را میتوان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباطات محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاق اند بدانند که چه محصولاتی با یکدیگر به فروش می روند.
برای مثال، طی یک عملیات داده کاوی گسترده در یک فروشگاه زنجیره ای در آمریکای شمالی که روی حجم عظیمی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند، معمولا آب جو نیز خریداری می کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند. نمونه مشابه عملیات داده کاوی را میتوان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده کرد، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کروات های ابریشمی خریداری می کنند، در همان روز یا روز های آینده، گیره کروات مشکی رنگ نیز خریداری می کنند.
به روشنی قابل درک است که این نوع استفاده از داده کاوی میتواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و شیوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگر استفاده از داده کاوی در زمینه فروش را میتوان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنر پیشه های سینمایی و نیز گروه های مختلف مشتریان براساس سبک فیلم ها ( ترسناک ، رمانتیک ، حادثه ای و … ) مشخص گردید.
بنابراین، آن شرکت به صورت کاملا هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را براساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.
از دیگر زمینه های به کار گیری داده کاویف استفاده بیمارستان ها و کارخانه های داروسازی جهت کشف الگو ها و مدل های ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را میتوان نام برد.
استفاده از داده کاوی در زمینه مالی و بانکداری به شناخت مشتریان پر خطر و سودجو براساس معیارهایی از جمله : سن، درآمد ، وضعیت سکونت ، تحصیلات و شغل می انجامد.
از سال 1950 ام که رایانه یا کامپیوتر در تحلیل و ذخیره سازی داده ها به کار رفت، حجم اطلاعات ذخیره شده در آن با گذشت زمان بیشتر شده و همچنین رو به فزونی است. بسیاری از پایگاه داده ها چنان گسترش یافته اند که شامل چند صد میلیون یا چندین میلیارد رکورد ثبت شده هستند و امکان تحلیلی و استخراج اطلاعات با روش های معمول و کلاسیک آماری از این پایگاه داده ها، مستلزم دانش و ابزارهای توانمندتر است. از طرفی، شدت رقابت ها در عرصه های علمی ، اقتصادی ، اجتماعی ، سیاسی و نظامی نیز اهمیت سرعت یا زمان دسترسی به اطلاعات را افزایش داده است. بنابراین، نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تاکید بر حداقل دخالت انسانی باشند، از یکس وو روی آوردن به روش های تحلیلی متناسب با حجم داده های زیاد از سوی دیگر، به خوبی احساس می شود. در حال حاضر، داده کاوی مهم ترین فناوری برای بهره برداری موثر، صحیح و سریع از داده های حجیم بوده و اهمیت آن رو به افزایش است.
درگاه پرداخت ePayBank.ir با استفاده از روش های داده کاوی سعی در ارائه بهترین خدمات درگاه بانکی برای پذیرندگان درگاه پرداخت دارد. عضویت در درگاه پرداخت بسادگی انجام می پذیرد.
- کاربرد داده کاوی در بانکداری (11)