آشنایی با الگوریتم های داده کاوی

اهداف  : آشنایی با  تکنیک ها، روشها، الگوریتم ها و فنون های مرتبط با داده کاوی

فنون داده کاوی، گروه نامتجانسی از علوم مختلف را شکل می‌دهند هر تکنیکی که بتواند بینش جدیدی از داده‌ها را استخراج کند می‌تواند داده کاوی به حساب آید. به طور خلاصه، داده کاوی پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی، الگو شناسی، یادگیری ماشین و بازنمایی بصری داده می‌باشد. می‌توان گفت در داده کاوی، تئوری‌های پایگاه داده‌ها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم می‌آمیزند تا زمینه کاربردی فراهم شود.

ترجمه مقالات داده کاوی توسط دپارتمان ترجمه گروه طراحان آریاکدرز پذیرفته می شود.

درصورتیکه مترجم یا دانشجوی زبانهای خارجی همچون انگلیسی یا فرانسه هستید میتوانید نمونه فایلهای ترجمه خویش را در آپلودسنترهایی قرار دهید و سپس خدمات خود را در MyCityAd.ir آگهی نمایید تا سفارش ترجمه مقاله ، کتاب دریافت کنید و از طریق درگاه پرداخت ePayBank.ir نیز میتوانید وجه ترجمه خویش را بصورت آنلاین از متقاضی انجام پروژه ترجمه دریافت نمایید.

ارایه درگاه پرداخت ePayBank.ir برای خرید و فروش ترجمه و اصل  مقالات داده کاوی

روش‌های اصلی داده کاوی به دو دسته کلی تقسیم می‌شوند: توصیفی و پیشگویی. این دو گروه، بیانگر اهداف و عملکرد روش‌های داده کاوی نیز هستند.

  • روش های داده کاوی
  • توصیفی
  • خوشه بندی
  • قوانین انجمنی
  • مدلسازی وابستگی
  • خلاصه سازی
  • پیشگویی
  • دسته بندی
  • رگرسیون
  • پیش بینی
  • سری های زمانی

دسته بندی
 دسته بندی یا طبقه بندی در واقع ارزشیابی ویژگی‌های مجموعه‌ای از داده‌ها و سپس اختصاص دادن آن‌ها به مجموعه‌ای از گروه‌های از پیش تعریف شده است. این متداول‌ترین قابلیت داده کاوی می‌باشد. در دسته بندی، به دنبال مدلی هستیم که با تشخیص دسته‌ها می‌تواند دسته ناشناخته اشیاء دیگر را پیش بینی کند. دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد.
دسته بندی نوعی یادگیری است که به کمک نمونه‌ها صورت می‌گیرد و طبقه بندی بر اساس مجموعه‌های از پیش تعریف شده انجام می‌شود لذا می‌توان گفت دسته بندی یادگیری با نظارت (هدایت شده) است.  دسته بندی فرآیندی دو مرحله‌ای می‌باشد. در گام اول، یک مدل بر اساس مجموعه داده‌های آموزشی موجود در پایگاه داده‌ها ساخته می‌شود. این مدل‌ها به فرم‌هایی از درخت تصمیم، یا فرمول‌های ریاضی نمایش داده می‌شود. مجموعه داده‌های آموزشی از رکوردها، نمونه‌ها، مثال‌ها و یا اشیائی که شامل مجموعه‌ای از صفات یا جنبه‌ها می‌باشد، تشکیل شده‌اند.

دسته بندی
 سیستم بر اساس این مجموعه آموزشی به خود آموزش می‌دهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا می‌کند. هر نمونه یک برچسب کلاس معلوم دارد، که به طور تصادفی از مجموعه داده‌ها انتخاب می‌شود. گام بعدی پس از مرحله آموزش، برای پیش بینی و تعیین دسته می‌باشد. توسط قوانین صورت می گیرد، آنگاه مدل می‌تواند، جهت پیشگویی برچسب‌های کلاس برای داده‌های جدید -که دارای برچسب کلاس نامعلوم هستند-  مورد استفاده قرار گیرد.
تکنیک‌های داده کاوی که برای دسته بندی به کار می‌آیند عموماً شامل تکنیک‌های شبکه عصبی و درخت تصمیم گیری هستند. دسته بندی کاربردهای زیادی در بازرگانی، بانکداری، پزشکی، ارتباطات، کشاورزی و غیره دارد. به عنوان مثال طبقه بندی در بازاریابی هدف، تصویب اعتبار و بررسی تقلب است. از جمله کاربردهای دیگر دسته بندی، متن کاوی می‌باشد.

رگرسیون
 رگرسیون بهترین مدلی است که می‏تواند متغیرهای خروجی را با متغیرهای ورودی متعدد ارتباط دهد. ساده‌ترین حالت آن، مدل به ارزش خطی است، یعنی ارتباط بین متغیرهای ورودی و خروجی را به صورت خطی برقرار می‌کند. از نقطه نظر کلی، دسته بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند، که دسته بندی، جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار می‌گیرد. انواع مدل‌های یکسانی را می‌توان هم برای رگرسیون و هم برای دسته بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را می‌توان هم برای ساخت درخت‌های دسته بندی و هم درخت‌های رگرسیون استفاده کرد. شبکه‌های عصبی را نیز می‌توان برای هر دو مورد استفاده کرد

سری‌های زمانی
تحلیل سری‌های زمانی تکنیکی دیگر در داده‌کاوی که هدف از آن، یافتن خصوصیات جالب توجه و نظم‌های مشخص در حجم بالای داده است. یکی از  سری های زمانی دنباله‌ای مرتب شده از مشاهدات است که،ارزش یک شیء را به عنوان تابعی از زمان در مجموعه داده‌های جمع آوری شده توصیف می‌کند. رخداد وقایع متوالی در اصل مجموعه‌ی وقایعی است که بعد از یک واقعه‌ی مشخص به وقوع می‌پیوندند.
پیش بینی
پیش‌بینی یکی از تکنیک داده کاوی است که ‌در این تکنیک مقادیر ممکن برای متغیرهای نامعلوم پیش‌بینی می‌شود. از شبکه‌های عصبی و الگوریتم ژنتیک برای پیش‌بینی استفاده می‌شود.

تکنیک های روش توصیفی
در روش‌های توصیفی، خواص عمومی داده‌ها بیان می‌شود. هدف از توصیف، یافتن الگوهایی در مورد داده‌هاست که برای انسان قابل تفسیر باشد. روش توصیفی نیز شامل تکنیک‌های: خوشه بندی، خلاصه سازی، کشف توالی (تحلیل دنباله) ، قوانین انجمنی می‌باشد.

خوشه بندی
خوشه بندی، گروه بندی نمونه‌های مشابه با هم، در یک حجم داده می‌باشد. خوشه بندی یک دسته بندی بدون نظارت (هدایت نشده) است که دسته‌ها از قبل تعریف نشده اند. در خوشه‌بندی -بر خلاف طبقه‌بندی که هر داده به یک طبقه‌ی (کلاس) از پیش مشخص شده تخصیص می‌یابد- هیچ اطلاعی از کلاس‌های موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند.
هدف از خوشه بندی این است که داده‌های موجود، به چند گروه  تقسیم  شوند و در این تقسیم بندی داده‌های گروه‌های مختلف حداکثر تفاوت ممکن را به هم داشته باشند و داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند. (تشابه یا عدم تشابه بر اساس معیارهای اندازه گیری فاصله تعریف می‌شود.) پس از اینکه داده‌ها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی می‌توان برای کسب اطلاعات در مورد داده‌ها یا تقسیم داده‌ها جدید استفاده کنیم.
خوشه بندی کاربردهای متعددی دارد. اغلب از خوشه بندی به عنوان اولین گام در فرایندهای داده کاوی یاد می‌شود که قبل از سایر فرایندها برای شناسایی گروهی از رکوردهای مرتبط با هم که بعداً بتوانند نقطه آغاز تحلیل‌ها باشند، بر روی رکوردها اعمال می‌شود. در برخی موارد برای تشخیص داده‌های پرت که با سایر داده‌ها تفاوت چشمگیر دارند (مورد کاربرد در کشف وقوع جرم و تخلف در عملیات بانکی یا در وب)، استفاده می‌شود.
قوانین انجمنی

استخراج قواعد انجمنی، نوعی عملیات داده کاوی است که به جستجو برای یافتن ارتباط بین ویژگی‌ها در مجموعه داده‌ها می‌پردازد. نام دیگر این روش، تحلیل سبد بازار است. این روش به دنبال استخراج قواعد، به منظور کمی کردن ارتباط میان دو یا چند خصوصیت می‌باشد. قواعد انجمنی ماهیتی احتمالی دارد و به شکل اگر و آنگاه و به همراه دو معیار پشتیبان و اطمینان تعریف می‌شوند. این دو شاخص به ترتیب مفید بودن و اطمینان از قواعد مکشوفه را نشان می‌دهند.
معیار اطمینان: میزان وابستگی یک کالای خاص را به دیگری بیان می‌کند. یعنی درجه وابستگی بین دو مجموعه X و Y را محاسبه می‌کند و به عنوان شاخصی برای اندازه گیری توان یک قاعده در نظر گرفته می‌شود.
معیار پشتیبان (X,Y): نشان دهنده درصد یا تعداد تراکنش هایی (زیرمجموعه‌هایی از اقلام خریداری شده) است که شامل هر دوی اقلام (مجموعه اقلام)X  و Y باشند.

قوانین انجمنی
مثال‌هایی از کاربرد قوانین انجمنی می‌تواند این گونه باشد:
بررسی اینکه چه اقلامی در یک فروشگاه با هم خریداری می‌شوند و اینکه چه اقلامی هیچ گاه خریداری نمی‌شوند.
بررسی ارتباط بین توانایی خواندن کودکان با خواندن داستان توسط والدین برای آن‌ها.
اگر مجموعه‌ای از عناصر، حداقل پشتیبانی را داشته باشند، “مکرر” خوانده می‌شوند.
“قواعد قوی” قواعدی هستند که به طور توامان دارای مقدار پشتیبان و اطمینان بیش از آستانه باشند.
با استفاده از این مفاهیم پیدا کردن قواعد انجمنی در دو گام خلاصه می‌شود،: پیدا کردن مجموعه‌های مکرر و استخراج قواعد قوی.

خلاصه سازی (تلخیص)
در برگیرنده روش‌هایی برای یافتن یک توصیف فشرده از زیر مجموعه‌ای از داده‌ها است. به عنوان مثالی ساده می‌توان اشاره داشت به: تهیه‌ی جدول میانگین و انحراف معیار برای تمام فیلدها. روش‌های پیچیده‌تر شامل استنتاج قواعد خلاصه، فنون مصورسازی چند متغیره و کشف رابطه تابعی بین متغیرهاست. کاربرد فنون تلخیص معمولاً در تحلیل اکتشافی داده‌ها و تولید گزارش خودکار به کار برده می‌شوند.

مدل‌سازی وابستگی (تحلیل لینک)
شامل یافتن مدلی برای توصیف وابستگی‌های معنی دار بین متغیرهاست. مدل‌های وابستگی در  دو سطح وجود دارند: سطح ساختاری و سطح کمّی. در سطح ساختاری، مدل از طریق رسم شکل مشخص می‌کند که کدام متغیرها به طور محلی به دیگری وابسته‌اند. در سطح کمّی، مدل قدرت وابستگی‌ها را با مقیاس عددی مشخص می‌کند.
 وابستگی‌ها به صورت A->B نمایش داده می‌شوند که به A مقدم و به B موخر یا نتیجه گفته می‌شود. مثلاً اگر یک قانون به صورت زیر داشته باشیم:
اگر افراد چکش بخرند، آنگاه آن‌ها میخ خواهند خرید
در این قانون مقدم، خرید چکش و نتیجه، خرید میخ می‌باشد.

در خوشه‌بندی بر خلاف طبقه‌بندی که هر داده به یک طبقه (کلاس) از پیش مشخص شده تخصیص می‌یابد هیچ اطلاعی از کلاس‌های موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند. لذا می‌توان گفت خوشه بندی نوعی یادگیری بدون نظارت (هدایت نشده) است یعنی نوعی یادگیری است که به وسیله‌ی مشاهدات انجام می‌شود نه با مثال‌ها.
خوشه بندی در انجام فعالیت داده کاوی در موارد زیر استفاده می‌شود:
تجزیه و تحلیل شباهت یا عدم شباهت: تحلیل اینکه کدام نقاط داده در یک نمونه به یکدیگر شبیه هستند.
تشخیص داده‌های پرت: تشخیص داده‌هایی که با سایر داده‌ها تفاوت چشمگیری دارند.
کاهش بُعد (حجم): به عنوان پیش پردازش داده‌ها قبل از فعالیت‌های داده کاوی، می‌توان حجم یا بُعد داده‌ها را به وسیله‌ی تکنیک‌های خوشه بندی، کاهش داد.

معیارهای ارزیابی الگوریتم‌های خوشه بندی
برای ارزیابی و سنجش انواع الگوریتم‌های خوشه بندی، معیارهای متعددی مطرح می‌شود:
1- امکان اعمال بر روی تعداد نمونه‌های زیاد
2- توانایی پردازش انواع متفاوت خصیصه
3- اداره‌ی داده‌های بعد بالا
4- توانایی اداره کردن داده‌های پویا
5- توانایی پردازش داده‌های پرت و اغتشاش
6- کشف خوشه‌ها با اشکال دلخواه
7- میزان وابستگی به پارامترهای ورودی
8- حساسیت به ترتیب رکوردهای ورودی

طبقه بندی روش‌های خوشه بندی
خوشه‌بندی انحصاری  و خوشه‌بندی باهمپوشی
در روش خوشه‌بندی انحصاری پس از خوشه‌بندی، هر داده دقیقأ به یک خوشه تعلق می‌گیرد مانند روش خوشه‌بندی K-Means. ولی در خوشه‌بندی باهمپوشی پس از خوشه‌بندی، به هر داده یک درجه‌ی تعلق به ازای هر خوشه نسبت داده می‌شود. به عبارتی یک داده می‌تواند با نسبت‌های متفاوتی به چندین خوشه تعلق داشته باشد. نمونه‌ای از آن خوشه‌بندی فازی است.
خوشه ‌بندی سلسله مراتبی و خوشه‌ بندی مسطح
با توجه با اینکه روش‌های خوشه‌بندی سلسله مراتبی اطلاعات بیشتر و دقیق‌تری تولید می‌کنند برای تحلیل داده‌های با جزئیات پیشنهاد می‌شوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه داده‌های بزرگ روش‌های خوشه‌بندی مسطح پیشنهاد می‌شوند.

زیر مهارت 4 : الگوریتم Apriori
Apriori  یک الگوریتم کلاسیک برای قوانین انجمنی است.
این الگوریتم به صورت تکراری مجموعه آیتم های تکراری(itrative) را در پایگاه داده ها مشخص می کند.هر تکرار 2 مرحله دارد: تولید کاندید، شماره و انتخاب کاندید.  مجموعه آیتمی که شامل  I نمونه از آیتم هاست را مجموعه آیتم i   تایی می نامند.(i-itemset)
در تکرار i  همه  تکرار های مجموعه  آیتم i  تایی محاسبه می شوند.(شمرده می شوند)
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها با اطمینان (Confidence) c   برقرار است، اگر c%  از تراکنش هایی که شامل X   هستند، شامل Y   هستند.
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها دارای پشتیبان (Support) s   است، اگر s%   از تراکنش ها در پایگاه داده ها شامل  XUY باشند.

زیر مهارت 4 : الگوریتم Apriori
Apriori  یک الگوریتم کلاسیک برای قوانین انجمنی است.
این الگوریتم به صورت تکراری مجموعه آیتم های تکراری(itrative) را در پایگاه داده ها مشخص می کند.هر تکرار 2 مرحله دارد: تولید کاندید، شماره و انتخاب کاندید.  مجموعه آیتمی که شامل  I نمونه از آیتم هاست را مجموعه آیتم i   تایی می نامند.(i-itemset)
در تکرار i  همه  تکرار های مجموعه  آیتم i  تایی محاسبه می شوند.(شمرده می شوند)
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها با اطمینان (Confidence) c   برقرار است، اگر c%  از تراکنش هایی که شامل X   هستند، شامل Y   هستند.
قانون  X=>Yدر مجموعه تراکنش های  پایگا ه داده ها دارای پشتیبان (Support(s   است، اگر s%   از تراکنش ها در پایگاه داده ها شامل  XUY باشند.

به عنوان مثال پایگاه داده زیر را در نظر بگیرید،فرض کنید حداقل مقدار پشتیبان  s=50%  باشد.

ITEMS

TID

ACD

BCE

ABCE

BE

001

002

003

004

در مرحله اول از اولین تکرار(تولید کاندید) همه آیتم ها به عنوان کاندید در نظر گرفته می شوند.بنابراین 5 مجموعه آیتم 1 تایی(1-items) تشکیل می شود.در مرحله دوم از اولین تکرار، 4 مجموعه  از آیتم 1 تایی  (1-items)  به عنوان مجموعه L1  انتخاب می شوند، چرا که مقدار پشتیبانی آنها %50 یا بیشتر می باشد.

نتایج حاصل از تکرار الگوریتمApriori   در تکرار اول در شکل زیر آمده است:

S[%]

Counts

Larg  2-itemsets  L2

S[%]

Counts

1-items C1

1-itemset C1

50

2

{A}

50

2

{A}

{A}

75

3

{C}

75

3

{C}

{C}

25

1

{D}

{D}

75

3

{B}

75

3

{B}

{B}

75

3

{E}

75

3

{E}

{E}

در تکرار دوم  برای تولید مجموعه های C2   وL2   از نتایج مرحله قبلی استفاده می شود.
همه ی زیر مجموعه های یک مجموعه آیتم بزرگ نیز باید شرط حداقل پشتیبان را برآورده کنند.الگوریتم Apriori  برای تولید مجموعه کاندید C2  از   L1*L2   استفاده می کند، که عملگر * به صورت زیر توصیف می گردد:
Lk * Lk ={ XUY where X,Y ɛ Lk ,|X∩Y=K-1 }

نتایج حاصل از  اجرای عملگر* توسط الگوریتم Apriori در تکرار دوم در اسلاید بعدی آمده است.

S[%]

Counts

Larg  2-itemsets  L2

S[%]

Counts

2-itemset

2-itemset C2

{A,B}

25

1

{A,B}

{A,B}

50

2

{A,C}

50

2

{A,C}

{A,C}

{A,E}

25

1

{A,E}

{A,E}

50

2

{B,C}

50

2

{B,C}

{B,C}

75

3

{B,E}

75

3

{B,E}

{B,E}

50

2

{C,E}

50

2

{C,E}

{C,E}

مجموعه آیتم های 2 تایی  که شرط حداقل پشتیبانی را برآورده می کنند، ملاحظه می فرمایید.به همین ترتیب در تکرار سوم ، مجموعه C3 از روی L2  توسط L2 * L2   تولید می شود.  مجموعه آیتم های دو تایی که دارای عضو اول یکسان هستند، همان ابتدا انتخاب می شوند: {B,C}و {B,E} سپس الگوریتم بررسی می کند که آیا مجموعه {C,E} خودش یک  مجموعه آیتم 2 تایی هست یا خیر، با توجه به شرط اینکه {C,E} خودش یک مجموعه آیتم 2 تایی هست، معلوم می شود که همه زیر مجموعه های {B,C,E}  نیز شرط حداقل پشتیبان را فراهم می نمایند. بنابراین {B,C,E} یک کاندید یک کاندید 3-itemset  است.Apriori   سپس تمام تراکنش های پایگاه داده را بررسی می کند و L3    را  بصورت ذیل تعریف می نماید:

S[%]

Counts

Larg 3-itemsets  L3

S[%]

Counts

3-itemset C3

3- itemset  C3

50

2

{B,C,E}

50

2

{B,C,E}

{B,C,E}

الگوریتم  K-Means
این الگوریتم یک متد ساده تکرار شونده است، و برای خوشه بندی مجموعه ای از داده ها ی در اختیار  در تعداد مشخصی خوشه (K)  که کاربر تعیین می کند کاربرد دارد.الگوریتمK_Means  توسط محققین متعدد و به روش های مختلفی بیان شده است. الگوریتمK_Means  بیشترین استفاده در عمل تقسیم بندی خوشه ها را دارد و الگوریتمی بسیار ساده، قابل فهم و بطور منطقی قابل مقیاس بندی است و می توان آن را به سادگی اصلاح کرد تا با سناریوهای مختلف مانند یادگیری شبه مشاوره یا داده های جاری سروکار داشته باشد. پیشرفت ها و کلیت های مداوم الگوریتم پایه، ارتباط مداوم آن را تضمین می کند و به تدریج بر تأثیر گزاری آن افزوده است.
این الگوریتم  پارامتر k را به عنوان ورودی گرفته و مجموعه‌ی n شیء را به k خوشه افراز می‌کند به طوری که سطح شباهت داخلی خوشه‌ها بالا و سطح شباهت اشیاء بیرون خوشه‌ها پایین باشد. شباهت هر خوشه نسبت به متوسط اشیاء آن خوشه -که مرکز خوشه نامیده می‌شود- سنجیده می‌شود.

گام ‌های الگوریتم k-means
 گام 1: انتخاب k نقطه‌ی دلخواه به عنوان مراکز خوشه‌های ابتدایی به صورت تصادفی (بهتر است k نقطه از n نقطه‌ی موجود انتخاب شود.)
گام 2: تخصیص هرشی به خوشه‌ها با توجه به بیشترین شباهت آن به مراکز خوشه‌ها.
گام 3: به روز کردن مراکز خوشه‌ها به این معنی که برای هر خوشه، میانگین اشیاء آن خوشه، محاسبه می‌شود.
گام 4: بازگشت به قدم  2با توجه به مراکز جدید خوشه‌ها، تا هنگامی که هیچ تغییری در خوشه‌ها رخ ندهد. (در این حالت الگوریتم پایان یافته است)

ویژگی‌های الگوریتم k-means
 پیچیدگی محاسباتی الگوریتم: (O(tkn.
(  n: تعداد کل اشیا،  k: تعداد خوشه‌ها، t : تعداد تکرارهای الگوریتم).
پارامتر ورودی: تعداد خوشه‌ها (k) توسط کاربر باید تعیین شود و راه خاصی برای تعیین آن مشخص  نشده است. (یک راه، امتحان k های مختلف و بررسی معیار مربع خطا برای هر k می‌باشد)
نوع داده‌ی ورودی: این الگوریتم با داده‌های از نوع عددی، انجام پذیر است.
مقیاس پذیری: این الگوریتم برای پایگاه داده‌های بزرگ، کارا نیست و نیاز به توسعه دارد.
مواجهه با اغتشاش: از مهم‌ترین نقاط ضعف این روش، حساسیت در برابر اغتشاشات و نقاط پرت است زیرا در این روش از میانگین داده‌ها استفاده شده که به راحتی تحت تأثیر داده‌های پرت قرار می‌گیرد.

ویژگی‌های الگوریتم k-means
 شکل خوشه: این الگوریتم هنگامی که خوشه‌ها به صورت ابرهای فشرده هستند و این ابرها نیز خودشان از یکدیگر مجزا هستند، به خوبی عمل می‌کند لذا این روش تنها خوشه‌های کروی شکل را تشخیص داده و برای کشف خوشه‌هایی با شکل‌های پیچیده به خصوص غیر محدب، مناسب نیست.
این روش اغلب به یک بهینه محلی ختم می‌شود نه یک بهینه‌ی سراسری.

رفع اشکالات الگوریتم  k-means: برای رفع اشکالات الگوریتم k-means روش‌هایی توسعه یافته که در انتخاب k مرکز اولیه، محاسبه‌ی عدم شباهت و استراتژی‌های محاسبه‌ مراکز خوشه‌ها با یکدیگر متفاوتند. یکی از این تغییرات این است که ابتدا روی پایگاه داده، توسط الگوریتم تجمیع سلسله مراتبی، تعداد خوشه‌های مطلوب را پیدا کرده و سپس از خوشه‌های بدست آمده، به عنوان مرحله اول الگوریتم k-means استفاده می‌شود.
یکی دیگر از روش‌های مشابه k-means روش k-modes می‌باشد. که توسعه یافته‌ی  k-means برای استفاده از داده‌های طبقه‌ای است و به جای استفاده از مراکز خوشه‌ها، از مدهای خوشه‌ها (روش مبتنی بر فراوانی) استفاده می‌کند. لذا از یک رابطه‌ی اندازه گیری عدم شباهت جدید برای داده‌های اسمی یا طبقه‌ای استفاده می‌کند. از مزایای روش فوق، جبران نقص حساسیت نسبت به داده‌های دور از مرکز می‌باشد زیرا میانه (مد) از مقادیر بزرگ تأثیر نمی‌پذیرد. اما ایراد روش این است که بعضاً نماینده خوشه‌ها از میان اشیا انتخاب نمی‌شود.

خلاصه مهارت
فنون داده کاوی، گروه نامتجانسی از علوم مختلف را شکل می‌دهند هر تکنیکی که بتواند بینش جدیدی از داده‌ها را استخراج کند می‌تواند داده کاوی به حساب آید. به طور خلاصه، داده کاوی پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی، الگو شناسی، فراگیری ماشین و بازنمایی بصری داده می‌باشد. می‌توان گفت در داده کاوی، تئوری‌های پایگاه داده‌ها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم می‌آمیزند تا زمینه کاربردی فراهم شود.
داده کاوی یکی از پیشرفت های اخیر در صنعت مدیریت داده ها است.در اصل داده کاوی مجموعه ای از فنون می باشد که به شخص این امکان را می دهد تا ورای داده پردازی معمولی حرکت کند و به استخراج  اطلاعاتی درانبوه داده های مخفی یا پنهان دست پیدا کند.برای داده کاوی الگوریتم ها و روش های بسیاری معرفی شده است ولی موضوع مورد نظر انتخاب تعدادی از این الگوریتم ها و توضیح مختصر در مورد آنها می باشد.

کاربرد داده کاوی در بازاریابی

کاربرد داده کاوی در بانکداری

کاربرد داده کاوی در بیمه

کاربرد داده کاوی در سیستم های تشخیص نفوذ در شبکه

کاربرد داده کاوی در پیش بینی سهام

کاربرد داده کاوی در فروشگاه های زنجیره ای

کاربرد داده کاوی در خدمات الکترونیکی دولت

کاربرد داده کاوی در پزشکی

کاربرد داده کاوی در مخابرات

کاربرد داده کاوی در صنعت

کاربرد داده کاوی در خدمات

کاربرد داده کاوی در امور دولتی

کاربرد داده کاوی در کشف جرم و پیش بینی آن

کاربرد داده کاوی در شهرداری

کاربرد داده کاوی در آموزش

کاربرد داده کاوی در مدیریت شهری و شهرداری

کاربرد داده کاوی در مقوله فرهنگی

کاربرد داده کاوی در صادارت و واردات

کاربرد داده کاوی در فروش

کاربرد داده کاوی در حمل و نقل

کاربرد داده کاوی در امور انتظامی

کاربرد داده کاوی در امور خدماتی شهری

کاربرد داده کاوی در امور مالیاتی و پیش بینی تخلف

کاربرد داده کاوی در شرکت های حمل و نقل مسافربری

کاربرد داده کاوی در ورزش

کاربرد داده کاوی در مدیریت ارتباط با مشتری

کاربرد داده کاوی در ارزیابی تامین کنندگان

کاربرد داده کاوی در هواشناسی

Ad revenue forecasting
Churn (turnover) management
Claims processing
Credit risk analysis
Cross-marketing
Customer profiling
Customer retention
Electronic commerce
Exception reports
Food-service menu analysis
Fraud detection
Government policy setting
Hiring profiles
Market basket analysis
Medical management
Member enrollment
New product development
Pharmaceutical research
Process control
Quality control
Shelf management/store management
Student recruiting and retention
Targeted marketing
Warranty analysis