اهداف : آشنایی با تکنیک ها، روشها، الگوریتم ها و فنون های مرتبط با داده کاوی
فنون داده کاوی، گروه نامتجانسی از علوم مختلف را شکل میدهند هر تکنیکی که بتواند بینش جدیدی از دادهها را استخراج کند میتواند داده کاوی به حساب آید. به طور خلاصه، داده کاوی پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی، الگو شناسی، یادگیری ماشین و بازنمایی بصری داده میباشد. میتوان گفت در داده کاوی، تئوریهای پایگاه دادهها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم میآمیزند تا زمینه کاربردی فراهم شود.
ترجمه مقالات داده کاوی توسط دپارتمان ترجمه گروه طراحان آریاکدرز پذیرفته می شود.
درصورتیکه مترجم یا دانشجوی زبانهای خارجی همچون انگلیسی یا فرانسه هستید میتوانید نمونه فایلهای ترجمه خویش را در آپلودسنترهایی قرار دهید و سپس خدمات خود را در MyCityAd.ir آگهی نمایید تا سفارش ترجمه مقاله ، کتاب دریافت کنید و از طریق درگاه پرداخت ePayBank.ir نیز میتوانید وجه ترجمه خویش را بصورت آنلاین از متقاضی انجام پروژه ترجمه دریافت نمایید.
ارایه درگاه پرداخت ePayBank.ir برای خرید و فروش ترجمه و اصل مقالات داده کاوی
روشهای اصلی داده کاوی به دو دسته کلی تقسیم میشوند: توصیفی و پیشگویی. این دو گروه، بیانگر اهداف و عملکرد روشهای داده کاوی نیز هستند.
- روش های داده کاوی
- توصیفی
- خوشه بندی
- قوانین انجمنی
- مدلسازی وابستگی
- خلاصه سازی
- پیشگویی
- دسته بندی
- رگرسیون
- پیش بینی
- سری های زمانی
دسته بندی
دسته بندی یا طبقه بندی در واقع ارزشیابی ویژگیهای مجموعهای از دادهها و سپس اختصاص دادن آنها به مجموعهای از گروههای از پیش تعریف شده است. این متداولترین قابلیت داده کاوی میباشد. در دسته بندی، به دنبال مدلی هستیم که با تشخیص دستهها میتواند دسته ناشناخته اشیاء دیگر را پیش بینی کند. دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار میگیرد.
دسته بندی نوعی یادگیری است که به کمک نمونهها صورت میگیرد و طبقه بندی بر اساس مجموعههای از پیش تعریف شده انجام میشود لذا میتوان گفت دسته بندی یادگیری با نظارت (هدایت شده) است. دسته بندی فرآیندی دو مرحلهای میباشد. در گام اول، یک مدل بر اساس مجموعه دادههای آموزشی موجود در پایگاه دادهها ساخته میشود. این مدلها به فرمهایی از درخت تصمیم، یا فرمولهای ریاضی نمایش داده میشود. مجموعه دادههای آموزشی از رکوردها، نمونهها، مثالها و یا اشیائی که شامل مجموعهای از صفات یا جنبهها میباشد، تشکیل شدهاند.
دسته بندی
سیستم بر اساس این مجموعه آموزشی به خود آموزش میدهد یا به عبارتی پارامترهای دسته بندی را برای خود مهیا میکند. هر نمونه یک برچسب کلاس معلوم دارد، که به طور تصادفی از مجموعه دادهها انتخاب میشود. گام بعدی پس از مرحله آموزش، برای پیش بینی و تعیین دسته میباشد. توسط قوانین صورت می گیرد، آنگاه مدل میتواند، جهت پیشگویی برچسبهای کلاس برای دادههای جدید -که دارای برچسب کلاس نامعلوم هستند- مورد استفاده قرار گیرد.
تکنیکهای داده کاوی که برای دسته بندی به کار میآیند عموماً شامل تکنیکهای شبکه عصبی و درخت تصمیم گیری هستند. دسته بندی کاربردهای زیادی در بازرگانی، بانکداری، پزشکی، ارتباطات، کشاورزی و غیره دارد. به عنوان مثال طبقه بندی در بازاریابی هدف، تصویب اعتبار و بررسی تقلب است. از جمله کاربردهای دیگر دسته بندی، متن کاوی میباشد.
رگرسیون
رگرسیون بهترین مدلی است که میتواند متغیرهای خروجی را با متغیرهای ورودی متعدد ارتباط دهد. سادهترین حالت آن، مدل به ارزش خطی است، یعنی ارتباط بین متغیرهای ورودی و خروجی را به صورت خطی برقرار میکند. از نقطه نظر کلی، دسته بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند، که دسته بندی، جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار میگیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار میگیرد. انواع مدلهای یکسانی را میتوان هم برای رگرسیون و هم برای دسته بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را میتوان هم برای ساخت درختهای دسته بندی و هم درختهای رگرسیون استفاده کرد. شبکههای عصبی را نیز میتوان برای هر دو مورد استفاده کرد
سریهای زمانی
تحلیل سریهای زمانی تکنیکی دیگر در دادهکاوی که هدف از آن، یافتن خصوصیات جالب توجه و نظمهای مشخص در حجم بالای داده است. یکی از سری های زمانی دنبالهای مرتب شده از مشاهدات است که،ارزش یک شیء را به عنوان تابعی از زمان در مجموعه دادههای جمع آوری شده توصیف میکند. رخداد وقایع متوالی در اصل مجموعهی وقایعی است که بعد از یک واقعهی مشخص به وقوع میپیوندند.
پیش بینی
پیشبینی یکی از تکنیک داده کاوی است که در این تکنیک مقادیر ممکن برای متغیرهای نامعلوم پیشبینی میشود. از شبکههای عصبی و الگوریتم ژنتیک برای پیشبینی استفاده میشود.
تکنیک های روش توصیفی
در روشهای توصیفی، خواص عمومی دادهها بیان میشود. هدف از توصیف، یافتن الگوهایی در مورد دادههاست که برای انسان قابل تفسیر باشد. روش توصیفی نیز شامل تکنیکهای: خوشه بندی، خلاصه سازی، کشف توالی (تحلیل دنباله) ، قوانین انجمنی میباشد.
خوشه بندی
خوشه بندی، گروه بندی نمونههای مشابه با هم، در یک حجم داده میباشد. خوشه بندی یک دسته بندی بدون نظارت (هدایت نشده) است که دستهها از قبل تعریف نشده اند. در خوشهبندی -بر خلاف طبقهبندی که هر داده به یک طبقهی (کلاس) از پیش مشخص شده تخصیص مییابد- هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند.
هدف از خوشه بندی این است که دادههای موجود، به چند گروه تقسیم شوند و در این تقسیم بندی دادههای گروههای مختلف حداکثر تفاوت ممکن را به هم داشته باشند و دادههای موجود در یک گروه باید بسیار به هم شبیه باشند. (تشابه یا عدم تشابه بر اساس معیارهای اندازه گیری فاصله تعریف میشود.) پس از اینکه دادهها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی میتوان برای کسب اطلاعات در مورد دادهها یا تقسیم دادهها جدید استفاده کنیم.
خوشه بندی کاربردهای متعددی دارد. اغلب از خوشه بندی به عنوان اولین گام در فرایندهای داده کاوی یاد میشود که قبل از سایر فرایندها برای شناسایی گروهی از رکوردهای مرتبط با هم که بعداً بتوانند نقطه آغاز تحلیلها باشند، بر روی رکوردها اعمال میشود. در برخی موارد برای تشخیص دادههای پرت که با سایر دادهها تفاوت چشمگیر دارند (مورد کاربرد در کشف وقوع جرم و تخلف در عملیات بانکی یا در وب)، استفاده میشود.
قوانین انجمنی
استخراج قواعد انجمنی، نوعی عملیات داده کاوی است که به جستجو برای یافتن ارتباط بین ویژگیها در مجموعه دادهها میپردازد. نام دیگر این روش، تحلیل سبد بازار است. این روش به دنبال استخراج قواعد، به منظور کمی کردن ارتباط میان دو یا چند خصوصیت میباشد. قواعد انجمنی ماهیتی احتمالی دارد و به شکل اگر و آنگاه و به همراه دو معیار پشتیبان و اطمینان تعریف میشوند. این دو شاخص به ترتیب مفید بودن و اطمینان از قواعد مکشوفه را نشان میدهند.
معیار اطمینان: میزان وابستگی یک کالای خاص را به دیگری بیان میکند. یعنی درجه وابستگی بین دو مجموعه X و Y را محاسبه میکند و به عنوان شاخصی برای اندازه گیری توان یک قاعده در نظر گرفته میشود.
معیار پشتیبان (X,Y): نشان دهنده درصد یا تعداد تراکنش هایی (زیرمجموعههایی از اقلام خریداری شده) است که شامل هر دوی اقلام (مجموعه اقلام)X و Y باشند.
قوانین انجمنی
مثالهایی از کاربرد قوانین انجمنی میتواند این گونه باشد:
بررسی اینکه چه اقلامی در یک فروشگاه با هم خریداری میشوند و اینکه چه اقلامی هیچ گاه خریداری نمیشوند.
بررسی ارتباط بین توانایی خواندن کودکان با خواندن داستان توسط والدین برای آنها.
اگر مجموعهای از عناصر، حداقل پشتیبانی را داشته باشند، “مکرر” خوانده میشوند.
“قواعد قوی” قواعدی هستند که به طور توامان دارای مقدار پشتیبان و اطمینان بیش از آستانه باشند.
با استفاده از این مفاهیم پیدا کردن قواعد انجمنی در دو گام خلاصه میشود،: پیدا کردن مجموعههای مکرر و استخراج قواعد قوی.
خلاصه سازی (تلخیص)
در برگیرنده روشهایی برای یافتن یک توصیف فشرده از زیر مجموعهای از دادهها است. به عنوان مثالی ساده میتوان اشاره داشت به: تهیهی جدول میانگین و انحراف معیار برای تمام فیلدها. روشهای پیچیدهتر شامل استنتاج قواعد خلاصه، فنون مصورسازی چند متغیره و کشف رابطه تابعی بین متغیرهاست. کاربرد فنون تلخیص معمولاً در تحلیل اکتشافی دادهها و تولید گزارش خودکار به کار برده میشوند.
مدلسازی وابستگی (تحلیل لینک)
شامل یافتن مدلی برای توصیف وابستگیهای معنی دار بین متغیرهاست. مدلهای وابستگی در دو سطح وجود دارند: سطح ساختاری و سطح کمّی. در سطح ساختاری، مدل از طریق رسم شکل مشخص میکند که کدام متغیرها به طور محلی به دیگری وابستهاند. در سطح کمّی، مدل قدرت وابستگیها را با مقیاس عددی مشخص میکند.
وابستگیها به صورت A->B نمایش داده میشوند که به A مقدم و به B موخر یا نتیجه گفته میشود. مثلاً اگر یک قانون به صورت زیر داشته باشیم:
” اگر افراد چکش بخرند، آنگاه آنها میخ خواهند خرید”
در این قانون مقدم، خرید چکش و نتیجه، خرید میخ میباشد.
در خوشهبندی بر خلاف طبقهبندی که هر داده به یک طبقه (کلاس) از پیش مشخص شده تخصیص مییابد هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند. لذا میتوان گفت خوشه بندی نوعی یادگیری بدون نظارت (هدایت نشده) است یعنی نوعی یادگیری است که به وسیلهی مشاهدات انجام میشود نه با مثالها.
خوشه بندی در انجام فعالیت داده کاوی در موارد زیر استفاده میشود:
تجزیه و تحلیل شباهت یا عدم شباهت: تحلیل اینکه کدام نقاط داده در یک نمونه به یکدیگر شبیه هستند.
تشخیص دادههای پرت: تشخیص دادههایی که با سایر دادهها تفاوت چشمگیری دارند.
کاهش بُعد (حجم): به عنوان پیش پردازش دادهها قبل از فعالیتهای داده کاوی، میتوان حجم یا بُعد دادهها را به وسیلهی تکنیکهای خوشه بندی، کاهش داد.
معیارهای ارزیابی الگوریتمهای خوشه بندی
برای ارزیابی و سنجش انواع الگوریتمهای خوشه بندی، معیارهای متعددی مطرح میشود:
1- امکان اعمال بر روی تعداد نمونههای زیاد
2- توانایی پردازش انواع متفاوت خصیصه
3- ادارهی دادههای بعد بالا
4- توانایی اداره کردن دادههای پویا
5- توانایی پردازش دادههای پرت و اغتشاش
6- کشف خوشهها با اشکال دلخواه
7- میزان وابستگی به پارامترهای ورودی
8- حساسیت به ترتیب رکوردهای ورودی
طبقه بندی روشهای خوشه بندی
خوشهبندی انحصاری و خوشهبندی باهمپوشی
در روش خوشهبندی انحصاری پس از خوشهبندی، هر داده دقیقأ به یک خوشه تعلق میگیرد مانند روش خوشهبندی K-Means. ولی در خوشهبندی باهمپوشی پس از خوشهبندی، به هر داده یک درجهی تعلق به ازای هر خوشه نسبت داده میشود. به عبارتی یک داده میتواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونهای از آن خوشهبندی فازی است.
خوشه بندی سلسله مراتبی و خوشه بندی مسطح
با توجه با اینکه روشهای خوشهبندی سلسله مراتبی اطلاعات بیشتر و دقیقتری تولید میکنند برای تحلیل دادههای با جزئیات پیشنهاد میشوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه دادههای بزرگ روشهای خوشهبندی مسطح پیشنهاد میشوند.
زیر مهارت 4 : الگوریتم Apriori
Apriori یک الگوریتم کلاسیک برای قوانین انجمنی است.
این الگوریتم به صورت تکراری مجموعه آیتم های تکراری(itrative) را در پایگاه داده ها مشخص می کند.هر تکرار 2 مرحله دارد: تولید کاندید، شماره و انتخاب کاندید. مجموعه آیتمی که شامل I نمونه از آیتم هاست را مجموعه آیتم i تایی می نامند.(i-itemset)
در تکرار i همه تکرار های مجموعه آیتم i تایی محاسبه می شوند.(شمرده می شوند)
قانون X=>Yدر مجموعه تراکنش های پایگا ه داده ها با اطمینان (Confidence) c برقرار است، اگر c% از تراکنش هایی که شامل X هستند، شامل Y هستند.
قانون X=>Yدر مجموعه تراکنش های پایگا ه داده ها دارای پشتیبان (Support) s است، اگر s% از تراکنش ها در پایگاه داده ها شامل XUY باشند.
زیر مهارت 4 : الگوریتم Apriori
Apriori یک الگوریتم کلاسیک برای قوانین انجمنی است.
این الگوریتم به صورت تکراری مجموعه آیتم های تکراری(itrative) را در پایگاه داده ها مشخص می کند.هر تکرار 2 مرحله دارد: تولید کاندید، شماره و انتخاب کاندید. مجموعه آیتمی که شامل I نمونه از آیتم هاست را مجموعه آیتم i تایی می نامند.(i-itemset)
در تکرار i همه تکرار های مجموعه آیتم i تایی محاسبه می شوند.(شمرده می شوند)
قانون X=>Yدر مجموعه تراکنش های پایگا ه داده ها با اطمینان (Confidence) c برقرار است، اگر c% از تراکنش هایی که شامل X هستند، شامل Y هستند.
قانون X=>Yدر مجموعه تراکنش های پایگا ه داده ها دارای پشتیبان (Support(s است، اگر s% از تراکنش ها در پایگاه داده ها شامل XUY باشند.
به عنوان مثال پایگاه داده زیر را در نظر بگیرید،فرض کنید حداقل مقدار پشتیبان s=50% باشد.
ITEMS |
TID |
ACD BCE ABCE BE |
001 002 003 004 |
در مرحله اول از اولین تکرار(تولید کاندید) همه آیتم ها به عنوان کاندید در نظر گرفته می شوند.بنابراین 5 مجموعه آیتم 1 تایی(1-items) تشکیل می شود.در مرحله دوم از اولین تکرار، 4 مجموعه از آیتم 1 تایی (1-items) به عنوان مجموعه L1 انتخاب می شوند، چرا که مقدار پشتیبانی آنها %50 یا بیشتر می باشد.
نتایج حاصل از تکرار الگوریتمApriori در تکرار اول در شکل زیر آمده است:
S[%] |
Counts |
Larg 2-itemsets L2 |
S[%] |
Counts |
1-items C1 |
1-itemset C1 |
||
50 |
2 |
{A} |
50 |
2 |
{A} |
{A} |
||
75 |
3 |
{C} |
75 |
3 |
{C} |
{C} |
||
25 |
1 |
{D} |
{D} |
|||||
75 |
3 |
{B} |
75 |
3 |
{B} |
{B} |
||
75 |
3 |
{E} |
75 |
3 |
{E} |
{E} |
در تکرار دوم برای تولید مجموعه های C2 وL2 از نتایج مرحله قبلی استفاده می شود.
همه ی زیر مجموعه های یک مجموعه آیتم بزرگ نیز باید شرط حداقل پشتیبان را برآورده کنند.الگوریتم Apriori برای تولید مجموعه کاندید C2 از L1*L2 استفاده می کند، که عملگر * به صورت زیر توصیف می گردد:
Lk * Lk ={ XUY where X,Y ɛ Lk ,|X∩Y=K-1 }
نتایج حاصل از اجرای عملگر* توسط الگوریتم Apriori در تکرار دوم در اسلاید بعدی آمده است.
S[%] |
Counts |
Larg 2-itemsets L2 |
S[%] |
Counts |
2-itemset |
2-itemset C2 |
||
{A,B} |
25 |
1 |
{A,B} |
{A,B} |
||||
50 |
2 |
{A,C} |
50 |
2 |
{A,C} |
{A,C} |
||
{A,E} |
25 |
1 |
{A,E} |
{A,E} |
||||
50 |
2 |
{B,C} |
50 |
2 |
{B,C} |
{B,C} |
||
75 |
3 |
{B,E} |
75 |
3 |
{B,E} |
{B,E} |
||
50 |
2 |
{C,E} |
50 |
2 |
{C,E} |
{C,E} |
مجموعه آیتم های 2 تایی که شرط حداقل پشتیبانی را برآورده می کنند، ملاحظه می فرمایید.به همین ترتیب در تکرار سوم ، مجموعه C3 از روی L2 توسط L2 * L2 تولید می شود. مجموعه آیتم های دو تایی که دارای عضو اول یکسان هستند، همان ابتدا انتخاب می شوند: {B,C}و {B,E} سپس الگوریتم بررسی می کند که آیا مجموعه {C,E} خودش یک مجموعه آیتم 2 تایی هست یا خیر، با توجه به شرط اینکه {C,E} خودش یک مجموعه آیتم 2 تایی هست، معلوم می شود که همه زیر مجموعه های {B,C,E} نیز شرط حداقل پشتیبان را فراهم می نمایند. بنابراین {B,C,E} یک کاندید یک کاندید 3-itemset است.Apriori سپس تمام تراکنش های پایگاه داده را بررسی می کند و L3 را بصورت ذیل تعریف می نماید:
S[%] |
Counts |
Larg 3-itemsets L3 |
S[%] |
Counts |
3-itemset C3 |
3- itemset C3 |
||
50 |
2 |
{B,C,E} |
50 |
2 |
{B,C,E} |
{B,C,E} |
الگوریتم K-Means
این الگوریتم یک متد ساده تکرار شونده است، و برای خوشه بندی مجموعه ای از داده ها ی در اختیار در تعداد مشخصی خوشه (K) که کاربر تعیین می کند کاربرد دارد.الگوریتمK_Means توسط محققین متعدد و به روش های مختلفی بیان شده است. الگوریتمK_Means بیشترین استفاده در عمل تقسیم بندی خوشه ها را دارد و الگوریتمی بسیار ساده، قابل فهم و بطور منطقی قابل مقیاس بندی است و می توان آن را به سادگی اصلاح کرد تا با سناریوهای مختلف مانند یادگیری شبه مشاوره یا داده های جاری سروکار داشته باشد. پیشرفت ها و کلیت های مداوم الگوریتم پایه، ارتباط مداوم آن را تضمین می کند و به تدریج بر تأثیر گزاری آن افزوده است.
این الگوریتم پارامتر k را به عنوان ورودی گرفته و مجموعهی n شیء را به k خوشه افراز میکند به طوری که سطح شباهت داخلی خوشهها بالا و سطح شباهت اشیاء بیرون خوشهها پایین باشد. شباهت هر خوشه نسبت به متوسط اشیاء آن خوشه -که مرکز خوشه نامیده میشود- سنجیده میشود.
گام های الگوریتم k-means
گام 1: انتخاب k نقطهی دلخواه به عنوان مراکز خوشههای ابتدایی به صورت تصادفی (بهتر است k نقطه از n نقطهی موجود انتخاب شود.)
گام 2: تخصیص هرشی به خوشهها با توجه به بیشترین شباهت آن به مراکز خوشهها.
گام 3: به روز کردن مراکز خوشهها به این معنی که برای هر خوشه، میانگین اشیاء آن خوشه، محاسبه میشود.
گام 4: بازگشت به قدم 2با توجه به مراکز جدید خوشهها، تا هنگامی که هیچ تغییری در خوشهها رخ ندهد. (در این حالت الگوریتم پایان یافته است)
ویژگیهای الگوریتم k-means
پیچیدگی محاسباتی الگوریتم: (O(tkn.
( n: تعداد کل اشیا، k: تعداد خوشهها، t : تعداد تکرارهای الگوریتم).
پارامتر ورودی: تعداد خوشهها (k) توسط کاربر باید تعیین شود و راه خاصی برای تعیین آن مشخص نشده است. (یک راه، امتحان k های مختلف و بررسی معیار مربع خطا برای هر k میباشد)
نوع دادهی ورودی: این الگوریتم با دادههای از نوع عددی، انجام پذیر است.
مقیاس پذیری: این الگوریتم برای پایگاه دادههای بزرگ، کارا نیست و نیاز به توسعه دارد.
مواجهه با اغتشاش: از مهمترین نقاط ضعف این روش، حساسیت در برابر اغتشاشات و نقاط پرت است زیرا در این روش از میانگین دادهها استفاده شده که به راحتی تحت تأثیر دادههای پرت قرار میگیرد.
ویژگیهای الگوریتم k-means
شکل خوشه: این الگوریتم هنگامی که خوشهها به صورت ابرهای فشرده هستند و این ابرها نیز خودشان از یکدیگر مجزا هستند، به خوبی عمل میکند لذا این روش تنها خوشههای کروی شکل را تشخیص داده و برای کشف خوشههایی با شکلهای پیچیده به خصوص غیر محدب، مناسب نیست.
این روش اغلب به یک بهینه محلی ختم میشود نه یک بهینهی سراسری.
رفع اشکالات الگوریتم k-means: برای رفع اشکالات الگوریتم k-means روشهایی توسعه یافته که در انتخاب k مرکز اولیه، محاسبهی عدم شباهت و استراتژیهای محاسبه مراکز خوشهها با یکدیگر متفاوتند. یکی از این تغییرات این است که ابتدا روی پایگاه داده، توسط الگوریتم تجمیع سلسله مراتبی، تعداد خوشههای مطلوب را پیدا کرده و سپس از خوشههای بدست آمده، به عنوان مرحله اول الگوریتم k-means استفاده میشود.
یکی دیگر از روشهای مشابه k-means روش k-modes میباشد. که توسعه یافتهی k-means برای استفاده از دادههای طبقهای است و به جای استفاده از مراکز خوشهها، از مدهای خوشهها (روش مبتنی بر فراوانی) استفاده میکند. لذا از یک رابطهی اندازه گیری عدم شباهت جدید برای دادههای اسمی یا طبقهای استفاده میکند. از مزایای روش فوق، جبران نقص حساسیت نسبت به دادههای دور از مرکز میباشد زیرا میانه (مد) از مقادیر بزرگ تأثیر نمیپذیرد. اما ایراد روش این است که بعضاً نماینده خوشهها از میان اشیا انتخاب نمیشود.
خلاصه مهارت
فنون داده کاوی، گروه نامتجانسی از علوم مختلف را شکل میدهند هر تکنیکی که بتواند بینش جدیدی از دادهها را استخراج کند میتواند داده کاوی به حساب آید. به طور خلاصه، داده کاوی پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی، الگو شناسی، فراگیری ماشین و بازنمایی بصری داده میباشد. میتوان گفت در داده کاوی، تئوریهای پایگاه دادهها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم میآمیزند تا زمینه کاربردی فراهم شود.
داده کاوی یکی از پیشرفت های اخیر در صنعت مدیریت داده ها است.در اصل داده کاوی مجموعه ای از فنون می باشد که به شخص این امکان را می دهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی درانبوه داده های مخفی یا پنهان دست پیدا کند.برای داده کاوی الگوریتم ها و روش های بسیاری معرفی شده است ولی موضوع مورد نظر انتخاب تعدادی از این الگوریتم ها و توضیح مختصر در مورد آنها می باشد.
کاربرد داده کاوی در بازاریابی
کاربرد داده کاوی در بانکداری
کاربرد داده کاوی در بیمه
کاربرد داده کاوی در سیستم های تشخیص نفوذ در شبکه
کاربرد داده کاوی در پیش بینی سهام
کاربرد داده کاوی در فروشگاه های زنجیره ای
کاربرد داده کاوی در خدمات الکترونیکی دولت
کاربرد داده کاوی در پزشکی
کاربرد داده کاوی در مخابرات
کاربرد داده کاوی در صنعت
کاربرد داده کاوی در خدمات
کاربرد داده کاوی در امور دولتی
کاربرد داده کاوی در کشف جرم و پیش بینی آن
کاربرد داده کاوی در شهرداری
کاربرد داده کاوی در آموزش
کاربرد داده کاوی در مدیریت شهری و شهرداری
کاربرد داده کاوی در مقوله فرهنگی
کاربرد داده کاوی در صادارت و واردات
کاربرد داده کاوی در فروش
کاربرد داده کاوی در حمل و نقل
کاربرد داده کاوی در امور انتظامی
کاربرد داده کاوی در امور خدماتی شهری
کاربرد داده کاوی در امور مالیاتی و پیش بینی تخلف
کاربرد داده کاوی در شرکت های حمل و نقل مسافربری
کاربرد داده کاوی در ورزش
کاربرد داده کاوی در مدیریت ارتباط با مشتری
کاربرد داده کاوی در ارزیابی تامین کنندگان
کاربرد داده کاوی در هواشناسی
Ad revenue forecasting
Churn (turnover) management
Claims processing
Credit risk analysis
Cross-marketing
Customer profiling
Customer retention
Electronic commerce
Exception reports
Food-service menu analysis
Fraud detection
Government policy setting
Hiring profiles
Market basket analysis
Medical management
Member enrollment
New product development
Pharmaceutical research
Process control
Quality control
Shelf management/store management
Student recruiting and retention
Targeted marketing
Warranty analysis