وب کاوی چیست؟
یکی از مهم ترین رسانه های اطلاعاتی و ارتباطی که در حال حاضر به فراوانی مورد استفاده قرار می گیرد، شبکه جهانی وب است. محیط وب ویژگی های گوناگونی دارد که از جمله برجسته ترین انها باید به گستردگی، گوناگونی منابع و پویایی آن اشاره کرد. با رشد سریع وب هر یک از این ویژگی ها جنبه های گوناگون و بیشتری نیز پیدا می کنند. اما آنچه اهمیت فوق العاده ای دارد، دریافتن قوانین حاکم بر این رسانه اساسا ارتباطی است. مواردی از این قبیل که محیط وب به لحاظ محتوایی، ساختاری و کاربری از چه الگوهایی پیروی می کند، چگونه میتوان محتوای منابع اطلاعاتی موجود در وب را تحلیل کرد، آنگونه که علاوه بر تاثیرگذاری بر الگوریتم های پیش بینی شده برای بازیابی منابع و نیز ساختاردهی به آنها، بتواند به کاربر در دستیابی به منابع اطلاعاتی مرتبط، دسته بندی شده و کارآمد کمک کند، چگونه میتوان ساختار ارتباطی بین منابع اطلاعاتی مختلف را شناسایی و حتی ترسیم کرد، و اینکه چگونه میتوان نوع کاربرد وب را زا سوی کاربران شناسایی کرده و در خدمات و سیستم های آتی گنجاند؟
هر نوع پاسخی که به این پرسش ها داده شود، بر منافع دارندگان سایت ها و نیز کاربران آنها و در نهایت بر کیفیت ارائه خدمات در وب تاثیر خواهد گذاشت، برای یافتن پاسخ این پرسش ها باید اطلاعات موجود در وب را بررسی و بازبینی کرد و براساس آن درک درستی از ویژگی های محتوایی، ساختاری و کاربری این محیط به دست آورد، چیزی که در ادبیات پژوهشی به وب کاوی مشهور شده است. این موضوع البته خود به بحث گسترده تری به نام داده کاوی که خود بخشی از فرایند کشف دانش است، ارتباط دارد. موضوع داده کاوی حدود چندین دهه قدمت دارد، یعنی از زمانی که سیستم های اطلاعاتی به وجود آمده اند، وجود دارند. اما با ظهور وب این موضوع گسترش بیشتری یافت و به حوزه های کوچک تری از جمله وب کاوی تقسیم شد. از سوی دیگر، وب ، مفاهیم سنتی بازیابی اطلاعات و فنون مربوط به آن را به چالش کشانده است. به عبارت دیگرف خصوصیات مدارک موجود در وب، سبک و میزان ارائه مدارک در وب و از همه مهم تر پویایی وب، الگوریتم های بازیابی اطلاعات را که بر تطابق کلید واژه ای و دسته بندی در فضای برداری مبتنی بود، ناکارآمد ساخته است.
در نتیجه عواملی نظیر آنچه در پیش آمد، متخصصان روش های نوینی را در پیش گرفته اند تا بتوانند کمبودهای موجود در بازیابی اطلاعات را مرتفع ساخته و الگوهای ساختاری، محتوایی و کاربری موجود در وب را به خوبی نشان دهند. در نتیجه چنین بحث هایی وب کاوی به عنوان موضوعی مستقل و قابل پژوهش در دهه اخیر مطرح شده است. اگر چه متخصصانی از حوزه رایانه پیشتاز چنین بحث هایی بوده اند، اما به دلیل گستردگی استفاده از وب در امور مختلف تجاری، ارتباطی و اطلاع رسانی و مانند ان وب کاوی به بحث متخصصان سایر حوزه ها نیز تبدیل شده است.
وب کاوی که اولین بار از سوی اتزیونی به کار رفته، چنین تعریف شده است : کاربرد فنون داده کاوی برای کشف و استخراج خودکار اطلاعات از منابع و خدمات وب .
با توجه به گستردگی منابع و خدمات وب، وب کاوی خود به سه حوزه تقریبا جداگانه تقسیم شده است: محتوا کاوی وب ، ساختار کاوی وب، و کاربرد کاوی وب .
در هر یک از این حوزه ها موضوعات متفاوتی مورد توجه قرار می گیرد. هدف محتوا کاوی، کشف اطلاعات مفید از مدارک و مطالب موجود در وب است. اگر چه مطالب موجود در مدارک وب بسیار متنوع هستند مانند متن، تصویر، صدا، ابرداده و پیوندهای فرامتنی، در محتواکاوی ساختار منابع و نحوه کاربرد آنها کمتر مورد توجه قرار می گیرد. در ساختار کاوی ساختار موجود بین مدارک و زنجیره ارتباطی آنها از طریق تحلیل پیوندهای فرامتنی مطالعه می شود. در کاربرد کاوی نوع کاربرد مدارک و به طور کلی نحوه استفاده از وب از سوی کاربران بررسی شده و الگوی استفاده مشخص می گردد. این امر با مطالعه گزارش های تولید شده از سوی کاربران که در انواع سرویس دهنده ها ذخیره می گردد، صورت می گیرد. در حالی که در محتوا کاوی و ساختار کاوی اطلاعات دسته اول مورد استفاده قرار می گیرد. در کاربرد کاوی اطلاعات دسته دوم یعنی گزارش های موجود در سرویس دهنده ها مورد استفاده پژوهشگران قرار می گیرد. کاربرد کاوی کمی دیرتر از دو روش دیگر مورد توجه قرار گرفته است. هر چه وب در مسیر تبدیل شدن به رسانه ای تجاریف ارتباطی و آموزشی به پیش می رود، مطالعه دقیق نوع کاربرد آن دارای اهمیت بیشتری می شود. البته لازم به یادآوری است که نمیتوان مرز روشنی بین این سه دسته از پژوهش ها قرار داد و در پژوهش های مختلف میتوان با ترکیب انها به نتایج معتبرتری دست یافت.
وب کاوی اشاره به کلیه فعالیت های داده کاوی و فنون وابسته دارد که برای کشف خودکار و استخراج دانش از اسناد و خدمات وب به کار می روند. در پس منابع عظیم اطلاعاتی وبگاه ها اطلاعات ساختاری و داده های موجود در وب و سرورهای آن دانشی نهفته است که دسترسی به آن در حالت عادی کاری دشوار است. ضمن آنکه دانش برای کاربران، مدیران و اداره کنندگان محیط وب بسیار مفید است. وب کاوی و فنون وابسته به آن امکان کشف و شناسایی این دانش پنهان را میسر ساخته اند. برحسب انواع کارکردها، وب کاوی شامل سه روش است که عبارتند از : کاوش محتوای وب، کاوش ساختار وب ، کاوش کاربرد وب.
در راستای انجام امور مختلف از تصمیم گیری های ساده زندگی تا تصمیم گیری های پیچیده مدیریتی یا انجام پژوهش های علمی از پژوهش های مدرسه ای تا پژوهش های بزرگ علمی – صنعتی، کسب اطلاعات مناسب و مفید از ضروریات است. یکی از منابع اطلاعاتی مهمی که همه، از جست و جوگران ساده اطلاعات تا پژوهشگران برجسته از آن استفاده و برای کسب اطلاعات به آن متکی هستند، شبکه جهانی وب است. مرورگرهای وب دسترسی به هزاران صفحه اطلاعاتی را برای کاوشگران فراهم می اورند. با توجه به اینکه موتورهای جست و جو چندین میلیارد صفحه اطلاعاتی را در قالب های مختلف ایندکس کرده اند، یافتن اطلاعات مورد نظر و مناسب با آنچه یک کاوشگر میخواهد، کاری دشوار است. طبیعتا تمام افرادی که برای جست و جو اطلاعات از موتورهای کاوش وب استفاده می کنند با حجم زیادی اطلاعات بازیابی شده روبرو می شوند، که هم ممکن است تعداد زیادی از آنها بی ربط باشند و هم اینکه کاوشگران عملا حوصله و وقت بررسی کلیه صفحات بازیابی شده را نداشته باشند که این امر سبب از دست رفتن برخی اطلاعات مهم می شود، چون هیچ تصمینی نیست که صفحات پایانی شامل اطلاعات مهم نباشد. نکته مهم دیگر این است که وب نه تنها داده های زیادی در اختیار کاربران قرار می دهد بلکه در پس هر داده یک سری اطلاعات و دانش نهفته است. این اطلاعات و دانش هم در بحث محتوای داده ها مطرح است و هم در رفتارها و روش هایی که کاربران گذشته برای دستیابی به آنها به کار برده اند. کشف و استفاده از این اطلاعات و روابط کمک بزرگ یدر یافتن منابع مورد نظر در اینترنت است. با در نظر گرفتن اهمیت منابع اطلاعاتی موجود در اینترنت برای کسب اطلاعات در عصر حاضر، و ارائه بهترین و مناسب ترین اطلاعات و صفحات مورد درخواست کاربران، توجه اکثر کارشناسان و مهندسان وب به توسعه روش های خودکار و هوشمند کاوش در وب جلب شده است، به این ترتیب مبحث وب کاوی مطرح و مورد توجه قرار گرفت.
وب کاوی
وب کاوی اشاره به کلیه فعالیت های داده کاوی و فنون وابسته دارد که برای کشف خودکار و استخراج دانش از اسناد و خدمات وب به کار می روند. اطلاعات بسیار زیاد و ناهمگونی در محیط وب وجود دارد که سبب می شود کسب دانش موجود در محتوای صفحات وب مشکل تر شود. بنابراین در چنین محیطی به کار گیری ابزارها و فنون داده کاوی برای کشف اطلاعات و دانش مرتبط ضروری است.
نکته مهم در مورد منابع موجود در وب، پراکنده و نامتجانس بودن اطلاعات قابل دسترس در وب است. حدود 80% این داده ها بدون ساختارند، مانند صفحات اچ. تی . ام . ال ، پست الکترونیک، فایل های صفحه گسترده، فراپیوندها و فیال های صوتی و تصویری که همگی به سختی تفسیر و تحلیل می شوند و تنها 20% منابع در غالب پایگاه داده و دیگر منابع ساختار یافته در محیط وب قرار دارند که براحتی قابل تفسیر و جست و جو هستند. از این رو وب کاوی به کاوش حجم بالایی از اطلعات به صورت ابراتصال می پردازد و با کاربر به صورت تعاملی در ارتباط است. برخی ملزومات وب کاوی عبارتند از :
- نیاز به کارهای مبتنی بر متن و درخواست های غیر دقیق
- نیاز به خلاصه سازی و قیاس
- نیاز به شخصی سازی و یادگیری
وجود انواع داده های ساختار نیافته، نیازهای متعدد و متفاوت کاربران و کسب اطلاعات مناسب، مستلزم ایجاد نظامی هشومند است که در راستای کسب دانش از منابع وب عمل کند. برای نیل به این اهداف میتوان وب کاوی را به طور اجمالی، کشف و تحلیل منابع مفید از شبکه جهانی وب دانست. شاید ساده ترین تعریف وب کاوی، به کارگیری روش ها و فنون داده کاوی در محبط وب باشد.
عبارت داده کاوی مترادف با یکی از عبارت های استخراج دانش، برداشت اطلاعات، وارسی داده ها و حتی لایروبی داده هاست که در حقیقت کشف دانش در پایگاه داده ها را توصیف می کند. بنابراین ایده ای که مبنای داده کاوی است یک فرایند با اهمیت از شناخت الگوهای بالقوه مفید تازه و در نهایت قابل درک در داده هاست. داده کاوی یا به تعبیر دیگر کشف دانش در پایگاه داده ها، استخراج غیربدیهی اطلاعات بالقوه مفید از روی داده هایی است که قبلا ناشناخته مانده اند. این مطلب برخی از روش های فنی مانند خوشه بندی، خلاصه سازی داده ها، فراگیری قاعده های رده بندی، یافتن ارتباط شبکه ها، تحلیل تغییرات و کشف بی قاعدگی را شامل می شود.
تاریخچه وب کاوی
اصطلاح وب کاوی اولین بار در سال 1996 توسط اتزیونی در مقاله ای با عنوان ( شبکه جهان گستر، باتلاق یا معدن طلا ) مطرح شد. در این مقاله وب کاوی به عنوان یک شیوه وظیفه مدار توصیف شده است. در سال 1997 کولی، مباشرو سیروستا از دیدگاه داده محور به تعریف کامل وب کاوی در مقاله ای با عنوان ( وب کاوی: کشف اطلاعات و الگوها در شبکه جهان گستر ) در نهمین کنفرانس بین المللی مهندسان برق و الکترونیک ( IEEE ) در زمینه ابزارهای هوش مصنوعی پرداختند. اولین میزگرد تخصصی در این حوزه نیز در همین کنفرانس توسط سیروستا و مباشر با عنوان ( وب کاوی: توهم یا واقعیت ) برگزار شد. هر ساله کارگاه های مختلفی در زمینه وب کاوی از سال 1999 توسط انجمن های ماشین های کامپیوتری و از سال 2001 توسط جامعه ریاضیات صنعتی و کاربردی برگزار می گردد.
انواع وب کاوی
وب کاوی ممکن است به سه شیوه انجام گیرد، کاوش محتوای وب، کاوش ساختار وب و کاوش کاربری وب، که در ادامه به تعریف هر یک می پردازیم. در برخی متون، وب کاوی دارای روش چهارمی هم هست که کاوش پرونده کاربران وب نامیده می شود.
کاوش پرونده کاربران وب به کشف پرونده کاربران بر پایه رفتارهای انها در وب می پردازد که بیشتر کاربرد تجاری در شناسایی مشتریان دارد.
کاوش محتوای وب
کشف دانش از محتوا، فایل ها و پرونده های موجود در وب که شامل صوت، تصویر، متن و دیگر انواع چند رسانه ای می شود یا کشف اطلاعات مفید از مستندات و داده های ساختار یافته و نیمه ساختار یافته و غیرساختاریافته وب را کاوش محتوای وب می نامند. هر چند در یک سند وب ممکن است انواع مختلفی از داده ها مانند متن، فایل های صوتی و تصویری و … وجود داشته باشد، همه اینها در خدمت ارائه یک مفهوم و محتوای کلی از آن سند است. در این روش اسناد وب با فرمت های مختلف مانند HTML و XML و … بر اساس محتوایشان جستجو شده و روش های سنتی جست و جو و دسته بندی نتایج بهتری را به عنوان جواب مناسب ارائه می دهد.
کاوش محتوای وب چیزی بیش از گزینش اسناد در وب است. کاوش محتوای وب با استخراج اطلاعات و کشف دانش از طریق مجموعه ای از اسناد وب نیز مرتبط است. آنچه مربوط به کاوش محتوای وب است تلاش لازم برای سازماندهی داده های نیمه ساختار یافته در وب به مجموعه ای ساختار یافته از منابع است که منجر به مکانیسم پرس و جوی موثرتر و مجموعه یا عصاره اطلاعات مفیدتر می شود. این تلاش ویژگی اصلی وب مفهومی است. وب مفهومی بر پایه هستی شناسی است که فراداده های مربوط به محتوای صفحات وبگاه ها را برای موتورهای جست و جو می سازد.
هم اکنون کاوش محتوای وب به دو صورت انجام می گیرد، عامل های وب و پایگاه داده. عامل های وب ابزاری هوشمند برای بازیابی اطلاعات هستند که غالبا با فنون مورد استفاده در وب کاوی توسعه یافته اند و بدین ترتیب داده های موجود در وب را به لحاظ ساختاری مدیریت می کنند. تفاوت عمده بین عامل های وب و موتورهای جست و جو در این است که عامل های وب همیشه توسط یک دانش خاص پشتیبانی می شوند و لذا در مورد موضوعات خاص میتوانند جست و جوهای دقیق و موثرتری داشته باشند، همچنین نتایج حاصل شده را به خوبی دسته بندی می کنند.
در حالت پایگاه داده ای، داده های بدون ساختار و ناهمگون وب به داده های ساختار یافته تغییر شکل می دهند تا بتوان آنها را به راحتی در پایگاه داده ذخیره کرد و برای انها دستورات پرس و جو نوشت به طوری که میتوان بسیاری از مکانیزم های استاندارد دستکاری داده ها و فنون داده کاوی را روی پایگاه داده مذکور به کار برد. حتی میتوان پایگاه داده چند لایه هم داشت که در آن هر داده در سطح بالا از دانش استخراج شده در لایه های پایین تر حاصل شده باشد.
امروزه کاوش محتوای وب بیشتر به شکل متن کاوی در وب صورت می گیرد ولی پیشرفت های اخیر چندرسانه ای کاوی یا دسترسی وسیع به تصاویر، صوت ها ، ویدیوها و غیره را نیز میسر کرده است.تصاویر اهمیت زیادی برای کاربران وب دارند. با توجه به پیشرفت های سریع در فناوری های عکاسی و فیلمبرداری دیجیتالی و رشد و توسعه کارها و نرم افزارهای گرافیکی در کنار توانمندی های اینترنت بر اهمیت استفاده از تصاویر افزوده شده است، ولی هنوز به دست آوردن آنچه مطلوب و مد نظر کاربر است با مشکل مواجه است، چون چند رسانه ای هنوز کاملا با توصیف های معناشناختی تعریف نمی شوند.
حجم زیادی از داده ها امروزه به شکل تصاویر ذخیره می شوند. تصاویر ماهواره ای، نقشه برداری و عکس های دیجیتالی نمونه هایی از این نوع داده ها هستند. شناسایی شباهت ها، الگوها، وابستگی ها و توالی تصاویر وظیفه تصویرکاوی است. مقایسه عکس های ساختمانهای یک شهر و یافتن الگوهای مشترک در این ساختمانها در شناسایی الگوی معماری آن شهر موثر است.
کاویدن تصاویر به دو صورت انجام می شود:
- براساس مشخصات متنی مانند نام، حجم و نوع که مشخصات متنی هستند.
- براساس محتوای درون عکس. این خصوصیات محتوایی شامل رنگ، روشنایی و تیرگی رنگ، شدت و ضعف رنگ، بافت عکس، شکل هندسی عناصر تصویر، موقعیت مکانی عناصر تصویر و اندازه آنها و … است. یک مورد پرکاربرد تصویرکاوی، جست و جوی تصاویر نه براساس نام آنها بلکه براساس محتوای انها است. یک عکس به عنوان عکس مورد جست و جو به موتور جستجوگر داده شده و عکس های مشابهی از لحاظ رنگ، شکل (هم بندی )، جهت گیری و موقعیت آن در صفحه، از داده های تصویری استخراج می شود. برای پردازش تصویر، از مدلی برای نمایش ان استفاده می کنند، مثلا برای پردازش رنگ ها، از ماتریس های چند بعدی برای نشان دادن خصوصیصات هر پیکسل استفاده می کنند و برای پردازش شکل ها، تلاش می کنند شکل هندسی عناصر را توسط گراف بیان کنند، آنگاه میتوانند با فنون نظریه گراف ها، شباهت ها را تشخیص دهند.
اکنون بیش از 80 درصد از دانش ما به صورت متن، مستندات و دیگر صورت های رسانه ای نظیر ویدیو و صدا نگهداری می شود اگر از منظر علوم کامپیوتری به این مستندات نگاه کنیم همه آنها به طبیعتی غیرساختاریافته وابسته اند. فرد برای دریافت دانش از اطلاعات یک متن، بایستی ابتدا آن را درک کرده و سپس پردازش کند تا بفهمد چه معانی و مفاهیمی در آن موجود است، چه ارتباطی میان مفاهیم وجود دارد و از میان این مفاهیم کدام جدید است و کدام قدیمی. با این حال، در این عصر فناوری هر چیزی باید بتواند خودکار انجام شود حتی اگر این کار درک معنی متن باشد. متن کاوی، کاوش داده های متنی، و عبارت معروف کشف دانش، از نامهای بیشتر مورد قبول در این زمینه هستند. سه روش اساسی در متن کاوی وجود دارد: بازیابی اطلاعات. استخراج اطلاعات و کشف دانش در متن. بازیابی، استخراج و کشف خودکار و هوشمند داده های متنی و کشف دانش در متون از طریق مراحل و روشهای مختلف مانند بازیابی، پیش پردازش و استخراج، کشف شباهت ها و تفاوت ها، طبقه بندی ، خوشه بندی و غیره صورت می گیرد.
علاوه بر موارد مذکور، متن کاوی دارای کاربردهایی نیز به شرح زیر است:
- جست و جو و بازیابی
- گروه بندی ( دسته بندی بدون ظنارت ) و طبقه بندی ( دسته بندی با نظارت )
- خلاصه سازی
- استخراج روابط
- یافتن و تحلیل ترندها
- برچسب زدن نحوی
- ساخت اتوماتیک آنتولوژی و تزاروس
- ….
کاوش ساختار وب
کاوش ساختار وب به استخراج مفید اطلاعات از ساختار یک وبگاه می پردازد. منظور از ساختار وب، ساختار درون اسناد و ساختار بین اسناد درون یک سایت است. ساختار درون اسنادی یک ساختار سلسله مراتبی از پیوندهایی است که درون همان صفحه قرار دارند و کلیک بر روی هر پیوند باعث جا به جایی درون همان صفحه می شود.
کاوش ساختار وب بیشتر بر روی تحلیل پیوندهای وب متمرکز است. در این شیوه وب به صورت یک گراف به نمایش در می اید که در این گراف گره ها صفحات وب را نمایش می دهند و بال ها هم نمایش دهنده پیوندهای بین صفحات است. کاوش ساختار وب میتواند توسط موتورهای جست و جو برای طبقه بندی ارتباط بین سیاتها و همچنین طبقه بندی آنها بر پایه میزان شباهت و روابط شان به کار گرفته شود. نظام ها، شخصی سازی، و توصیه براساس فراپیوندها در بحث کاوش ساختار وب نیز مطالعه می شوند. کاوش ساختار وب میتواند به سایتها براساس میزان اشاره انها در یک مجموعه بزرگ از سایتها اعتبار بخشند و آنها را کاندید خوبی برای ارائه اطلاعات مناسب کند.
دو الگوریتم اساسی به کار رفته در این شیوه عبارتند از هیتس و طبقه بندی صفحات که توسط گوگل مورد استفاده قرار می گیرد. الگوریتم هیتس اولین بار در سال 1998 معرفی شد. ایده اصلی این الگوریتم، شناسایی صفحات وب با ساتفاده از دسته بندی اسناد وب به صفحات معتبر و صفحات کانون و براساس ساختار پیوندهای موجود بین انها است. صفحات وبی را که به مجموعه ای از سایتهای شاخص مربوط به یک موضوع عمومی وصل می شوند تحت عنوان صفحات کانون می شناسند و صفحاتی که موضوعات گسترده ای را تحت پوشش قرار می دهند و توسط صفحات کانون به هم وصل می شوند صفحات معتبر می نامند. یک تعریف برای صفحات کانون خوب و معتبر خوب وجود دارد. یک صفحهع کانون خوب صفحه ای است به تعداد زیادی از صفحات معتبر اشاره دارد. در حالی که یک صفحه معتبر خوب صفحه ای است که تحت شااره تعداد زیادی صفحات کانون خوب باشد.
الگوریتم Hits بین صفحات معتبر مربوطه و صفحات کانون مربوط به هم ارتباطات توانمند ایجاد می کند. اگر موضوع مورد جستجو خیلی خاص باشد در آنص ورت صفحات معتبر کافی وجود نخواهد داشت و نتیجه جست و جو، به موضوعات کلی تر رجوع می کند. الگوریتم طبقه بندی صفحات، الگوریتمی است که سعی دارد اهمیت صفحات را براساس ساختار فراپیوندی بینشان مشخص کند که این الگوریتم توسط موتور جستجوی گوگل استفاده می شود . در این الگوریتم نتایج جست و جو براساس درجه اهمیت صفحات مرتب می شوند. در این الگوریتم فرض بر این است صفحاتی که دارای پیوندهای بیشتر، اهمیت بیشتری دارند. این الگوریتم فقط براساس ساختار گراف وب و بدون در نظر گرفتن محتوای صفحات، آنها را از لحاظ اهمیت درجه بندی و دسته بندی می کند.
کاوش کاربری وب
کاوش کاربری وب روی یافتن الگوهای رفتاری راهبردی تمرکز دارد که کاربران در دیدن صفحات وب استفاده می کنند. این الگو ها در صورت پاسخ به این سوالات میتوانند مهم باشند:
- چقدر وبگاه مان در ارائه اطلاعات موثر است؟
- کاربران چگونه ساختار سایت را ملاحظه می کنند؟
- آیا میتوانیم مشاهده بعدی کاربر را پیش بینی کنیم؟
- آیا میتوانیم سایت مان را بر مبنای نیازهای کاربر بسازیم؟
- آیا میتوانیم رضایت کاربر را افزایش دهیم؟
- آیا میتوانیم گروه های خاصی از کاربران را هدف قرار داده و محتوای وب را برای آنها شخصی سازی کنیم؟
پاسخ به این سوالات میتواند از طریق تحلیل داده ها در فایل های ثبت وقایع ذخیره شده در سرورهای وب صورت پذیرد. برای اداره کنندگان وب، کاوش کاربری وب به یک وظیفه ضروری تبدیل شده تا اطلاعات معنی داری را در مورد کاربران و الگوهای استفاده انها به دست اورده و در بهبود کیفیت ارائه خدمات و اطلاعات در وبگاه خود به کار گیرند.
کاوش کاربری وب به منظور استخراج الگوهای کاربردی درست و مناسب از داده های ثانویه استفاده می شود که خود براساس تعامل با کاربران هنگام گشت زنی و سیر در سایت های مختلف وب به دست می آید. این الگوهای کاربردی بر مبنای گشت زنی کاربران در وب مشخص می شود کاوش براساس کاربری دارای کاربردهای زیادی است، مانند یافتن مشتری های بالقوه برای تجارت الکترونیکی، بالا بردن کیفیت ساختار وب به مظنور استفاده بهتر کاربران از اطلاعات موجود در وب و ….
روش های کاوش کاربری وب در دو دسته عمده قرار می گیرند: کاوش الگوهای دسترسی عمومی و پیگیری کاربردهای خاص. کاوش براساس دسترسی عمومی براساس همه فیال های ثبت وقایع در دسترس در یک وبگاه عمل می کند. نتایج حاصله بیشتر نمایش دهنده کیفیت ان وبگاه است و کمتر به رفتارهای فردی و خاص هر سایت توجه دارد، اما در پیگیری کاربردهای خاص ، تمرکز اساسی کاوش بر روی درک و فهمیدن چگونگی سیر و حرکت کاربران در سایت است و چندان توجهی به ساختار آن سایت ندارد. اطلاعات موجود در پرونده های کاربران در این شیوه بسیار مورد توجه است و غالبا مورد تحلیل واقع می شود. کل فرایند کاوش کاربری وب به سه فاز پیش پردازشف کشف الگوها و تحلیل الگوها تقسیم می شود.
معمولا کاوش کاربری با فایلهای ثبت وقایع سرور یا فایلهای HTML سروکار دارد. در فاز پیش پردازش فایلهای ثبت وقایع بر مبنای جلسات کاربران تقسیم و دسته بندی و تبدیل به فایلهای تحت عنوان فایلهای تعاملی می شوند که خلاصه مذاکرات در آنها قرار دارد. در فاز کشف الگو فنون مختلف داده کاوی مثل کاوش قوانین وابستگی، کاوش الگوی ترتیبی یا خوشه بندی به کار برده می شود تا الگوهای جالب و مورد نظر یافت شوند.
با بکار بردن کاوش قوانین وابستگی تاکید و تمرکز اصلی بر روی صفحاتی است که متناوبا دیده می شوند به طوری که با این شیوه طراحان وب میتوانند ساختار وب را به گونه ای اصلاح کنند تا دسترسی به این صفحات ساده تر باشد. با استفاده از کاوش الگوهای ترتیبی میتوان الگوی گشت زنی کاربران متفاوت را یافت و با استفاده از خوشه بندی میتوان سرویس های وب خصوصی شده و سفارشی برای گروه های مختلف کاربران فراهم کرد، و در نهایت گام آخر فرایند، یعنی تحلیل الگوها به منظور تحلیل و ارزیابی سودمندی و کارآیی دانش حاصله از گام های پیشین به کار می رود. برای طراحی وبگاه های کاراتر، طراحان باید نیازهای کاربران خود رابدانند، لذا تحلیل رفتار کاربران بخش مهمی از طراحی به حساب می آید.
کاوش طرح های پیمایشی وب یعنی کشف الگوهای دسترسی بیشتر کاربران که از طریق فایلهای ثبت وقایع در وب سرورها قابل دسترسی هستند. این طرح ها نه تنها برای بهبود طراحی وبگاه ها مورد استفاده قرار می گیرند، همچنین در اتخاذ تصمیمات بهتر در جریان تغییرات بازار به تصمیم گیرندگان کمک کنند، مثلا اینکه مدیران سایت در زمان های مختلف تبلیغات را در کجای صفحات خود بگذارند و با بهره گیری از این طرح ها برای طبقه بندی مشتریان و یا تحلیل رفتار های انان.
با توجه به اینکه رفتار کاربران در زمان های مختلف تغییر می کند باید الگوهای کشف شده از طریق وب کاوی روزامد شوند و این امر مستلزم این است که رفتار کاربران جدید به الگوها اضافه شود. برای اینکه الگوهای کشف شده توسط وب کاوی بیانگر مسائل روز باشند باید در زمان های خاص اطلاعات رفتاری کاربران جدید برای ارائه الگوهای روزآمد، اضافه شوند. برای اینکه از اضافه بار در سرورها کاسته شود باید فایل های رفتاری مربوط به کاربران قدیمی از پایگاه داده سرورها حذف شوند و اطلاعات رفتاری کاربران جدید اضافه شوند، در غیر این صورت الگوهای کشف شده از طریق فنون وب کاوی بیانگر دقیق و درستی از رفتارهای کاربران نیست. به فرایندی که در بالا اشاره شد اصطلاحا وب کاوی فزاینده می گویند.
فرایند وب کاوی برای کشف دانش
کشف دانش از متون موجود در وب از وظایف مهم وب کاوی محسوب می شود و فرایندی را شامل می شود که در ادامه به آن پرداخته شده است:
- خزیدن : در وب هیچ فهرست مدونی برای URL ها نیست. تنها راه، اسکن URL ها و مرتب کردن انها براساس معیارهای خاص است، خزنده های وب این کار را انجام می دهند و براساس خواسته های کاربر انواع مختلفی از اسناد در وب را برای وب فراهم می کند.
- پیش پردازش : در این مرحله اسناد دریافت شده پاکسازی و سپس برای تحلیل های آتی استاندارد می شوند. در مرحله پاکسازی تمام داده های غیرضروری مانند برچسب های اضافی و عناوین حذف می شوند. سپس در مرحله استانداردسازی اسناد براساس استانداردهای مورد نظر نظام کشف دانش مانند XML استاندارد می شوند.
- استخراج اطلاعات : این فاز شامل عملکردهایی است که اطلاعات متنی را به بردارهای عددی تبدیل می کند. اولین قدم در این فاز بهره گیری از پردازش زبان طبیعی برای بدست آوردن یک شکل میانی مناسب برای مرحله بعدی یعنی استخراج ویژگی هاست. در مرحله استخراج ویژگی ها، واقعیات و روابط در متن تعیین می شوند. استخراج نام های اشخاص، مکان ها، سازمانها و بهره گیری از فرهنگ ها برای مشخص کردن مفاهیم واژه ها و کشف الگوهای زبانی برای یافتن و کشف روابط در متن در این مرحله صورت می گیرد. این مرحله به بازیابی نمایه ای و تسهیل انجام دیگر مراحل کمک می کند.
- بازیابی اطلاعات : این فاز شامل دسترس پذیری و ساماندهی موارد اطلاعاتی گرفته شده از وب می شود. این مرحله در کنار دیگر مراحل قرار داردو نه در ادامه مراحل گذشته. مراحل بازیابی اطلاعات عبارتند از : * نمایه سازی : در این بخش حجم متن یک سند با ایجاد و مدیریت کلید واژه ها کاهش می یابد. ایجاد این کلید واژه ها براساس پارامترهای مشخصی صورت می گیرد. * جستجو : در این قسمت در مجموعه اسناد داخلی و اسناد موجود در وب براساس نمایه ها و کلید واژه ها جستجو صورت می گیرد. در این بخش میتوان از انواع انتخابهای موجود برای جستجو بهره برد مانند عملگرهای بولی، مجاورت ها، جایگزین ها، جستجو های فازی و مفهومی. نتیجه حاصل از این بخش میتواند شامل لیستی از URL ها باشد که باید به فاز خزیدن یا کاوش فرستاده شوند.
- متن کاوی : این فاز شامل به کار گیری فنون داده کاوی و الگوریتم های تخصصی در متون است. اهداف متن کاوی عبارتند از : * خوشه بندی اسناد : خوشه بندی گروهی از اسناد براساس ویژگی های خاص و به صورت خودکار * طبقه بندی : طبقه بندی اسناد در طبقات از پیش تعریف شده * استخراج الگو
- ارائه نتایج : این قسمت شامل دو مرحله است. در مرحله اول نتایج حاصله ارزیابی و میزان مفید بودن آنها برای اهداف معین مشخص می شوند و در صورتی که مفید نباشند دلایل آن نیز بیان می شود. در مرحله دوم الگوهای کشف شده، نتایج و داده ها ارائه و توصیف شده و به صورت بصری و گرافیکی قابل مشاهده خواهند بود.
توصیه صفحات وب
توصیه صفحات وب خدمتی است که میتواند از نتایج وب کاوی و به طور اخص کاوش کاربری وب محسوب شود. توصیه صفحات وب، بر پایه الگوی دسترسی مشاهده گرهای قبلی برای وبگردی که آشنایی قبلی با سایتها نداردصورت می گیرد. برای ایجاد یک سرویس پیشنهاد سایت مناسب برای کاربر، لازم است به طور موثر و روزامد صفحات وب را از طریق الگو های دسترسی به آنها از راه کاویدن حجم عظیم داده های موجود در فایلهای ثبت وقایع سرورها بررسی کرد. این فایلها داده های مختلفی از جمله آدرس های آی پی، زمان دسترسی و URL های مورد استفاده را در خود دارند.
بیشتر رویکردهای موجود برای پیشنهاد صفحات وب بر پایه کاوش کاربرد وب با استفاده از فنون کشف الگو مثل کشف قوانین وابستگی و کشف الگوهای ترتیبی است. قوانین وابستگی برای صفحات، وابستگی بین صفحات را توصیف می کند، به عنوان مثال در صورتی که کاربر صفحه A را ببیند و در زمان دیگری صفحه B را نیز ببیند، یک نوع وابستگی بین صفحات توسط الگوریتم قوانین وابستگی یا قوانین انجمنی کشف می شود. از آنجا که در قوانین وابستگی هیچ نوع ترتیب منظمی بین صفحات وب مطرح نیست، بهره گیری از این قوانین برای پیشنهاد صفحات وبی که به صورت ترتیبی به هم ربطی ندارند موثر است. به طور مثال هنگامی که یک خریدار کتاب در محیط وب صفحه مربوط مشغول دیدن اطلاعات برخی کتابها در موضوعی خاص است، دیگر صفحات مربوط به عناوین کتابهای موجود در صفحه مورد مشاهده نیز به کاربر پیشنهاد می شود. الگوهای ترتیبی شبیه قوانین وابستگی هستند با این تفاوت که نوعی نظم در بین صفحات و نمونه ها در الگو هست، به عنوان مثال یک سری از کاربران درست پس از دیدن صفحه A صفحه B را نیز می بینند.
مسایل اخلاقی در وب کاوی
وقتی فنون وب کاوی در مورد مسائل تجاری و در شرکت هایی به کار می رود که برخی انواع اطلاعات شخصی را دارند، به شرکتها کمک می کنند پروفایل های دقیق تری از افراد داشته باشند تا بازاریابی هوشمند تری داشته باشند، در عین حال وب کاوی میتواند تهدیدی برای اطلاعات شخصی و حریم خصوصی افراد باشد ( یا حداقل اینطور به نظر می رسد ). وب کاوی خصوصی سازی ، پوشیدگی و عدم اشاعه اطلاعات را برای افراد مشکل ساخته است.
زمینه های وب کاوی ساختار و محتوا، در صورتی که اطلاعات فردی را که برای مقاصد خاصی در وب قرار گرفته اند با دیگر زمینه ها و داده ها در وب ترکیب کند و بکاود، بسیار نگران کننده می شود. وب کاوی کاربرد نیز نگرانی هایی را پدید می اورد، مثل وقتی که کاربران در وب در پی مسائل کاری خود هستند و کارها و اعمال انها بدون دانش آنها مورد تحلیل قرار می گیرد. به علاوه در مرود وب کاوی مبنا را بر این می گذارند که علایق مشتریان را بیشتر براساس مشخصات گروهی انها بسنجد تا مشخصات فردی، راه حل های زیادی برای مسائل امنیتی و حفظ حریم شخصی پیشنهاد شده ولی هیچکدام کامل نیستند و راه حلی ترکیبی از چند راه حل میتواند مفید باشد، ترکیبی از راه حل هایی برای حفظ حریم های شخیص و عمومی (ول؛ رویاکر، 2004، ص129). جمع آوری اطلاعات پنهان در وب به یک کار معمول تبدیل شده است. دانش کشف شده در خلال کاوش وب میتواند برای افراد یک تهدید باشد.به هر جال باید از فواید و مضرات وب کاوی آگاه باشند و کلیه افراد از وب کاو گرفته تا کاربر وب و دولتمردان باید به مسائل اخلاقی توجه و به فکر قوانینی برای این مسئله باشند.
نتیجه گیری از دیدگاه درگاه پرداخت ePayBank.ir
وب کاوی به عنوان دانشی جدید و فنون آن به عنوان ابزاری کارآمد برای کمک به کاربران و مدیران وب به وجود آمده است. کاوش دقیق تر و بنابر خواسته مفهومی کاربران و ارائه اطلاعات مناسب، بررسی رفتارهای اطلاع یابی کاربران گذشته وب و به کارگیری آن برای راهنمایی و پیشنهادات مناسب به کاربران فعلی و شناخت ساختار درون سایتی و بین سایتی و تحلیل پیوندها برای کشف سایتهای مفید در هر زمینه ای، بخشی از قابلیت های وب کاوی است. تحلیلگران وب با بهره گیری از این امکانات نه تنها میتوانند به کاربران و مدیران وب در استفاده و بهره وری بهتر از وب کمک کنند بلکه این توانایی را خواهند داشت که در نقش یک اطلاع رسان به کاربران ناآشنا در یافتن اطلاعات مناسب در بین حجم عظیم اطلاعات در وب یاری رسانده و به آنها سایتهای بهتر و موثرتر را معرفی کنند.
- وب کاوی (34)
- پردازش زبان طبیعی (12)