ورود ثبت

Login to your account

Username
Password *
Remember Me

Create an account

Fields marked with an asterisk (*) are required.
Name
Username
Password *
Verify password *
Email *
Verify email *
Captcha *

ارزیابی نتایج الگوریتم های مختلف کار با داده ها -قسمت اول

یکی از موضوعات مهم در ارزیابی دقت نتایج الگوریتم های مختلف داده کاوی، نحوه ی تست و بررسی نتایج بدست آمده است که روش های مختلفی برای اینکار وجود دارد .

یکی از روش های رایج تقسیم مجموعه ی داده به بخش هایی جهت یادگیری و بخشی جهت انجام ارزیابی است بدین صورت که یک مجموعه را به 2 مجموعه با نمونه ی مستقل از یکدیگر فرض میکنند .  انتخاب نسبت این بخش یادگیری به بخش آزمون بستگی به مجموعه داده ای که استفاده میکنیم دارد ولی تحقیقات نشان داده اند در اکثر موارد دو سوم برای یادگیری و یک سوم برای آزمون مناسب است . 

یکی دیگر از روش های جهت رزیابی Cross Validation   است که در قسمت پایین تصویر قابل مشاهده است .

این روش بدین صورت است که مجموعه ی داده را به همان دو بخش یادگیری و تست تقسیم میکند ، اجرای الگوریتم  و ارزیابی را به تعدادی که ما تعریف میکنیم انجام میدهد و نتایج را میانگین گیری میکند .به دلیل استفاده از بخش های مختلف مجموعه ی داده در ارزیابی های مختلف ، این روش به نسبت Hold out   درستی بیشتری از نظر واقعانه بودن دارد .

معمولا از 10 fold cross validation   استفاده میشود که به معنای ده بار اجرای الگوریتم کار با داده ( مانند الگوریتم کلاس بندی) و میانگین گیری از نتایج است . همان طور که واضح است این روش دارای بار بالاتر محاسباتی نسبت به روش اول دارد که همین موضوع را باید در برخورد با داده های حجیم در نظر داشت .

داده کاوی Data Mining

هوش مصنوعی - Artificial Intelligence

Naïve Bayes چیست ؟

 در کلاس بندی روش های مختلفی وجود دارد ، روش هایی مانند قانون ساز OneR  یا ZeroR  که بوسیله ی این روش های ساده میتوان نکات کلیدی و ایده ای اولیه نسبت به داده های مورد بررسی بدست آورد تا روش های پیچیده تر و دقیقتر .

یکی از روش های مرسوم مورد استفاده Naïve Bayes یا "بیز ساده" است . این روش بر اساس قضیه ی ریاضیاتی بیز که توسط دانشمندی به همین نام بنا نهاده شده است . این قضیه بدین صورت است که اگر شواهد / نتایج را با E  و فرضیات را با H  نمایش دهیم داریم :

به این مثال توجه کنید :
در سمت راست جدول اطلاعات مربوط به وضعیت هوا موجود است و ویژگی Play   ویژگی کلاس (ClassAttribute)  است ، حال برای انجام محاسبات داریم :

ادامه مطلب: Naïve Bayes چیست ؟

معرفی ده دوره ی آموزشی ابزار های داده کاوی

در زیر ده دوره ی ویدئویی آموزشی برای استفاده از نرم افزار های مختلف جهت انجام کار های مختلف مانند کلاسبندی ، خوشه بندی ، رگرسیون ، تشخیص الگو و غیره معرفی شده اند :

  1. Video lectures on Data Mining : ویدئو هایی از متخصصین این زمینه در مسائل مختلف آن
  2. Youtube on Data Mining : مجموعه ی ویدئو های یوتیوب درباره ی داده کاوی 
  3. Data Mining with Statistica : مجموعه ی ویدئو هایی در رابطه با این نرم افزار
  4. SAS on Youtube : ویدئو های این نرم افزار در یوتیوب
  5. Microsoft Data Mining : استفاده از SQL Server 2008 برای داده کاوی
  6. Weka Video Tutorials  : ویدئو هایی آنلاین برای کاربران مراحل ابتدایی این نرم افزار درباره ی پردازش متن ، شبکه های عصبی و داده کاوی 
  7. Neural Market Trends  : یادگیری پیش بینی با استفاده از شبکه ی عصبی و ساخت ابزار های پردازشی برای نرم افزار اکسل
  8. Vancouver Data : ویدئو هایی بر مبنای نرم افزار RapidMiner 5 که نمر افزار متن باز بسیار قوی ای برای پردازش متن ، وب کاوی و آمار است .
  9. Dataminingtools Videos : مجموعه ویدئو هایی درباره ی Matlab, R, RapidMiner, Wek و غیره .
  10. All Video Tutorials  : ویدئو هایی درباره ی RapidMiner, SSAS  . و Statistica .

ادامه مطلب: معرفی ده دوره ی آموزشی ابزار های داده کاوی

ابزارهای داده کاوی

امروزه محصولات نرم افزاری داده کاوی بسیار زیادی مورد استفاده واقع می شوند که تعداد زیادی از آن ها نیز بسیار مناسب هستند از جمله معروفترین این نرم افزارها می توان به موارد زیر اشاره نمود:

  1. نرم افزار Enterprise Miner که توسط کمپانی SAS ارائه شده است.
  2. نرم افزار Intelligent Miner که توسط کمپانی IBM ارائه شده است.
  3. نرم افزار CLEMENTINE که توسط شرکت SPSS ارائه شده است. (این نرم افزار پس از ادغام کمپانی SPSS در IBM با نام IBM SPSS Modeler ارائه می شود).
  4. نرم افزار Poly Analyst که توسط کمپانی Megaputer ارائه شده است.
  5. نرم افزار Weka از دانشگاه Waikato نیوزلند که به صورت رایگان است.

علاوه بر نرم افزارهای جامعی که تعدادی از آن ها در بالا ذکر شده است، تعدادی نرم افزار اختصاصی حوزه های مختلف کسب و کار نیز وجود دارد. یک منبع مناسب برای دیدن محصولات موجود سایت (www.kdnuggest.com) می باشد. همچنین UCI Machine Learning Repository یک منبع بسیار مناسب مجموعه داده های (ِData set) داده کاوی می باشد.

برای انجام داده کاوی به چه چیزهایی نیاز است؟

داده کاوی نیازمند شناسایی مسئله، جمع آوری داده در خصوص آن مساله که در ضمن باعث شناخت بیشتر از مسئله هم می شود و مدل های کامپیوتری که بوسیله آن تجزیه و تحلیل های آماری و سایر ابزارهای آنالیز قابل انجام هستند، می باشد.

ابزارهای تصویرسازی که داده ها را به گونه های مختلف و قابل درک نمایش می دهند و همچنین آنالیزهای مقدماتی آماری مثل آنالیز همبستگی نیز می توانند در این میان کمک کننده باشد.

ابزارهای داده کاوی باید جامع و مقیاس پذیر بوده و باید قادر باشند تا بصورت دقیق رابطه ی بین کنش ها و واکنش ها را بیان کند. همچنین آن ها باید دارای این قابلیت باشند که بتوان آن ها را بصورت اتوماتیک اجرا نمود. جامع بودن معرف قابلیتی از ابزار است که به آن این امکان را می دهد تا برای مدل های زیادی قابل استفاده باشد. مقیاس پذیری به این معنی است که اگر آن ابزار برای مجموعه داده های کوچک کار کند، بتوان آن را برای مجموعه داده های بزرگ هم مورد استفاده قرار داد.

هر چند که اتوماتیک بودن می تواند مفید باشد ولی میزان آن نسبی است. برخی کارهای تحلیلی معمولاً اتوماتیک هستند ولی مقدار دهی و آماده سازی های اولیه توسط کاربر نیز در برخی مواقع مورد نیاز است. در حقیقت، قضاوت ها و تصمیم های تحلیلگر برای موفقیت در داده کاوی حیاتی است. همچنین انتخاب داده برای استفاده در تحقیق نیز بسیار مهم است. در بیشتر موارد تبدیل داده نیز مورد نیاز واقع می شود. تعداد زیاد متغیرها می تواند باعث به دست آمدن خروجی های زیاد و غیرقابل درک شود. از طرفی تعداد کم متغیرها می تواند باعث شود، روابط موجود بین داده ها آشکار نشود. همچنین درک درست از مفاهیم آماری برای موفقیت در داده کاوی الزامی است.

زیر مجموعه ها

شما اینجا هستید: صفحه اصلی موضوعات مطالب داده کاوی