هر دوی داده کاوی و OLAP از راه‌های متداول تکنولوژی تجارت هوشمند هستند . تجارت هوشمند به روش‌های مبتنی بر رایانه ای گویند که به تشخیص و استخراج اطلاعات مفید از داده‌های تجاری میپردازد . داده کاوی بخشی از CS است که با مساله ی تشخیص الگو در خحم عظیم اطلعات درگیر است ، در داده کاوی بسیاری از روش‌ها مانند هوش مصنوعی، آمار و مدریت پایگاه داده استفاده می‌شود در OLAP (online analytical processing) همان‌طور که از اسمش بر می‌آید به مساله ی کوءری گرفتن از چندین پایگاه داده میپردازد .

 

همان‌طور که قبا نیز گفته شد ، داده کاوی را میتوان فرآیند کشف دانش از اطلاعات نیز نامید با توجه به رشد عظیم اطلاعات بخصوص در زمینه‌هایی مانند تجارت ، داده کاوی ابزار بسیار مهمی برای تبدیل این اطلاعات ارزشمند به تجارت هوشمند و کشف الگو از اطلاعات شده است ، کشف الگویی که در دهه های اخیر با چیزی جز رایانه بعید به نظر میرسد .از استفاده های اخیر آن در آنالیز کننده های شبکه‌های اجتماعی ، تشخیص کلاهبرداری و بازاریابی نام برد همان‌طور که قبلاً گفته شده است داده کاوی بیشتر از ۴ فرآیند زیر تشکیل شده است خوشه بندی ، طبقه بندی ، رگرسیون و همبستگی داده کاوی معمولاً برای جواب دادن سؤالاتی چون کدام اجناس هستند که در سال آینده میتوانند فروشگاه من رو به بیشترین حد سود دهی برسونند بکار می‌رود .

 

 

 

 

مدل ها الگوریتم های داده کاوی

در این قسمت سعی بر آن است تا مدل های مختلف و الگوریتم های متفاوت را معرفی نمود ، نکته ی قابل بیان آن است که در این میان بهترین وجود ندارد و همگی این‌ها در شرایطی میتوانند بهترین باشند :

شبکه ی عصبی : این روش که یکی از پرکاربرد ترین روش‌ها برای حل مساءل پیچیده است میتواند برای حل مسایل کلاس بندی و رگرسیون مورد استفاده قرار گیرد ، این شبکه از سطوح مختلفی مانند سطح ورودی ، سطح پنهان و سطح خروجی تشکیل شده که این سطوح دارای وزن ها و توابعی هستند ، از آنجایی که تعداد پارامتر ها زیاد است محاسبات مربوط به شبکه ی عصبی میتواند وقت گیر باشد مدت زمان و میزان خطایی که شبکه با آن عمل میکند میتوان مورد نظر باشد که در بررسی های شبکه باید به میزان خطای هر مرحله دقت کرد ، اگر شبکه در حال تطبیق کامل خود با اطلعات وردی و آموزش دادن خود تنها با آن داده‌ها بود باید شبکه را متوقف کرد تا شبکه به حد تصنعی آموزش نبیند ، در این رابطه به سرفصل شبکه ی عصبی سایت مراجعه کنید .

درخت تصمیم : روشی مناسب برای بررسی هایی که منتهی به یک سری داده می‌شوند است ، بدین صورت که در هر مرحله سعی بر آن است که اطلاعات جدا سازی شوند

 

 

شاید اینگونه به نظر برسد که بوسیله ی داده کاوی میتوان معجزه کرد ! ولی مانند بسیازی از موارد مشابه دیگر این‌طور نیست ، داده کاوی نیاز به افراد خبره و متخصص را از بین نمیبرد ، داده کاوی به افراد کمک میکند تا الگو هایی را از داده‌ها کشف کنند که البته در آخر الگو های کشف شده بوسیه ل داده‌های واقعی باید مورد بررسی قرار گیرند .

 

انبار داده‌ای که در ارتباط با داده کاو میباشد میتواند خود انبار داده ی اصلی باشد که از جهت دارا بودن جدول ها و ویژگی‌های مقدماتی اولیه میتواند کمک کننده باشد و میتوان یک انبار داده ی جداگانه باشد که هر کدام دارای ویژگی‌ها و معایب خاص خود هستند .

 

نکته‌ای که قابل بررسی است مقایسه ی داده کاوی و OLAP است که در نگاه اول بسیاز شبیه یکدیگر به نظر میرسند ؛ OLAP جزیی از ابزار تصمیم گیری است که بوسیه ی آن میتوان دلیل صحت درستی یک فرضیه را بررسی نمود ( برخلاف ابزار های داده‌ای سنتی که به گزارش گیری از پایگاه داده میپرداختند ) ، بدین صورت که فرضیه ای مطرح میگردد و بوسیله ی گرفتن Query های مختلف درستی آن بررسی میشد ، حال آنکه در داده کاوی هدف پیدا کردن و یافتن الگو های جدید در داده هاست ، نه بررسی فرضیه های احتمالی ما ؛ با این شرایط میتوان به این نکته دست یافت که این دو ابزار میتوانند در حل مساله کمک کننده ی یکدیگر باشند بدین صورت که بوسیله ی OLAP فرضیه ای بررسی شود و در انجام داده کاوی اطلاعات بدست آمده استفاده شود .

 

در داده کاوی از پیشرفت‌های انجام شده در هوش مصنوعی و آمار و یادگیری ماشیناستفاده یمشود ، هیچ یک از موارد بالا جایگزین یکدیگر نیستند و مکمل یکدیگر هستند ، به طور مثال در بررسی های خود حتماً باید نقش آمار را اشاره کرد 

امروزه به دلیل رشد انبوه اطلاعات در دسترس از منابع مختلف این ایده که چگونه از این اطلاعات استفاده کنیم فراگیر شده است ، با وجود این حجم زیاد اطلاعات این نیاز پیش آمد که چگونه از این اطلعات استفاده کنیم که در این میان داده کاوی به عنوان ابزاری که بوسیله ی آن میتوان دانش موجود در اطلاعات را کسب نمود مطرح گردید .
در این میان از تکنولوژی های مختلفی مانند شبکه ی های عصبی ، تیادگیری ماشین ، آمار ، شناسایی الگو ، بازیابی اطلاعات و … استفاده هایی بر حسب اطلاعات و شرایط موجود اسفتاده می‌شود .

در بین بسیاری از عناوین، داده کاوی را تحلیل اکتشافی داده نام گذاری کرده اند. حجم انبوهی از داده هایی که از صندوق های فروش، اسکنرها، سنسورها و ... در پایگاه داده ی سازمان جمع آوری شده اند، بررسی، تجزیه و تحلیل، خلاصه و باز استفاده می شوند. روش های کلاسیک آماری در داده کاوی مبنا بوده که در کنار آن ها روش های هوش مصنوعی اتوماتیک نیز استفاده می شود. با این وجود، جست و جوی سیستماتیک در بین روش های کلاسیک در داده کاوی بسیار پر رنگ بوده و در این میان برخی از ابزارها توسعه پیدا کرده به وسیله حوزه آنالیز آماری، توسط کنترل اتوماتیک به کار گرفته می شوند تا داده ها را بررسی کنند.

انواع مدل های استاندارد که در داده کاوی معروف و شناخته شده هستند، عبارتند از رگرسیون (رگرسیون نرمال برای پیش بینی و رگرسیون لجستیک برای دسته بندی) شبکه های عصبی مصنوعی و درخت های تصمیم. البته روش های کمتر استفاده شده ای نیز برای انواع مسائل خاص وجود دارند که قوانین همبستگی، روش های داده کاوی فازی، مدل های Rough Set، ماشین های بردار پشتیبان و الگوریتم ژنتیک از این نوع می باشند.

اما این ها تمام روش های مورد استفاده در داده کاوی نیستند و در واقع کار در حوزه های مختلف جهت توسعه روش های جدیدتر ادامه دارد. علت این امر، به وجود آمدن پایگاه های داده بزرگتر و شکل های پیچیده تر داده می باشد. در تحلیل همبستگی با مجموعه ای داده ای بزرگ روبرو هستیم که در آن جستجو برای تشخیص این که چه چیزهایی با هم رخ می دهند، صورت می گیرد. در این زمینه تحقیقات جهت شناسایی روابط در حجم های بسیار زیاد داده ادامه دارد. شیوه های بیان فازی راهی برای توصیف کامل تر پدیده های غیرقطعی مرتبط با مفاهیم داده کاوی، می باشد. تئوری Rough Set راهی برای بیان این عدم قطعیت ها به شیوه ای احتمالی است. ماشین های بردار پشتیبان روش هایی برای جدا سازی داده ها به شیوه ای مطمئن تر و در شرایطی که انواع خاصی از پیچیدگی ها در مجموعه داده ها وجود دارد را ارائه می کند. الگوریتم ژنتیک نیز ما را در بررسی جواب های بهتر در داده کاوی کمک می کند.

زیر مجموعه ها