Text Mining یا متن کاوی در واقع کاربرد داده کاوی در فایل های متنی است که بدون ساختار بوده و یا اینکه ساختار چندان مرتبی نداشته باشند.

اطلاعات باعث قدرت است و دانش قدرتمند تر. اکنون بيشتر از 80 درصد از دانش ما به صورت متن، مستندات و ديگر صورت هاي رسانه اي نظير ويديو و صدا نگهداري مي شود. اگر از منظر علوم کامپيوتري به اين مستندات نگاه کنيم همه ي آنها به طبيعتي غير ساخت يافته وابسته اند. يک فرد براي دريافت دانش از اطلاعات يک متن، بايستي ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد چه معاني و مفاهيمي در آن موجود است، چه ارتباطي ميان مفاهيم وجود دارد و از ميان اين مفاهيم کدام جديد است و کدام قديمي. با اين حال در اين عصر تکنولوژي، ما معتقديم که هر چيزي بايد بتواند اتوماتيک انجام شود حتي اگر اين کار "درک معني متن" باشد. اين تنها يکي از نام هايي است که شما براي اين نوع از پردازش مي يابيد. "متن-کاوي"، "کاوش داده هاي متني" و نيز نام معروف "کشف دانش در متن" يا KDT، از نامهاي بيشتر مورد قبول دراين زمينه هستند.
متن کاوي، در تکنولوژي هاي متفاوتي ريشه دارد و از اينرو اين تعجب انگيز نيست که تعاريف زيادي نيز براي آن وجود دارد. افرادي که داراي پيشينه کار در زمينه ي داده کاوي بودند مي خواستند که همان مفاهيم و روش هاي موجود در داده کاوي را بر متون اعمال کنند و تعاريف شان نيز منطبق بر همين زمينه بود. اما کساني که از جامعه ي زبان دانان محاسباتي آمده بودند، قصد داشتند که اين توانايي را به کامپيوتر بدهند که بتوانند متن را بفهمند و اين غايت چيزي است که از متن کاوي مورد انتظار است.

برخی مزایای متن کاوی:

  • تشخیص اطلاعات پنهان در متن که ممکن است با تاکید کمتری بیان شده باشند به عنوان مثال تشخیص روابط پنهان میان پارامتر ها
  • یکی نمودن اسناد بر اساس مطالب مشابه

کاربردهاي متن کاوي:
همانطور که مي بينيد تعاريف گسترده اي از متن کاوي و پردازش متن در دست است، در نتيجه اين عجيب نيست که درباره کاربردهاي متن کاوي نيز عقايد گوناگوني وجود داشته باشد. از اينرو ما تلاش مي کنيم که تعدادي از کاربردهاي مورد قبول از اين روند را بررسي کنيم:

  • جستجو وبازيابي
  • گروه بندي ( دسته بندي بدون نظارت)
  • طبقه بندي (دسته بندي با نظارت)
  • خلاصه سازي
  • استخراج روابط
  • يافتن و تحليل ترند ها
  • برچسب زدن نحوي ....

همانطور که شما مي بيند بعضي از عناوين مشترک بين زمينه هايي چون بازيابي اطلاعات، هوش مصنوعي و نيز پردازش زبانهاي طبيعي است.