متن کاوی فناوری ایجاد شده جهت کنترل داده های متنی در حال رشد است که در جهت برچینی اطلاعات معنی دار از متون زبان طبیعی تلاش می کند. متن کاوی یعنی جستجوی الگوها در متن غیرساخت یافته و برای کشف خودکار دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می-شود [Tan 2005]. متن کاوی تقریبا معادل با ... ادامه مطلب »
دسته بندی متون
دسته کننده Rocchio
دستهبندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصات[۱] که معمولاً خصوصیات[۲] نامیده میشود توصیف میشوند. برخلاف خوشهبندی[۳] که شامل آموزش بدون نظارت است، در دستهبندی یک مجموعه آموزشی از دادهها با برچسبگذاری قبلی نیاز است (یادگیری ماشین نظارتی). هدف ... ادامه مطلب »
دسته بندی متن با استفاده از تئوری بیز
توجه شود که در یک مسئله دستهبندی ابتدا باید هر سند موجود در مجموعه آموزشی داده شده را در متغیر مناسبی ذخیره کرد و نام دسته آن سند را که با مشخصه ای خاص مثلا نام سند بدست آورد و سپس تمام توکنهای سند استخراج و در محل مناسبی ذخیره گردد .حال کلمات توقف را حذف میشود. چون این کلمات ... ادامه مطلب »
دسته کننده K نزدیکترین مجاور یا KNN
دستهبندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصات[۱] که معمولاً خصوصیات[۲] نامیده میشود توصیف میشوند. برخلاف خوشهبندی[۳] که شامل آموزش بدون نظارت است، در دستهبندی یک مجموعه آموزشی از دادهها با برچسبگذاری قبلی نیاز است (یادگیری ماشین نظارتی). هدف ... ادامه مطلب »
دسته بندی متن با استفاده از درخت تصمیم
دستهبندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصات[۱] که معمولاً خصوصیات[۲] نامیده میشود توصیف میشوند. برخلاف خوشهبندی[۳] که شامل آموزش بدون نظارت است، در دستهبندی یک مجموعه آموزشی از دادهها با برچسبگذاری قبلی نیاز است (یادگیری ماشین نظارتی). هدف ... ادامه مطلب »