دستهبندی متن شامل نسبت دادن اسناد به یکی از چند گروه از پیش تعیین شده است. برای نایل شدن به این هدف اسناد ورودی توسط یک مجموعه از مشخصات[۱] که معمولاً خصوصیات[۲] نامیده میشود توصیف میشوند. برخلاف خوشهبندی[۳] که شامل آموزش بدون نظارت است، در دستهبندی یک مجموعه آموزشی از دادهها با برچسبگذاری قبلی نیاز است (یادگیری ماشین نظارتی). هدف دستهبندی تحلیل داده های ورودی و ایجاد یک مدل دقیق برای هر دسته با استفاده از این خصوصیات است. اسناد جدید در داخل یکی از این دستهها دستهبندی میشوند.
در مسأله دستهبندی متن، مشخصات کلماتی هستند که درون اسناد متنی قرار دارند. در بسیاری از موارد قبل از یادگیری ماشین انتخاب خصوصیت[۴] صورت میگیرد تا فضای خصوصیات[۵] را کاهش دهد.
در دسته بندی هدف بدست آوردن یک تابع نگاشت بین اسناد و مجموعه کلاس ها یا گروه ها به وسیله یک سری سند که به آنها مجموعه آموزشی[۶]میگویند، میباشد. که از این تابع نگاشت برای تعیین خودکار گروه سند جدید استفاده میشود. توجه شود که در هنگام تولید تابع نگاشت مجموعه اسناد برچسب خورده هستند یعنی گروه هر یک از اسناد مشخص شده است و به وسیله این اسناد برای هر گروه یک سری ویژگی وصفات منحصر به فرد استخراج میکنیم.

مراحل مختلف دسته بندی بصورت زیر است:
- پردازش مجموعه داده ها؛ در این مرحله اسناد بررسی شده، قابلیتها استخراج وکلمات غیر ضروریحذف میشوند. یک بردار[۷] برای نمایش متن ایجاد و مقدار دهی میشود. در این مرحله داده ها ممکن است به دو قسمت تقسیم شوند.
- مجموعه آموزشی : این قسمت از داده ها برای ایجاد یک مدل بکار میرود.
- مجموعه آزمایشی[۸]: این قسمت برای تست مدل بکار میرود.
- ساختن مدل؛ این مرحله را آموزش واقعی میگویند که از یک الگوریتم یادگیری[۹] استفاده میکند. این مرحله خود ممکن است چندین تکرار وچندین زیر مرحله داشته باشد.
- انتخاب خصوصیت
- اجرای یک الگوریتم یادگیری
- اعتبار سنجی مدل
- بکار بردن مدل برای مشخص کردن کلاس یک سند جدید.
[1]attributes [2]features [3]clustering [4]Feature selection [5]feature space [6]Train Set [7]Vector [8]Testing Set [9]Learning
فهرست مطالب
۱-دسته بندی ۳
۱-۱مقدمه ۳
۱-۲دستهکننده های فاصله کمینه ۵
۲-۲-۱دستهکننده k نزدیکترین مجاور(k-NN) 7
1-3پیاده سازی نرم افزاری ۹