توجه شود که در یک مسئله دستهبندی ابتدا باید هر سند موجود در مجموعه آموزشی داده شده را در متغیر مناسبی ذخیره کرد و نام دسته آن سند را که با مشخصه ای خاص مثلا نام سند بدست آورد و سپس تمام توکنهای سند استخراج و در محل مناسبی ذخیره گردد .حال کلمات توقف را حذف میشود. چون این کلمات توقف در هر زبان ثابت هستند در نتیجه این کلمات را در یک فایل ذخیره میکنیم وسپس توکنهای بدست آمده از متن را با محتوای این متن مقایسه میکنیم و در صورت تساوی آنها را حذف میکنیم. بردار نام برده شده در بالا برای ذخیره سازی متن شامل خصوصیات میباشد. حال ممکن است داده ها را به دو قسمت تقسیم کنیم که مجموعه اول به عنوان مجموعه آموزشی ومجموعه دوم به عنوان مجموعه آزمایشی به مرحله بعدی تحویل داده میشود. توجه شود که مجموعه آموزشی نسبت به مجموعه آزمایشی بزرگتر باشد. به این دلیل از همین داده ها به عنوان مجموعه آزمایشی استفاده میکنیم که گروه این کلاس ها مشخص است و میتوان نتیجه بدست آمده را مقایسه کرد ومجموعه آموزشی را تایید نمود.
در مرحله بعد یکی ازالگوریتم های یادگیری را اجرا کرده و مدلی برای تشخیص دسته اسناد جدید ایجاد میکنیم. توجه شود که با تغییر دادن مجموعه آزمایشی و آموزشی میتوان یک ارزیابی از متن داده شده برای آموزش والگوریتم یادگیری بدست آورد.
1-1 تئوری بیز[۱]
در یادگیری ماشین[۲] اغلب علاقه مند هستیم که در فضای H بهترین فرضیه را از آموزش داده ها بدست آوریم. مجموعه H در مسئله دستهبندی شامل تمام فرضیه ها که همان گروه های معرفی شده برای دستهبندی هستند، میباشد. تئوری بیز یک روش مستقیم برای محاسبه احتمال را فراهم میکند یا به عبارت دیگر یک راه به منظور محاسبه احتمال یک فرض یا یک گروه که اساس آن روی احتمالات قبلی میباشد، فراهم میکند.
قبل از معرفی تئوری بیز اجازه دهید تا چند نکته را بیان کنم. P(h) را برای بیان احتمال اولیه فرضیه h معرفی میکنیم. که اغلب P(h) را احتمال قبلی[۳]h مینامند و ممکن است هر دانش پس زمینه منعکس شده ما، درباره شانس آن h در فرضیه جاری باشد.اگر ما هیچ دانش قبلی نداشته باشیم ، ما به سادگی یک مقدار احتمال قبلی را به هر شرایط فرضیه نسبت میدهیم. به طور مشابه ما P(D) را برای داده های آموزش دیده معرفی میکنیم. بعد P(D|h) احتمال داده D به شرط فرضیه h را بیان میکند.
همان طور که از فرمول مشخص میباشد با افزایش P(D|h) و P(h) مقدار P(h|D) افزایش و با افزایش P(D) مقدار P(h|D) کاهش مییابد.
در بسیاری از سناریوهای آموزشی ، یادگیرنده تعدادی فرضیه کاندید شده در مجموعه H را بررسی میکند و علاقه مند است تا بیشترین احتمال داده D را در فرضیه h عضو مجموعه H را بدست آورد یعنی احتمال اینکه متن داده شده برای Test عضو یک فرضیه یا گروه h باشد را بدست میآورد و فرضیه ای را که دارای احتمال بیشتر میباشد را در نظر میگیرد. هر احتمال بیشینه را بیشینه قیاسی[۴]مینامند. ما میتوانیم فرضیه MAP را با به کار بردن تئوری بیز برای هر احتمال بعدی[۵] برای هر فرضیه بدست میآید.
به عبارت دیگر:
توجه شود که مرحله نهایی P(D) را به علت مستقل بودن آن از h از مخرج فرمول فوق حذف میکنیم. توجه شود که P(D) برای همه فرضیه یکسان میباشد.

[1]Bayesian theory [2]Machine Learning [3]Prior Probability [4]Maximum A Posteriori [5]Posterior
فهرست مطالب
۱- دسته بندی…. ۳
۱-۱ مقدمه ۳
۱-۲ تئوری بیز ۵
۲-۲-۱تئوری بیز و یادگیری مفهومی ۸
۲-۲-۲یادگیری مفهومی ۸
۲-۲-۳دسته کننده بیزی ساده ۹
۱-۳ پیاده سازی نرم افزاری ۱۹