ابزارهای لازم برای پردازش متن در زبان فارسی
تشخیص دهنده ی جمله: این ابزار باید با توجه به کاراکترهای جداکننده ی جمله در زبان فارسی، توانایی تشخیص جملات را در متن ورودی داشته باشد.
Tokenizer: ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و tab و … . ل
Named entity recognition: ابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی افراد، اماکن، مقادیر عددی و … .
Word-net: مجموعه ای از لغات و ارتباط میان آنها به لحاظ معنایی.
Stemmer: ابزاری برای ریشه یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …).
Similarity recognition: ابزاری برای تشخیص میزان شباهت میان دو عبارت بر اساس پارامترهای مختلف مانند نوع اسامی مشابه به کار رفته، استفاده از word-net و… .
Chunker: ابزاری برای تشخیص گروه های اسمی، فعلی و ….
Semantic role labeler: ابزاری برای تشخیص نقش گرامری کلمه در جمله.
Annotator: ابزاری برای ایجاد یک نمونه از یک آنتولوژی در یک سند داده شده.
Coreference resolution: ابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جملات.
Pos tagger: ابزاری برای مشخص کردن نوع کلمات از قبیل اسم، صفت، قید، فعل و … .
فایل دوم:
فایل Word_ دو صفحه توضیح مختصری در مورد ابزارهای پردازش متن و معرفی ابزارهای موجود و آماده در زبان انگلیسی
—————————————————————————
مرور ادبیات پردازش متن
در این فصل به مرور مفاهیم مرتبط با پایان نامه، پیش نیازهای لازم برای درک مفاهیم مطرح شده و کارهای انجام شده در ارتباط با موضوع پایان نامه می پردازیم. ابتدا تعاریف پایه در پردازش زبان طبیعی ذکر گردیده است. پس از آن، از آنجا که مشابهت معنایی بین اجزای مختلف متن، جایگاه ویژه ای در کاربردهای مختلف پردازش متن دارا می باشد، به معرفی تلاش های انجام شده در زمینه ی محاسبه ی شباهت معنایی کلمات و جملات می پردازیم.
۱- مرور ادبیات ۲
۱-۱- تعاریف پایه زبانشناسی ۲
۱-۱-۱- زبان فارسی ۲
۱-۱-۲- ایست واژهها (Stop words) 4
1-1-3- ریشهیابی ۴
۱-۱-۴- برچسبزنی بخشهای سخن (POS) 4
1-1-5- پارسر ۶
۱-۱-۶- درخت تجزیه ۶
۱-۱-۷- برچسبزنی نقش معنایی کلمات (SRL) 7
1-1-8- شبکه واژگان ۸
فایل سوم:
فایل Word – ده صفحه
———————————————————————
دانلود فایل های بالا در یک فایل فشرده:
============================================
اگر به دنبال ابزار یا کدهای پیش پردازش متن هستید، حتما دو مطلب زیر را ملاحظه نمایید.
کد حذف ایست واژه ها (Stop Words Remover) در زبان فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی (نرمال سازی، تشخیص جملات، تشخیص کلمات، حذف ایست واژه ها و ریشه یابی) حذف کننده کلمات ایست (Stopword Remover) در این ابزار، کلمات کم اهمیت تر و یا ایست واژه ها در صورت تایید کاربر از متون مورد پردازش، حذف میگردند. ایست واژه ها لغاتی پرکاربرد و اغلب کم اهمیتی هستند که … ادامه مطلب »
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی در این کد که به زبان سی شارپ نوشته شده است چگونگی استفاده از کتابخانه های ابزارهای پردازش متن فارسی زیر آورده شده است: – نرمالسازی متون فارسی – Normalizer – تشخیص جملات – Sentence Spliter – تشخیص کلمات – Tokenizer – ریشه یابی کلمات – Stemmer – برچسب زنی نحوی کلمات … ادامه مطلب »