چگونگی محاسبه میزان تشابه معنایی مقالات برای متون زبان انگلیسی
در نخستین گام از طراحی و پیادهسازی ابزار مورد نظر برای محاسبه میزان تشابه متون، بایستی بسیاری از ابزارهای پایهای پردازش زبان انگلیسی از ابتدا و با رویکردی اصولی منطبق بر قواعد گرامری و نگارشی زبان انگلیسی طراحی و پیادهسازی گردد. از جملهی این ابزارها میتوان ابزار نرمالساز یا یکسانساز، ابزار تشخیص دهنده جملات، ابزار تشخیص دهنده لغات، ابزار ریشهیاب، ابزار برچسبزن اجزای واژگانی کلام و غیره را نام برد.
- نرمالساز (Normalizer): در ابتدا بایستی همهی نویسههای (کاراکترهای) متن با جایگزینی با معادل استاندارد آن یکسانسازی گردند.
- جداکننده کلمات (Tokenizer): با کمک این پردازشگر میتوان کلمات متن را استخراج نمود.
- حذف کننده کلمات ایست (Stopword Remover): با استفاده از این ابزار میتوان کلمات ایست را حذف نمود.
- جدا کننده جملات (Sentence Splitter): با کمک این پردازشگر میتوان جملات را از متن استخراج کرد.
- ریشهیاب (Stemmer) : وظیفه ریشهیابی کلمات را بر عهده دارد.
- برچسب زننده اجزای واژگانی کلام (POS): از این پردازشگر برای برچسبزنی اجزای واژگانی کلام استفاده میشود.
در روند هرگونه پردازش روی متنهای زبان طبیعی انجام یک سری پیشپردازش امری اجتناب ناپذیر است. علاوه بر آن، دقت این پیشپردازشها تاثیر بسزایی در فازهای بعدی نتایج اعمال الگوریتمها دارد. هرچقدر که دقت پیشپردازش بیشتر باشد الگوریتمها به نتایج واقعی خود نزدیکتر خواهند شد.
متنهایی که قرار است از نظر شباهت با هم سنجیده شوند متون برگزیده از مقالات هستند که در ۳ قسمت (عنوان، چکیده، و کلید واژهها) تقسیمبندی شدهاند و هریک از این قسمتها باید در تمام مقالات با هم سنجیده شوند. بنابراین سه فایل به عنوان ورودی به نرمافزار داده میشود. یک فایل حاوی عناوین مقالات، یک فایل حاوی کلمات کلیدی مقالات و یک فایل هم حاوی چکیده مقالات. در روند ارزیابی، هر کدام از مقالات در سه قسمت عناوین، کلمات کلیدی و چکیده دو به دو با یکدیگر مقایسه گردیده و میانگین وزنداری از آنها به عنوان نتیجه نهایی ابزار برگردانده میشود.
فایل اول:
فایل Word – یازده صفحه
—————————————————————————
ابزارهای لازم برای پردازش متن در زبان فارسی
تشخیص دهنده ی جمله: این ابزار باید با توجه به کاراکترهای جداکننده ی جمله در زبان فارسی، توانایی تشخیص جملات را در متن ورودی داشته باشد.
Tokenizer: ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و tab و … . ل
Named entity recognition: ابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی افراد، اماکن، مقادیر عددی و … .
Word-net: مجموعه ای از لغات و ارتباط میان آنها به لحاظ معنایی.
Stemmer: ابزاری برای ریشه یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …).
Similarity recognition: ابزاری برای تشخیص میزان شباهت میان دو عبارت بر اساس پارامترهای مختلف مانند نوع اسامی مشابه به کار رفته، استفاده از word-net و… .
Chunker: ابزاری برای تشخیص گروه های اسمی، فعلی و ….
Semantic role labeler: ابزاری برای تشخیص نقش گرامری کلمه در جمله.
Annotator: ابزاری برای ایجاد یک نمونه از یک آنتولوژی در یک سند داده شده.
Coreference resolution: ابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جملات.
Pos tagger: ابزاری برای مشخص کردن نوع کلمات از قبیل اسم، صفت، قید، فعل و … .
فایل دوم:
فایل Word_ دو صفحه توضیح مختصری در مورد ابزارهای پردازش متن و معرفی ابزارهای موجود و آماده در زبان انگلیسی
—————————————————————————
مرور ادبیات پردازش متن
در این فصل به مرور مفاهیم مرتبط با پایان نامه، پیش نیازهای لازم برای درک مفاهیم مطرح شده و کارهای انجام شده در ارتباط با موضوع پایان نامه می پردازیم. ابتدا تعاریف پایه در پردازش زبان طبیعی ذکر گردیده است. پس از آن، از آنجا که مشابهت معنایی بین اجزای مختلف متن، جایگاه ویژه ای در کاربردهای مختلف پردازش متن دارا می باشد، به معرفی تلاش های انجام شده در زمینه ی محاسبه ی شباهت معنایی کلمات و جملات می پردازیم.
۱- مرور ادبیات ۲
۱-۱- تعاریف پایه زبانشناسی ۲
۱-۱-۱- زبان فارسی ۲
۱-۱-۲- ایست واژهها (Stop words) 4
1-1-3- ریشهیابی ۴
۱-۱-۴- برچسبزنی بخشهای سخن (POS) 4
1-1-5- پارسر ۶
۱-۱-۶- درخت تجزیه ۶
۱-۱-۷- برچسبزنی نقش معنایی کلمات (SRL) 7
1-1-8- شبکه واژگان ۸
فایل سوم:
فایل Word – ده صفحه
—————————————————————————
دانلود هر سه عدد فایل بالا در یک فایل فشرده:
.