نمونه پروپوزال کارشناسی ارشد:
معناگرایی در ارزیابی خودکار خلاصه سازهای ماشینی انگلیسی و فارسی با بهره گیری از شبکه واژگان
Title:Automatic SemanticEvaluation of English and Persian Text Summarizerwith using WordNet
تعریف مساله، پیشینه، اهداف و سوالات تحقیق
امروزه با رشد چشمگیر حجم مستندات منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی و بهره گیری از ابزارهایی نظیر خلاصهسازهای خودکار و مترجمهای ماشینی، بیش از پیش خودنمایی می کند. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان بدنبال راهکاری برای انتخاب درست و فشرده مطالب گردند.
خلاصه سازی خودکار سند، یعنی تولید یک نسخه مختصرتر از سند اصلی توسط یک برنامه کامپیوتری به نحوی که ویژگی ها و نکات اصلی سند اولیه حفظ شود[۱]. بنابر تعریف ارائه شده در استاندارد ISO 215 سال ۱۹۸۶، خلاصه، “یک بازگویی مختصر از سند” می-باشد.
امروزه ابزارهایی نظیر خلاصهسازهای خودکار و مترجمهای ماشینی توجه زیادی را به خود جلب نمودهاند و فعالیتهای زیادی برای طراحی چنین ابزارهایی در سرتاسر جهان انجام شده است. از این رو ارزیابی چنین ابزارهایی از اهمیت ویژهای برخوردار است.
دو رهیافت عمده در ارزیابی سیستمهای خلاصهسازی وجود دارد: قضاوت انسانی و مقایسه با خلاصهی مرجع.
به منظور ارزیابی خلاصهای که یک ماشین از یک متن تولید میکند، میتوان آن خلاصه را با خلاصه های تولید شده توسط انسان ها مقایسه کرد. از آنجایی که در خلاصه های انسانی ممکن است هر شخص با توجه به نظرات شخصی خود، بخشی از متن را مهم تر تشخیص دهد، پس میان خلاصههای انسانی نیز ممکن است تفاوتهایی باشد. برای اعمال این موضوع، هر خلاصه ی ماشینی با چند خلاصه انسانی متفاوت از همان متن مقایسه می گردد و نتیجه ی نهایی، می تواند میانگین نتایج حاصل از مقایسه خلاصه ماشینی با هر یک از خلاصههای انسانی و یا بیشینه ی امتیاز حاصل از مقایسه خلاصه ماشینی با هر یک از خلاصههای انسانی باشد.
در اولین گام از مقایسه ی دو خلاصه، باید متون به شکلی استاندارد درآیند تا قابل قیاس با یکدیگر باشند. از آنجایی که متون مختلف ممکن است، بسیار به هم شبیه باشند اما به دلیل تفاوتهای ساده ظاهری از نظرماشین متفاوت به نظر برسند؛ به همین دلیل در ابتدا این تفاوت های ساده ی ظاهری بایستی برطرف گردد. برای رسیدن به این هدف، قبل از مقایسه متون، پیشپردازشهایی روی آنها انجام میشود. طبیعتا هر چه این پیشپردازشها قویتر باشد، نتایج حاصل ازمقایسه متون، قابل اطمینان تر خواهد بود.
ابزارهای ارزیابی خلاصه سازها غالبا شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات و جفت کلمات را محاسبه می نمایند.
در طراحی ابزار ارزیابی خودکار خلاصه سازهای ماشینی، نیازمند بهره گیری از ابزارهای پایه ای برای پردازش متون هستیم که در مورد زبان فارسی بایستی این ابزار با دقت قابل قبولی طراحی و پیاده سازی گردیده و مورد استفاده قرار گیرند. زبان فارسی از لحاظ ساختاری دارای تفاوتهای بسیاری با زبان انگلیسی میباشد. برخی از تفاوتهای مشهود بین زبان فارسی و انگلیسی عبارتند از:
– تفاوت در ترتیب قرارگیری ارکان جمله. در اصطلاح، زبانهایی مثل انگلیسی را SVO و زبانهایی مثل فارسی را SOV مینامند که در واقع نشان دهنده ترتیب ارکان در جملات میباشد.
– زبان فارسی یک زبان اصطلاحاً بازتابی نامیده میشود. یعنی کلمات براساس زمان و شخص موجود در جمله میتوانند حالتهای مختلفی به خود بگیرند. مثلاً فعل “خواندن” میتواند به دو صورت “میخوانم” و “خوانده بود” در جمله ظاهر گردد. اما در زبان انگلیسی چنین تغییراتی رخ نمی دهد.
– در فارسی برخی ضمیرها وجود دارند که به اسمها و افعال متصل میشوند (ضمیرهای متصل) که باعث بروز شکلهای مختلف برای کلمات میشوند که این حالت هم در زبان انگلیسی وجود ندارد و تمامیضمیرها منفصل میباشند.
– و … .
با توجه به موارد ذکر شده و از آنجایی که زبان فارسی جزو زبان های غیرساختیافته است با مشکلات بسیار بیشتری نسبت به زبان انگلیسی مواجه خواهیم شد. متون غیرساختیافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعهای مرتب از جملات در نظر میگیریم. بدین ترتیب، طراحی و پیاده سازی ابزارهای پایه ای مورد نیاز برای پردازش متون فارسی، خود بخش مهمی از کار را به خود اختصاص خواهد داد. هر چقدر ابزارهای پایه ی مورد نیاز برای پردازش متون، دارای دقت بیشتری باشند، نتایج حاصل از ابزارهای نهایی، دقت بهتری خواهند داشت. متاسفانه ابزار پایه مورد نیاز برای پردازش زبان فارسی یا هنوز موجود نمی باشند و یا دقت کافی برای استفاده را دارا نمی باشند که در راستای پیاده سازی ابزار ارزیابی خلاصه سازی نیازمند گردآوری، بهبود و پیاده سازی این ابزار خواهیم بود.
ایده های بسیاری نیز وجود دارد که تاکنون در ارزیابی خلاصه سازها بکار گرفته نشده اند که به نظر می آید بهره گیری از آنها می تواند در بهبود دقت و کارآیی ابزار، بسیار موثر واقع گردد.
ارزیابی خلاصه ها و سیستم های خودکار خلاصه سازی متن، فرایندهای مشخص و واضحی نیستند. بطورکلی حداقل دو خصوصیت از خلاصه وجود دارد که در هنگام ارزیابی و همچنین در سیستم های خلاصه سازی، باید مورد سنجش قرار گیرند[۲]: نرخ فشرده سازی (میزان کوتاه بودن خلاصه نسبت به متن اصلی) و نرخ حفظ (میزان اطلاعاتی که حفظ می شوند).
در ارزیابی یک سیستم خلاصه سازی باید هر دوی اینها مشخص شوند. در بسیاری از موارد از آنجایی که طول خلاصه ها برابر یک اندازه ی یکسان، تعریف شده است، نرخ فشرده سازی، نادیده گرفته می شود. بنابراین نرخ حفظ، بیشترین توجه را به خود اختصاص می دهد. نخستین تفکیک که در روش های ارزیابی سیستم های خلاصه ساز انجام می شود، روش های ارزیابی درونی و بیرونی است[۳]. با توجه به اینکه روش های ارزیابی بیرونی غالبا خاص منظوره و تئوریک بوده و صرفا در حد نظریه مطرح گردیده اند، مورد نظر ما نبوده و ما توجه خود را بیشتر بر روی روش های ارزیابی درونی، معطوف خواهیم کرد.
فایل Microsoft Word
12 صفحه