یک مرحله تعیین کننده در هر سیستم ، روش ارزیابی و اعتبارسنجی ادعای بیان شده است . سیستم ها ی پردازش زبان طبیعی نیز از این قاعده مستثنی نیستند. بلکه با توجه به بی قاعدگی های زبان انسانی ، اثبات منطقی این پیکره ی بی قاعده ، یک ریسک است. یک رویه متداول برای برقراری ارتباط با این حقیقت ، استفاده از اعتبارسنجی به کمک استقرا است. بنابراین آزمایش با یک بدنه داده ، به صورت زیرمجموعه ای از یک مجموعه کامل تقریبا نامحدود از سخنان درنظر گرفته می شود .در نتیجه نمود رویه ای خاص ، می تواند در قالب یک آزمایش، اعتبارسنجی شود.
امروزه اکثر سیستم های خودکار خلاصه سازی متن ، مبتنی بر استخراج هستند . گرچه کارهایی برای پس_ویرایش قطعات استخراج شده (یعنی جملات، به صورت کاهش و ترکیب عبارات) به منظور نزدیکی هرچه بیشتر خلاصه استخراجی ، به چکیده انجام می شود. این مسئله موجب پیدایش شرایطی شد که ضرورت وجود معیاری برای مقایسه خلاصه ها چه از نظر کلمات بکاررفته در آنها و چه از لحاظ خاص بودن و بایاس، احساس شد. بعلاوه در خلاصه سازی خودکار متن ، ممکن است چندین خلاصه خوب برای یک متن منبع خاص وجود داشته باشد که به این ترتیب عمل ارزیابی این خلاصه ها در مقایسه با یک خلاصه مرجع ثابت و تغییرناپذیر ، رضایت بخش نیست. همچنین با توجه به اینکه نرخهای فشردگی مختلف برای انواع مختلفی از متون مناسب است ، روشهای ارزیابی که امکان ارزیابی برای نرخهای مختلف می دهند را باید مورد توجه قرار داد.
روشهای ارزیابی خودکار که در این گزارش ارائه شده اند عموما با مشابهت های محتوا بین خلاصه ها و سند اصلی سروکار دارند. امروزه هیچ روش ارزیابی واحدی که برای تمام این جنبه های ارزیابی ارائه شده باشد، وجود ندارد. بلکه یک ترکیبی از روشها که در ادامه توضیح داده می شود ، باید برای پوشش هرچه بیشتر این جنبه ها (قابلیت مقایسه نتایج با سیستم های دیگر ، کوتاه کردن چرخه توسعه و حمایت از مقایسه به موقع در میان روشهای خلاصه سازی متفاوت) بکارگرفته شود.
واضح است که به منظور اطمینان از پاسخ دهی نتایج و انجام یک مقایسه قابل اطمینان در میان سیستم های خلاصه سازی ، چند نوع محیط استاندارد شده برای ارزیابی شدیدا مورد نیاز می باشد. نخستین تفکیک که در روشهای ارزیابی سیستم ها ی خلاصه انجام می شود ، روشهای ارزیابی درونی و برونی است.
ارزیابی درونی (جعبه شیشه ای)
ارزیابی درونی سیستم خلاصه را بدون توجه به هدف نهایی آن مورد سنجش قرار می دهد. در عوض ، توجه برروی فاز تولید در چرخه عمر یک خلاصه است. اکثر روشهای ارزیابی خلاصه درونی هستند و اغلب با یک استاندارد طلایی مقایسه می شوند. در NLP ، به یک مجوعه ایده آل از نمونه های مرجع ، اغلب پیکره زبانی استاندارد طلایی اتلاق می شود. معمولا یک استاندارد طبیعی به صورت یک مدل بسیارخوب درنظر گرفته می شود و بعنوان حد بالایی از آنچه معقول است و می خواهیم با ابزارهای اتوماتیک به آن برسیم ، عمل می کند. در مورد خلاصه سازی ، این مجموعه خلاصه های استاندارد طلایی را می تواند با یک سیستم مرجع خلاصه ساز یا مخبران انسانی تولید کرد. ارزیابی درونی توجه اصلی اش بروی پیوستگی و اطلاع رسانی خلاصه ها است و درنتیجه تنها کیفیت های خروجی را مورد سنجش قرار می دهد. [۱]
پیوستگی خلاصه :
متن خلاصه ای که از طریق روشهای مبتنی بر استخراج (عملیات کپی و درج روی عبارات ، جملات و یا پاراگرافها) تولید می شوند، گاهی از بعضی بی ارتباطی های معنایی در دنباله ی جملات متوالی رنج می برند . یک راه برای سنجش پیوستگی خلاصه ، رتبه بندی یا درجه بندی جملات برحسب میزان پیوستگی شان و سپس درجه جملات خلاصه با امتیازات خلاصه های مرجع ، با امتیازات جملات منبع ، یا با امتیازات سایر سیستم های خلاصه ساز ، مقایسه شود.
اطلاع رسانی خلاصه :
یک راه برای سنجش میزان اطلاع رسانی خلاصه تولید شده ، مقایسه آن با متن اصلی از نظر میزان اطلاعات حفظ شده از منبع در خلاصه می باشد. روش دیگر مقایسه خلاصه تولید شده با یک مرجع است که میزان اطلاعات خلاصه مرجع را که در خلاصه تولید شده ، وجود دارد مورد سنجش قرار می دهد . برای یک مجموعه اسناد ، پارامترهای P&R و همچنین پارامترهای سودمندی و مبتنی بر محتوا را می توان برای ارزیابی عملکرد بکار گرفت.
دقت و بازخوانی جمله :
بازخوانی تعداد جملات خلاصه مرجع که در خلاصه تولید شده حضور دارند را مشخص می کند. به همین ترتیب می توان دقت را به صورت تعداد جملات خلاصه تولید شده که در خلاصه مرجع وجود دارند ، تعریف کرد. بازخوانی و دقت معیارهای استاندارد در بازیابی اطلاعات هستند و اغلب از ترکیب آنها، تحت عنوان F_measure یاد می شود. مشکلات اصلی که این معیارها برای خلاصه سازی متن دارند آن است که قادر به تشخیص بین خلاصه های ممکن ولی یکسان از نظر کیفیت نیستند و همچنین خلاصه هایی که محتوای بسیار متفاوتی دارند ممکن است امتیازات مشابهی دریافت کنند.
رتبه دهی به جملات :
از آنجا که در رتبه دهی ، جملات خلاصه ، از روی شایستگی شان برای شمول در خلاصه ساخته می شود ، یک رویه جزء نگرتری نسبت به بازخوانی و دقت است و از معیارهای همبستگی می توان برای مقایسه بین خلاصه تولید شده با خلاصه مرجع کمک گرفت. بازخوانی و دقت ، اساسا برای خلاصه ها ی مبتنی بر استخراج اعمال می شوند، حتی اگرامکان اعمال روشهای استاندارد تنظیم جمله با چکیده ها وجود داشته باشد . گرچه این مسئله برای انسان طبیعی نیست و ممکن است گمان شود که تقلید از یک الگوریتم کامپیوتری بهترین راه برای جمع آوری خلاصه های مرجع نیست.
روش سودمند :
روش سودمند به خلاصه های مرجع امکان دربرداشتن واحدهای استخراج شده (جمله ، پاراگراف و …) با یک تابع عضویت فازی در خلاصه مرجع را می دهد. در UM خلاصه مرجع شامل تمام جملات اسناد منبع، به همراه مقادیر اطمینان ، از ۰ تا ۱۰ ، برای احتمال شمول در خلاصه می باشد. درمورد رتبه جملات ، این مقادیر اطمینان توسط مخبران انسان اختصاص داده می شود. بعلاوه روشهای سودمند قابلیت توسعه برای اعمال تاثیر منفی واحدهای استخراج شده برروی یکدیگر را دارند . این ویژگی خصوصا هنگامیکه ارزیابی خلاصه های چند سندی موردنظر باشد ، درجایی که یک جمله ، امتیاز جمله مشابه با آن را جریمه می کند (یعنی سیستمی که دو یا چند جمله معادل را استخراج می کند ، جریمه بیشتری نسبت به سیستمی که تنها یکی از این جملات (حتی جمله با اطلاعات کمتر(درجه اطمینان پائین تر ) را استخراج می کند ، دریافت می کند) مفید است. درمقابل معیارهای بازخوانی و دقت و درصد توافق ، که به صورت تعداد توافقات برای کل توافقات ممکن تعریف می شود، روش سودمند امکان ارزیابی خلاصه ها را در نرخ های فشردگی متفاوت می دهد .روش سودمند هم مانند بسیاری از معیارهای ارزیابی مشابه ، بیشتر برای خلاصه های مبتنی بر استخراج مفید است. آزمایشات جدیدتر ارزیابی ، موجب توسعه معیار سود نسبی شده است.
مشابهت محتوا :
معیارهای شباهت محتوا می تواند برای ارزیابی محتوای معنایی ، هم در خلاصه های مبتنی بر استخراج و هم چکیده ها اعمال شود. یکی از این معیارها آزمون تست مجموعه لغات یک زبان است که در آن روشهای بازیابی اطلاعات استاندارد ، برای مقایسه بردارهای تکرار کلمه ، که پس از محاسبه ریشه ها در خلاصه موضوع بندی و استفاده می شود. فرهنگ لغت کنترل شده و مجموعه های هم معنی که با تحلیل معانی پنهان یا شاخص تصادفی ایجاد می شود ، را می توان با ترکیب فرکانس عبارات هم معنی ، برای کاهش عبارتها در بردارها بکار برد ، که موجب تغییرات بیشتری در بین خلاصه ها می شود که این مسئله در هنگام ارزیابی چکیده ها بسیار مفید است.
یکی از معایب این روشها آن است که تا حدی نسبت به نفی و تغییر در ترتیب کلماتی که برروی تفسیر محتوا تاثیر گذارند ، حساس است. یک رویکرد ممکن برای غلبه بر این مسئله استفاده از فرکانس بروی دنباله هایی از کلمات (یعنی _n موقعیتی) بجای یک کلمه واحد است. همچنین با تحلیل معنایی پنهان یا شاخص گذاری تصادفی ، باید براین حقیقت واقف باشیم که این روشها لزوما مجموعه های هم معنی درستی تولید نمی کنند ، عموما این مجموعه ها همچنین کلمات متضاد و شمول و کلمات دیگری که در زمینه های معنایی مشابه روی می دهد ، (در سطح کلمه یا سند برای RI و در سطح سند برای LSA ) ، را نیز شامل می شوند.
با توجه به روشن شدن اهمیت بسیار زیاد خلاصهسازها، موضوع مهمی که به عنوان یک مشکل در این زمینه، مطرح است؛ آنست که پس از تولید خلاصه چه طور کیفیت آنها را ارزیابی کنیم.
ارزیابی خلاصهها و سیستمهای خودکار خلاصهسازی متن، فرایندهای مشخص و واضحی نیستند. بطورکلی حداقل دو خصوصیت از خلاصه وجود دارد که در هنگام ارزیابی و همچنین در سیستمهای خلاصهسازی، باید مورد سنجش قرار گیرند[Hov97]: نرخ فشردهسازی (میزان کوتاه بودن خلاصه نسبت به متن اصلی) و نرخ حفظ (میزان اطلاعاتی که حفظ میشوند).
یک مرحلهی تعیینکننده در هر سیستم، روش ارزیابی و اعتبارسنجی ادعای بیان شده است. سیستمهای پردازش زبان طبیعی نیز از این قاعده، مستثنی نیستند. بلکه با توجه به بیقاعدگیهای زبان انسانی، در ارزیابی ابزارهای مرتبط با زبان طبیعی با مشکلات بیشتری مواجه خواهیم بود و اثبات منطقی این پیکرهی بیقاعده، یک ریسک است. یک رویهی متداول برای برقراری ارتباط با این حقیقت، استفاده از اعتبارسنجی به کمک استقرا است. بنابراین آزمایش با یک بدنه داده، به صورت زیرمجموعهای از یک مجموعه کامل تقریبا نامحدود از سخنان درنظر گرفته میشود. در نتیجه نمود رویهای خاص، میتواند در قالب یک آزمایش، اعتبارسنجی شود.
امروزه اکثر سیستم های خودکار خلاصهسازی متن، مبتنی بر استخراج هستند. گرچه کارهایی برای پس- ویرایش قطعات استخراج شده (یعنی جملات، به صورت کاهش و ترکیب عبارات) به منظور نزدیکی هرچه بیشتر خلاصه استخراجی، به چکیده انجام می شود. این مسئله موجب پیدایش شرایطی شد که ضرورت وجود معیاری برای مقایسه خلاصهها چه از نظر کلمات بکار رفته در آنها و چه از لحاظ خاص بودن و بایاس، احساس شد. بعلاوه در خلاصه سازی خودکار متن، ممکن است چندین خلاصه خوب برای یک متن منبع خاص وجود داشته باشد که به این ترتیب عمل ارزیابی این خلاصهها در مقایسه با یک خلاصه مرجع ثابت و تغییر ناپذیر، رضایتبخش نیست. همچنین با توجه به اینکه نرخهای فشردگی مختلف برای انواع مختلفی از متون مناسب است، روشهای ارزیابی که امکان ارزیابی برای نرخهای مختلف می دهند را باید مورد توجه قرار داد.
روشهای ارزیابی خودکار عموما با مشابهتهای محتوا بین خلاصهها و سند اصلی سروکار دارند. امروزه هیچ روش ارزیابی واحدی که برای تمام این جنبه های ارزیابی ارائه شده باشد، وجود ندارد. بلکه یک ترکیبی از روشها که در ادامه توضیح داده میشود، باید برای پوشش هرچه بیشتر این جنبهها (قابلیت مقایسه نتایج با سیستمهای دیگر، کوتاه کردن چرخه توسعه و حمایت از مقایسه به موقع در میان روشهای خلاصهسازی متفاوت) بکارگرفته شود.
واضح است که به منظور اطمینان از پاسخدهی نتایج و انجام یک مقایسهی قابل اطمینان در میان سیستمهای خلاصهسازی، چند نوع محیط استاندارد شده برای ارزیابی این نتایج شدیدا مورد نیاز میباشد. دو رهیافت عمده در ارزیابی سیستمهای خلاصهسازی وجود دارد: قضاوت انسانی و مقایسه با خلاصهی مرجع.
به منظور ارزیابی خلاصهای که یک ماشین از یک متن تولید میکند، میتوان آن خلاصه را با خلاصههای تولید شده توسط انسانها مقایسه کرد. از آنجایی که در خلاصههای انسانی ممکن است هر شخص با توجه به نظرات شخصی خود، بخشی از متن را مهمتر تشخیص دهد، پس میان خلاصههای انسانی نیز ممکن است تفاوتهایی باشد. برای اعمال این موضوع، هر خلاصهی ماشینی با چند خلاصه انسانی متفاوت از همان متن مقایسه میگردد و نتیجهی نهایی، میتواند میانگین نتایج حاصل از مقایسه خلاصه ماشینی با هر یک از خلاصههای انسانی و یا بیشینهی امتیاز حاصل از مقایسه خلاصه ماشینی با هر یک از خلاصههای انسانی باشد.