دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
روش هاي ارزيابي خلاصه ساز ها - بخش اول | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
چهارشنبه , ۱۷ آذر ۱۳۹۵
آخرین مطالب
خانه -> فنى مهندسى -> روش های ارزیابی خلاصه ساز ها – بخش اول

روش های ارزیابی خلاصه ساز ها – بخش اول

یک مرحله تعیین کننده در هر سیستم ، روش ارزیابی و اعتبارسنجی ادعای بیان شده است . سیستم ها ی پردازش زبان طبیعی نیز از این قاعده مستثنی نیستند. بلکه با توجه به بی قاعدگی های زبان انسانی ، اثبات منطقی این پیکره ی بی قاعده ، یک ریسک است. یک رویه متداول برای برقراری ارتباط با این حقیقت ، استفاده از اعتبارسنجی به کمک استقرا است. بنابراین آزمایش با یک بدنه داده ، به صورت زیرمجموعه ای از یک مجموعه کامل تقریبا نامحدود از سخنان درنظر گرفته می شود .در نتیجه نمود رویه ای خاص ، می تواند در قالب یک آزمایش، اعتبارسنجی شود.
امروزه اکثر سیستم های خودکار خلاصه سازی متن ، مبتنی بر استخراج هستند . گرچه کارهایی برای پس_ویرایش قطعات استخراج شده (یعنی جملات، به صورت کاهش و ترکیب عبارات) به منظور نزدیکی هرچه بیشتر خلاصه استخراجی ، به چکیده انجام می شود. این مسئله موجب پیدایش شرایطی شد که ضرورت وجود معیاری برای مقایسه خلاصه ها چه از نظر کلمات بکاررفته در آنها و چه از لحاظ خاص بودن و بایاس، احساس شد. بعلاوه در خلاصه سازی خودکار متن ، ممکن است چندین خلاصه خوب برای یک متن منبع خاص وجود داشته باشد که به این ترتیب عمل ارزیابی این خلاصه ها در مقایسه با یک خلاصه مرجع ثابت و تغییرناپذیر ، رضایت بخش نیست. همچنین با توجه به اینکه نرخهای فشردگی مختلف برای انواع مختلفی از متون مناسب است ، روشهای ارزیابی که امکان ارزیابی برای نرخهای مختلف می دهند را باید مورد توجه قرار داد.
روشهای ارزیابی خودکار که در این گزارش ارائه شده اند عموما با مشابهت های محتوا بین خلاصه ها و سند اصلی سروکار دارند. امروزه هیچ روش ارزیابی واحدی که برای تمام این جنبه های ارزیابی ارائه شده باشد، وجود ندارد. بلکه یک ترکیبی از روشها که در ادامه توضیح داده می شود ، باید برای پوشش هرچه بیشتر این جنبه ها (قابلیت مقایسه نتایج با سیستم های دیگر ، کوتاه کردن چرخه توسعه و حمایت از مقایسه به موقع در میان روشهای خلاصه سازی متفاوت) بکارگرفته شود.
واضح است که به منظور اطمینان از پاسخ دهی نتایج و انجام یک مقایسه قابل اطمینان در میان سیستم های خلاصه سازی ، چند نوع محیط استاندارد شده برای ارزیابی شدیدا مورد نیاز می باشد. نخستین تفکیک که در روشهای ارزیابی سیستم ها ی خلاصه انجام می شود ، روشهای ارزیابی درونی و برونی است.
ارزیابی درونی (جعبه شیشه ای)
ارزیابی درونی سیستم خلاصه را بدون توجه به هدف نهایی آن مورد سنجش قرار می دهد. در عوض ، توجه برروی فاز تولید در چرخه عمر یک خلاصه است. اکثر روشهای ارزیابی خلاصه درونی هستند و اغلب با یک استاندارد طلایی مقایسه می شوند. در NLP ، به یک مجوعه ایده آل از نمونه های مرجع ، اغلب پیکره زبانی استاندارد طلایی اتلاق می شود. معمولا یک استاندارد طبیعی به صورت یک مدل بسیارخوب درنظر گرفته می شود و بعنوان حد بالایی از آنچه معقول است و می خواهیم با ابزارهای اتوماتیک به آن برسیم ، عمل می کند. در مورد خلاصه سازی ، این مجموعه خلاصه های استاندارد طلایی را می تواند با یک سیستم مرجع خلاصه ساز یا مخبران انسانی تولید کرد. ارزیابی درونی توجه اصلی اش بروی پیوستگی و اطلاع رسانی خلاصه ها است و درنتیجه تنها کیفیت های خروجی را مورد سنجش قرار می دهد. [۱]
پیوستگی خلاصه :
متن خلاصه ای که از طریق روشهای مبتنی بر استخراج (عملیات کپی و درج روی عبارات ، جملات و یا پاراگرافها) تولید می شوند، گاهی از بعضی بی ارتباطی های معنایی در دنباله ی جملات متوالی رنج می برند . یک راه برای سنجش پیوستگی خلاصه ، رتبه بندی یا درجه بندی جملات برحسب میزان پیوستگی شان و سپس درجه جملات خلاصه با امتیازات خلاصه های مرجع ، با امتیازات جملات منبع ، یا با امتیازات سایر سیستم های خلاصه ساز ، مقایسه شود.
اطلاع رسانی خلاصه :
یک راه برای سنجش میزان اطلاع رسانی خلاصه تولید شده ، مقایسه آن با متن اصلی از نظر میزان اطلاعات حفظ شده از منبع در خلاصه می باشد. روش دیگر مقایسه خلاصه تولید شده با یک مرجع است که میزان اطلاعات خلاصه مرجع را که در خلاصه تولید شده ، وجود دارد مورد سنجش قرار می دهد . برای یک مجموعه اسناد ، پارامترهای P&R و همچنین پارامترهای سودمندی و مبتنی بر محتوا را می توان برای ارزیابی عملکرد بکار گرفت.
دقت و بازخوانی جمله :
بازخوانی تعداد جملات خلاصه مرجع که در خلاصه تولید شده حضور دارند را مشخص می کند. به همین ترتیب می توان دقت را به صورت تعداد جملات خلاصه تولید شده که در خلاصه مرجع وجود دارند ، تعریف کرد. بازخوانی و دقت معیارهای استاندارد در بازیابی اطلاعات هستند و اغلب از ترکیب آنها، تحت عنوان F_measure یاد می شود. مشکلات اصلی که این معیارها برای خلاصه سازی متن دارند آن است که قادر به تشخیص بین خلاصه های ممکن ولی یکسان از نظر کیفیت نیستند و همچنین خلاصه هایی که محتوای بسیار متفاوتی دارند ممکن است امتیازات مشابهی دریافت کنند.
رتبه دهی به جملات :
از آنجا که در رتبه دهی ، جملات خلاصه ، از روی شایستگی شان برای شمول در خلاصه ساخته می شود ، یک رویه جزء نگرتری نسبت به بازخوانی و دقت است و از معیارهای همبستگی می توان برای مقایسه بین خلاصه تولید شده با خلاصه مرجع کمک گرفت. بازخوانی و دقت ، اساسا برای خلاصه ها ی مبتنی بر استخراج اعمال می شوند، حتی اگرامکان اعمال روشهای استاندارد تنظیم جمله با چکیده ها وجود داشته باشد . گرچه این مسئله برای انسان طبیعی نیست و ممکن است گمان شود که تقلید از یک الگوریتم کامپیوتری بهترین راه برای جمع آوری خلاصه های مرجع نیست.
روش سودمند :
روش سودمند به خلاصه های مرجع امکان دربرداشتن واحدهای استخراج شده (جمله ، پاراگراف و …) با یک تابع عضویت فازی در خلاصه مرجع را می دهد. در UM خلاصه مرجع شامل تمام جملات اسناد منبع، به همراه مقادیر اطمینان ، از ۰ تا ۱۰ ، برای احتمال شمول در خلاصه می باشد. درمورد رتبه جملات ، این مقادیر اطمینان توسط مخبران انسان اختصاص داده می شود. بعلاوه روشهای سودمند قابلیت توسعه برای اعمال تاثیر منفی واحدهای استخراج شده برروی یکدیگر را دارند . این ویژگی خصوصا هنگامیکه ارزیابی خلاصه های چند سندی موردنظر باشد ، درجایی که یک جمله ، امتیاز جمله مشابه با آن را جریمه می کند (یعنی سیستمی که دو یا چند جمله معادل را استخراج می کند ، جریمه بیشتری نسبت به سیستمی که تنها یکی از این جملات (حتی جمله با اطلاعات کمتر(درجه اطمینان پائین تر ) را استخراج می کند ، دریافت می کند) مفید است. درمقابل معیارهای بازخوانی و دقت و درصد توافق ، که به صورت تعداد توافقات برای کل توافقات ممکن تعریف می شود، روش سودمند امکان ارزیابی خلاصه ها را در نرخ های فشردگی متفاوت می دهد .روش سودمند هم مانند بسیاری از معیارهای ارزیابی مشابه ، بیشتر برای خلاصه های مبتنی بر استخراج مفید است. آزمایشات جدیدتر ارزیابی ، موجب توسعه معیار سود نسبی شده است.
مشابهت محتوا :
معیارهای شباهت محتوا می تواند برای ارزیابی محتوای معنایی ، هم در خلاصه های مبتنی بر استخراج و هم چکیده ها اعمال شود. یکی از این معیارها آزمون تست مجموعه لغات یک زبان است که در آن روشهای بازیابی اطلاعات استاندارد ، برای مقایسه بردارهای تکرار کلمه ، که پس از محاسبه ریشه ها در خلاصه موضوع بندی و استفاده می شود. فرهنگ لغت کنترل شده و مجموعه های هم معنی که با تحلیل معانی پنهان یا شاخص تصادفی ایجاد می شود ، را می توان با ترکیب فرکانس عبارات هم معنی ، برای کاهش عبارتها در بردارها بکار برد ، که موجب تغییرات بیشتری در بین خلاصه ها می شود که این مسئله در هنگام ارزیابی چکیده ها بسیار مفید است.
یکی از معایب این روشها آن است که تا حدی نسبت به نفی و تغییر در ترتیب کلماتی که برروی تفسیر محتوا تاثیر گذارند ، حساس است. یک رویکرد ممکن برای غلبه بر این مسئله استفاده از فرکانس بروی دنباله هایی از کلمات (یعنی _n موقعیتی) بجای یک کلمه واحد است. همچنین با تحلیل معنایی پنهان یا شاخص گذاری تصادفی ، باید براین حقیقت واقف باشیم که این روشها لزوما مجموعه های هم معنی درستی تولید نمی کنند ، عموما این مجموعه ها همچنین کلمات متضاد و شمول و کلمات دیگری که در زمینه های معنایی مشابه روی می دهد ، (در سطح کلمه یا سند برای RI و در سطح سند برای LSA ) ، را نیز شامل می شوند.

با توجه به روشن شدن اهمیت بسیار زیاد خلاصه­سازها، موضوع مهمی که به عنوان یک مشکل در این زمینه، مطرح است؛ آنست که پس از تولید خلاصه چه طور کیفیت آنها را ارزیابی کنیم.

ارزیابی خلاصه­ها و سیستم­های خودکار خلاصه­سازی متن، فرایندهای مشخص و واضحی نیستند. بطورکلی حداقل دو خصوصیت از خلاصه وجود دارد که در هنگام ارزیابی و همچنین در سیستم­های خلاصه­سازی، باید مورد سنجش قرار گیرند[Hov97]: نرخ فشرده­سازی (میزان کوتاه بودن خلاصه نسبت به متن اصلی) و نرخ حفظ (میزان اطلاعاتی که حفظ می­شوند).

یک مرحله­ی تعیین­کننده در هر سیستم، روش ارزیابی و اعتبارسنجی ادعای بیان شده است. سیستم­های پردازش زبان طبیعی نیز از این قاعده، مستثنی نیستند. بلکه با توجه به بی­قاعدگی­های زبان انسانی، در ارزیابی ابزارهای مرتبط با زبان طبیعی با مشکلات بیشتری مواجه خواهیم بود و اثبات منطقی این پیکره­ی بی­قاعده، یک ریسک است. یک رویه­ی متداول برای برقراری ارتباط با این حقیقت، استفاده از اعتبارسنجی به کمک استقرا است. بنابراین آزمایش با یک بدنه داده، به صورت زیرمجموعه­ای از یک مجموعه کامل تقریبا نامحدود از سخنان درنظر گرفته می­شود. در نتیجه نمود رویه­ای خاص، می­تواند در قالب یک آزمایش، اعتبارسنجی شود.

امروزه اکثر سیستم های خودکار خلاصه­سازی متن، مبتنی بر استخراج هستند. گرچه کارهایی برای پس- ویرایش قطعات استخراج شده (یعنی جملات، به صورت کاهش و ترکیب عبارات) به منظور نزدیکی هرچه بیشتر خلاصه استخراجی، به چکیده انجام می شود. این مسئله موجب پیدایش شرایطی شد که ضرورت وجود معیاری برای مقایسه خلاصه­ها چه از نظر کلمات بکار رفته در آنها و چه از لحاظ خاص بودن و بایاس، احساس شد. بعلاوه در خلاصه سازی خودکار متن، ممکن است چندین خلاصه خوب برای یک متن منبع خاص وجود داشته باشد که به این ترتیب عمل ارزیابی این خلاصه­ها در مقایسه با یک خلاصه مرجع ثابت و تغییر ناپذیر، رضایت­بخش نیست. همچنین با توجه به اینکه نرخ­های فشردگی مختلف برای انواع مختلفی از متون مناسب است، روش­های ارزیابی که امکان ارزیابی برای نرخ­های مختلف می دهند را باید مورد توجه قرار داد.

روش­های ارزیابی خودکار عموما با مشابهت­های محتوا بین خلاصه­ها و سند اصلی سروکار دارند. امروزه هیچ روش ارزیابی واحدی که برای تمام این جنبه های ارزیابی ارائه شده باشد، وجود ندارد. بلکه یک ترکیبی از روش­ها که در ادامه توضیح داده می­شود، باید برای پوشش هرچه بیشتر این جنبه­ها (قابلیت مقایسه نتایج با سیستم­های دیگر، کوتاه کردن چرخه توسعه و حمایت از مقایسه به موقع در میان روش­های خلاصه­سازی متفاوت) بکارگرفته شود.

واضح است که به منظور اطمینان از پاسخ­دهی نتایج و انجام یک مقایسه­ی قابل اطمینان در میان سیستم­های خلاصه­سازی، چند نوع محیط استاندارد شده برای ارزیابی این نتایج شدیدا مورد نیاز می­باشد. دو رهیافت عمده در ارزیابی سیستم‌های خلاصه‌سازی وجود دارد: قضاوت انسانی و مقایسه با خلاصه‌ی مرجع.

به منظور ارزیابی خلاصه‌ای که یک ماشین از یک متن تولید می‌کند، می‌توان آن خلاصه را با خلاصه­های تولید شده توسط انسان­ها مقایسه کرد. از آنجایی که در خلاصه­های انسانی ممکن است هر شخص با توجه به نظرات شخصی خود، بخشی از متن را مهم­تر تشخیص دهد، پس میان خلاصه‌های انسانی نیز ممکن است تفاوت‌هایی باشد. برای اعمال این موضوع، هر خلاصه­ی ماشینی با چند خلاصه انسانی متفاوت از همان متن مقایسه می­گردد و نتیجه­ی نهایی، می­تواند میانگین نتایج حاصل از مقایسه خلاصه ماشینی با هر یک از خلاصه‌های انسانی و یا بیشینه­ی امتیاز حاصل از مقایسه خلاصه ماشینی با هر یک از خلاصه‌های انسانی باشد.

 

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

بیست − چهارده =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/