دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
روش هاي ارزيابي خلاصه ساز ها- بخش دوم | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
چهارشنبه , ۱۷ آذر ۱۳۹۵
آخرین مطالب
خانه -> فنى مهندسى -> روش های ارزیابی خلاصه ساز ها – بخش دوم

روش های ارزیابی خلاصه ساز ها – بخش دوم

ارزیابی بیرونی (جعبه سیاه) [۲]
برخلاف ارزیابی درونی ، در ارزیابی بیرونی توجه برروی کاربر نهایی معطوف می شود .درنتیجه در این روش میزان مؤثر بودن و قابلیت پذیرش خلاصه های تولید شده با بعضی روشها ، مثل ارزیابی رابطه ای یا قابلیت فهم در خواندن ، سنجیده می شود. همچنین اگر خلاصه به نوعی شامل مجموعه دستوراتی باشد یک روش ممکن برای ارزیابی آن ، بررسی قابلیت رسیدن به نتیجه با پیروی از دستورات خواهد بود. سایر روشهای ممکن برای سنجش ، جمع آوری اطلاعات در یک مجموعه بزرگ از اسناد است ، میزان تلاش و زمان موردنیاز برای پس_ویرایش خلاصه تولید شده توسط ماشین برای بعضی مقاصد خاص ، یا تاثیر سیستم خلاصه ساز برروی سیستمی که جزئی از آن است ، برای مثال بازخورد مرتبط در یک موتور جستجو و یا یک سیستم پرسش_پاسخ ، می باشد.
چندین سناریوی بازی مانند به عنوان روشهای سطحی برای ارزیابی خلاصه ، پیشنهاد داده شده که ترتیب های مختلفی دارند. در میان آنها بازی Shannon (تئوری اطلاعات) ، بازی سوال (کارایی عمل ) ، بازی دسته بندی و کلمات کلیدی انجمنی (بازیابی اطلاعات) می توان نام برد. [۱]
بازی Shannon
بازی Shannon که نوعی از معیارهای سنجش Shannon در تئوری اطلاعات است ، تلاشی برای تعیین کیفیت محتوی اطلاعات بوسیله حدس لغت بعدی (حرف یا کلمه) می باشد ، و به این ترتیب متن اصلی را مجددا ایجاد می کند. این ایده از معیارهای Shannon از تئوری اطلاعات اقتباس شده است ، که در آنجا از سه گروه مخبر خواسته می شود قطعات مهم از مقاله منبع را (با مشاهده متن کامل ، یک خلاصه تولید شده و یا حتی هیچ متنی) به صورت حرف به حرف یا کلمه به کلمه مجددا تولید کنند. سپس معیار حفظ اطلاعات با تعداد ضربه های کلیدی که برای ایجاد مجدد قطعه اصلی طول می کشد ، . سنجیده می شود. Hovey و Marcu نشان دادند که اختلاف زیادی در این سه سطح (در حدود فاکتور ۱۰ در بین هر گروه) وجود دارد. مشکل روش Shannon این است که به فردی که عمل حدس زدن را انجام می دهد وابسته است و درنتیجه بطورضمنی مشروط به دانش خواننده است. معیار اطلاعات با دانش بیشتر از زبان و حوزه و … کاهش می یابد.
بازی سوال
هدف از بازی سوال ، آزمایش میزان فهم خواننده از خلاصه و توانایی آن برای نقل وقایع کلیدی مقاله منبع است . این عمل ارزیابی در دو مرحله انجام می شود . ابتدا آزمایشگر مقاله های اصلی را می خواند و بخشهای مرکزی آن را علامت گذاری می کند. سپس از عبارات مهم بخشهای مرکزی متن ، سوالاتی طرح می کند. و در مرحله بعد ، ارزیاب سوالات را سه مرتبه پاسخ می دهد ؛ یکبار بدون مشاهده هیچ متنی (baseline 1) ، پس از مشاهده یک خلاصه ساخته شده توسط سیستم ، و درانتها پس از مشاهده متن اصلی (baseline 2) . خلاصه ایی که به خوبی وقایع کلیدی مقاله را نقل کرده باشد ، باید قادر به پاسخگویی به بیشتر سوالات (با نزدیکتر بودن به baseline2 نسبت به baseline1 ) باشد . این طرح ارزیابی برای مثال در ارزیابی خلاصه متن Q&A و TIPSTER SUMMAC هنگامیکه نرخ اطلاع رسانی صحیح را برای فشردگی ۱.۵ یافت ، مورد استفاده قرار گرفته است.
بازی دسته بندی
بازی دسته بندی با دسته بندی اسناد منبع (آزمایشگرها) و متون خلاصه (اطلاع دهنده ها ) ، سعی درمقایسه قابلیت دسته بندی آنها به یکی از N دسته دارد. سپس مطابقت دسته بندی خلاصه ها به متون اصلی سنجیده می شود. یک خلاصه کاربردی باید در همان دسته ی سند منبع اش قرارگیرد . دو نسخه از این آزمایش در SUMMAC اجرا شد. اگر هر دسته با یک یا چند کلمه کلیدی تعریف شود ، بازی دسته بندی به سناریوی تداعی کلمات کلیدی ، عمومیت پیدا می کند.
تداعی کلمات کلیدی
تداعی کلمات کلیدی ، یک رویه ساده اما تاحدودی سطحی تر است که به کلمات کلیدی وابسته ، (دستی یا اتوماتیک) برای اسناد در حال خلاصه شدن اکتفا می کند.
برای مثال خلاصه های تولید شده توسط سیستم های خلاصه سازی را به همراه پنج لیست از کلمات کلیدی چاپ شده در مجلات، به قاضی های انسان ارائه می دهند. سپس این قاضی ها هرخلاصه را با لیست صحیحی از کلمات کلیدی مرتبط می کنند . از آنجا که کلمات کلیدی تعیین شده توسط ناشر مرتبط با محتوی مقاله است ، اگر موفقیت آمیز بود ، خلاصه پوشش دهنده جنبه های مرکزی متن موردنظر می باشد. مزیت اصلی این روش آن است که هیچ زحمتی از بابت حاشیه نویسی تحمیل نمی کند.
ابزارهای ارزیابی
به منظور استفاده از یک رویه سخت تر و قابل تکرار ، برای خودکارکردن نسبی عمل مقایسه خلاصه ها ، ساخت یک پیکره دقیق که شامل منابع و خلاصه های استخراج شده آنها باشد ، سودمند است.
هر استخراج ، چه توسط یک مخبر انسانی تهیه شده باشد یا یک ماشین ، به عنوان یک خلاصه صحیح از متن اصلی درنظر گرفته می شود؛ یعنی برای حفظ معنی در بالاترین درجه ممکن .از آنجا که واحدهای جمله ای از متن اصلی و خلاصه های مختلف به صورت موجودیت شناخته شده اند پایه و بنای یک پیکره استخراج شده ، می تواند کاملا به برنامه های کامپیوتری واگذار شود. تعدادی از ابزارها برای این منظور گسترش یافته اند.
محیط ارزیابی خلاصه ها
محیط ارزیابی SEE ، محیطی است که در آن ارزیابها می توانند کیفیت یک خلاصه را در مقایسه با یک خلاصه مرجع مورد سنجش قرار دهند. متونی که درگیر ارزیابی هستند ، با شکسته شدن به لیستی از قطعات (عبارات ، جملات و..) مورد پیش پردازش قرار می گیرند .برای مثال هنگامی که یک سیستم مستخرج با سایز قطعه جمله را ارزیابی می کنیم ، ابتدا متون با شکسته شدن به جملات آماده سازی می شوند.
در طول فاز ارزیابی ، هر دو خلاصه در دو صفحه مجزا نشان داده می شوند و واسطه ایی برای ارزیابی درنظرگرفته شده تا برروی محتوا و کیفیت خلاصه ها قضاوت کنند. برای سنجش محتوی ، ارزیاب از میان خلاصه مورد ارزیابی ، قطعه به قطعه حرکت می کند و برروی یک یا چند واحد مرتبط در خلاصه مدل کلیک می کند.
برای هر کلیک، ارزیاب می تواند تعیین کند آیا واحدهای علامت دار تمام ، بیشتر ، بعضی و یا کمی از محتوی مدل کلیک شده را بیان می کنند .برای سنجش کیفیت ارزیاب وضعیت گرامری ، پیوستگی و همبستگی را در سطح مختلف ارزیابی می کند؛ تمام ، اکثریت ، بعضی ، کمی ، هیچ . کیفیت هم برای هر قطعه از خلاصه همتا و هم برای کیفیت کلی خلاصه همتا (پیوستگی ، طول ، پوشش محتوی گرامری و سازمان متن همتا به صورت کلی) ارزیابی می شود. البته نتایج می تواند هر زمان ذخیره و بارگذاری مجدد شود. نسخه خاصی از SEE در مسابقات دوره های ۲۰۰۱-۲۰۰۴ برای ارزیابی درونی متون خلاصه اخبارمورد استفاده قرارگرفت.
MEADeval
MEADeval ابزاری برای ارزیابی خلاصه های استخراج شده با فرمت DUC و MEAD است که با مقایسه خلاصه با یک خلاصه مرجع (یا خلاصه ایده آل) این سنجش را انجام می دهد. MEADeval اساسا روی فایلهای استخراجی عمل می کند که جملاتی را که در خلاصه استخراجی هستند را توصیف می کند.
ISI ROUGH بسته ی ارزیابی خودکار خلاصه
بسته ی ISI ROUGH لین که بعدها با نام ROUGH معروف شد، تلاشی برای خودکار کردن ارزیابی خلاصه ها است که هم رخدادی های کلمه _n موقعیتی در بین سه تایی های خلاصه را موردسنجش قرار می دهد. این سه تایی ها معمولا شامل یک یا چند خلاصه تولید شده توسط سیستم است به همراه یک یا چند خلاصه مرجع ساخت انسان که به عنوان استاندارد طلایی برای مقایسه عمل می کند.
ROUGH مخفف Recall-Oriented Understudy for Gisting Evaluation است. ROUGH در مقایسه با BLEU که دقت مدار است ، فراخوانی مدار است ؛ و جداگانه کلمات _nموقعیتی مختلفی را ارزیابی می کند. همچنین ROUGH هیچ جریمه ای برای طول اعمال نمی کند که با توجه به ذات خلاصه سازی متن که در آن هدف فشرده سازی متن است ، همخوانی دارد. در نسخه های اولیه ROUGH از دقت در F_measure استفاده می شد که در رابطه آن دقت هم دخالت داشت .نسخه ROUGH 1/5/5 به صورت زیر امتیازدهی انجام می داد :
•ROUGE-1. . . n : هم پوشانی _nموقعیتی _n) نگاشتی) بین خلاصه سیستم و خلاصه ها ی مرجع.
•ROUGE-L : مانند ROUGE-W است با این تفاوت که به منظور توسعه کلمات متوالی، از سیستم وزن دهی استفاده می کند.
•ROUGE-Sn : از هم_وقوعی آماری دونگاشتی ، بدون محدودیت در طول فاصله، و با حداکثر فاصله n کلمه عبور می کند .
•ROUGE-Sun : مانند ROUGE-Sn ، با این تفاوت که تک نگاشت ها درنظر گرفته نمی شوند.
Rough همچنین امکان ریشه یابی (با الگوریتم Porter) و حذف کلمات توقف را پیش از محاسبه معیار می دهد. این امکانات متاسفانه تنها برای زبان انگلیسی طراحی شده است.
Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار
ابزار ارزیابی ( Rouge( A Package for Automatic Evaluation of Summaries
ابزار Rouge معروفترین ابزار برای ارزیابی در خلاصه سازی خودکار می باشد که البته از آن در دیگر کاربردهای پردازش زبان طبیعی   و بازیابی اطلاعات  هم استفاده شده است. Rouge مخفف جمله ی “Recall-Oriented Understudy for Gisting Evaluation” به معنای “ارزیابی مبتنی بر یادآوری برای خلاصه” می باشد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات  و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به ROUGE-N، ROUGE-L، ROUGE-W و ROUGE-S می توان اشاره کرد. در ادامه به این معیار ها اشاره می کنیم.
معیار ارزیابی ROUGE-N
معیار ارزیابی ROUGE-L: Longest Common Subsequence
معیار ارزیابی ROUGE-W: Weighted Longest Common Subsequence
معیار ارزیابی ROUGE-S: Skip-Bigram Co-Occurrence Statistics
معیار ارزیابی ROUGE-SU: Extension of ROUGE-S

معیارهای ارزیابی متون خلاصه

این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیار ها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات  و جفت کلمات را محاسبه می نمایند. از جمله این معیار ها به تعداد واژگان مشترک، تعداد جفت کلمات مشترک با فاصله آزاد در متن ، تعداد n تایی های مشترک در متن، ، طول بزرگبرین زیر رشته مشترک و طول بزرگبرین زیر رشته مشترک وزن‌دار می‌توان اشاره کرد. در ادامه به این معیار ها اشاره خواهد شد.

معیار ارزیابی تعداد واژگان مشترک

به عنوان ساده‌ترین معیار شباهت دو متن می‌توان تعاد واژگان مشترک بین آنها را در نظر گرفت. در این معیار تعداد واژگان مشترک بین خلاصه ماشینی با هریک از خلاصه‌های انسانی محاسبه می شود و بر تعداد کل واژگان تقسیم می گردد. سپس میانگسن این پمج عدد به عنوان معیار ارزیابی بازگزدانده می شود.

معیار ارزیابی  تعداد n تایی های مشترک

این معیار، روشی است که مبتنی بر فراخوانی n تایی ها بین یک خلاصه سیستمی و مجموعه ای از خلاصه های انسانی می باشد. در این معیار تعداد n تایی‌های مشترک بین خلاصه‌های انسانی و خلاصه ماشینی بر کل تعدادnتایی‌های موجود در خلاصه انسانی تقسیم می گردد، که در آن n  بر گرفته شده از طول n تایی می باشد.

پر واضح است که این معیار، یک معیار مبتنی بر فراخوانی  می باشد. معیار مشابه BLEU که در ترجمه ماشینی مورد استفاده قرار می گیرد یک روش مبتنی بر دقت  می باشد. این معیار میزان انطباق یک ترجمه ماشینی را با تعدادی از ترجمه های انسانی، از طریق محاسبه ی میزان درصد n تایی هایی که بین دو ترجمه مشترک هستند ارزیابی می کند.

لازم به یادآوری است که در محاسبه این معیار هرچه تعداد خلاصه های مرجع بیشتر شود ، تعداد n تایی ها هم در معادله بیشتر خواهد شد که این امر معقول می باشد چراکه ممکن است چندین خلاصه خوب موجود باشد. هر زمان که تعدادی خلاصه مرجع به مجموعه خلاصه های ایده آل افزوده شود، در حقیقت فضای خلاصه های جایگزین و مطلوب افزوده خواهد شد.

معیار ارزیابی طولانی‌ترین زیررشته مشترک

در این معیار ارزیابی از الگوریتم های محاسبه طولانی ترین زیر رشته مشترک بین دو رشته  استفاده می شود.

یکی از مزایای این معیار این است که نیازی به محاسبات انطباق متوالی ندارد. مزیت دوم این روش این است که به صورت اتوماتیک طولانی‌ترین زیر رشته ی nتایی را در نظر می گیرد و بنابراین نیازی به تعیین طول n تایی پیش فرض نمی باشد.  همانطور که قبلا هم اشاره شد این معیار از F-Measure برای ارزیابی استفاده می کند و این در حالی است که در معیار تعداد n تایی های مشترک از معیار Recall استفاده می شود. Recall  میزان انطباق کلمات جمله های خلاصه ی مرجع (ایده آل) در خلاصه‌ی سیستمی را محاسبه می کند. Precision بر عکس Recall بوده و میزان انطباق کلمات خلاصه های سیستمی در خلاصه مرجع را محاسبه می کند. هر دو فاکتور دقت و فراخوانی، به ترتیب بین کلمات توجهی نمی‌کنند و این یک نقطه ضعف برای معیار تعداد n تایی های مشترک می باشد. این موضوع در طولانی‌ترین زیر رشته‌ی مشترک در نظر گرفته می شود. به مثال زیر توجه نمایید

مثال : فرض کنید که سه جمله S1 و S2 وS3 به صورت زیر موجود باشند.

S1. police killed the gunman

S2. police kill the gunman

S3. the gunman kill police

فرض می کنیم S1 به عنوان مرجع بوده و S2 و S3 هم جملات خلاصه های سیستمی باشد. S2 و S3 امتیازات یکسانی را در تعداد ۲ تایی های مشترک کسب می‌کنند چراکه هر ۲ جمله شامل یک ۲تایی مشترک  “the gunman” با جمله مرجع می باشند و این در حالی است که معنای این دو جمله کاملا متفاوت از همدیگر می باشد. در ارزیابی با طولانی‌ترین زیر رشته مشترک ، جمله S2 امتیاز ۳/۴=۰.۷۵ و جمله S3 امتیاز ۲/۴=۰.۵ را کسب می کنند. بنابراین در این مثال با ارزیابی طولانی‌ترین زیر رشته مشترک ، جمله دوم امتیاز بیشتری نسبت به جمله سوم کسب خواهد  کرد.

به هر حال LCS دارای یک مشکل هم می باشد و آن هم این است که فقط به بزرگترین زیر رشته توجه می کند و به سایر زیررشته ها توجهی ندارد.به عنوان مثال در جمله

S4. the gunman police killed

الگوریتم LCS ، یکی از زیر رشته های “the gunman” یا  “police killed” و نه هر دو را در نظر گرفته و بر همین اساس امتیاز جمله ۴ و جمله ۳ در معیار  طولانی‌ترین زیر رشته مشترک یکسان می شود. در معیار تعدادnتایی‌های مشترک جمله ۴ به جمله ۳ ترجیح داده می شود.

در قسمت قبل به محاسبه طولانی‌ترین زیر رشته مشترک در سطح جمله اشاره شد. برای محاسبه آن در سطح خلاصه هم مانند قسمت قبل از LCS استفاده می شود. اگر خلاصه مرجع شامل u جمله و در مجموع m کلمه باشد و خلاصه سیستمی شامل v جمله و n کلمه باشد معیار ارزیابی طولانی‌ترین زیر رشته مشترک به صورت زیر محاسبه خواهد شد.

 

معیار ارزیابی طولانی‌ترین زیر رشته مشترک وزن‌دار

LCS ویژگی های جذابی دارد که در قسمت قبل به آنها اشاره کردیم.  متاسفانه LCS مشکل دیگری هم دارد و آن عدم در نظر گرفتن فاصله قرار گیری بین کلمات می باشد. به عنوان مثال جمله مرجع X و جملات خلاصه Y1 و Y2 را به صورت زیر در نظر بگیرید:

X:  [A B C D E F G]

Y1: [A B C D H I K]

Y2: [A H B K C I D]

با معیار طولانی‌ترین زیر رشته مشترک ، Y1 و Y2 هر دو به طور یکسان امتیاز می گیرند. در حالی که Y1 باید امتیاز بیشتری کسب نماید. طولانی‌ترین زیر رشته مشترک وزن‌دار با بخاطر سپردن طول کلمات متوالی این مشکل را حل می کند..

معیار ارزیابی تعداد جفت کلمات مشترک با فاصله آزاد در متن

به هر جفت کلمه (با حفظ ترتیب) در جمله، Skip-bigram گفته می شود. این معیار با اندازه گیری تعداد Skip-bigram های مشترک بین خلاصه های سیستم و خلاصه های مرجع محاسبه می شود.  به عنوان مثال جملات زیر را در نظر بگیرید :

S1. police killed the gunman

S2. police kill the gunman

S3. the gunman kill police

S4. the gunman police killed

هر جمله ای C(4,2) = 6    تا  Skip-bigram دارد.

S1 = ( “police killed”, “police the”, “police gunman”, “killed the”, “killed gunman”, “the gunman” )

با محاسبه تعداد انطباق ها در خلاصه های مرجع و سیستمی این معیار محاسبه می شود. از این معیار بیشتر در ارزیابی ترجمه ماشینی استفاده می شود.

 

مجموعه داده های استاندارد برای خلاصه سازی

یکی از چالش های مهم در امر خلاصه سازی متون، بحث ارزیابی روش های ارائه شده است. برای یک ارزیابی مناسب و دقیق، احتیاج به یک مجموعه داده ی مناسب و استاندارد می باشد. در مقالات مختلف از داد های مختلفی تا کنون استفاده شده است که از جمله آنها می توان به مجموعه داده های خبری BBC، CNN، TREC، CASTcorpus و DUCcorpus اشاره نمود. با توجه به بررسی های انجام شده، مجموعه داده های (DocumentUnderstandingConferences(DUC انتخاب شده اند. در ذیل مختصرا این مجموعه داده ها شرح داده شده است.
داده های استاندارد DUC
کنفرانس DUC از سال ۲۰۰۱ زیر نظر NIST شروع به انتشار داده های مورد نیاز برای خلاصه سازی متون کرده است و تا کنون ۷ مجموعه از داده ها را تحت عنوان DUC2001 تا  DUC2007 ارائه نموده است. هر کدام از این مجموعه ها با اهداف خاصی انتشار یافته اند. هدف اصلی این کنفرانس کمک در ارزیابی روش های خلاصه سازی خودکار متون و بررسی روش های ارزیاب خلاصه سازی می باشد. مجموعه داده های DUC2001 تا  DUC2004 برای خلاصه سازی تک سندی و چند سندی تولید شده اند. مجموعه داده های DUC2005 تا  DUC2007 هم فقط برای خلاصه سازی چند سندی تولید شده اند. با توجه به اینکه مجموعه داده DUC2007 آخرین مجموعه از این داده ها و کامل¬ترین آنها می باشد، در حال حاضر اکثر مقالات این مجموعه مورد ارجاع قرار می گیرد. داده های DUC2007 در مجموع شامل ۴۵ موضوع بوده که هر کدام شامل ۲۵ سند می باشد. ۱۰ نفر از اعضای NIST وظیفه نوشتن خلاصه های دستی برای این مجموعه را بر عهده داشته اند به طوری که برای هر موضوع ۴ نفر به صورت تصادفی انتخاب شده و خلاصه های چکیده ای تولید کرده اند.
گزارش‌های جدید از ارزیابی خودکار خلاصه‌سازهای ماشینی فارسی

امروزه ابزارهایی نظیر خلاصه‌سازهای خودکار و مترجم‌های ماشینی، توجه زیادی را به خود جلب نموده‌اند و فعالیت‌های زیادی برای طراحی چنین ابزارهایی در سرتاسر جهان انجام شده است. در زبان فارسی هم نظیر دیگر زبان‌ها تلاش‌هایی در این زمینه صورت گرفته است. از این رو ارزیابی چنین ابزارهایی از اهمیت ویژه‌ای برخوردار است. در این پایان­نامه، ابزاری به منظور ارزیابی سیستم­های خلاصه­سازی خودکار ارائه شده است که البته قابلیت استفاده در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات را نیز دارد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه­ها به صورت خودکار، از طریق مقایسه آنها با خلاصه­های تولید شده توسط انسان (خلاصه­های ایده­آل) می­باشد. این معیارها تعداد واحدهایی که بین خلاصه­های سیستمی و خلاصه­های انسانی هم­پوشانی دارند نظیر n تایی­ها، رشته­ی کلمات و جفت کلمات را محاسبه می­نمایند. بدیهی است برای انجام مقایسه­ی متون در سطح معنا در مورد خلاصه­های چکیده­ای، مقایسه­ی ظاهر لغات کافی نمی­باشد و بهره­گیری از شبکه­ی واژگان، ضروری به نظر می­رسد که با ایده­ای مناسب برای زبان فارسی به کار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است.

ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکره­ای عظیم و تست ابزار بر روی اسناد این پیکره می­باشد. پیکره­ای مناسب شامل ۱۰۰ متن خبری و ۱۰۰۰ خلاصه در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان خلاصه­یار تولید شد که ۵۰۰ عدد چکیده­ای و ۵۰۰ عدد استخراجی می‌باشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.

 

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

نوزده − 1 =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/