پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی

عنوان : خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی
Title: Concept based Automatic Text Summarization

1- تعريف مساله، پیشینه، اهداف و سوالات تحقيق:
1-1- مقدمه : با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات و کتب منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست به مطالب و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان بدنبال راهکاری برای انتخاب درست و فشرده مطالب گردند. از این رو خلاصه سازی خودکار متون از سال ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. خلاصه سازي خودکار سند ، يعني توليد يک نسخه مختصر تر از سند اصلي توسط يک برنامه کامپيوتري به نحوي که ويژگي ها و نکات اصلي سند اوليه حفظ شود. بنابر تعريف ارائه شده در استاندارد ISO 215 سال 1986، خلاصه ” يک بازگويي مختصر از سند ” مي باشد.
خلاصه سازی به دو دسته کلی استخراجی و چکیده ای تقسیم می شود. در روش استخراجی ساختار جملات تغییر نمی کند. در این دسته ابتدا با توجه به الگوریتم انتخاب شده به جملات وزن داده می شود و سپس جملات با وزن بالاتر به عنوان جمله های مهم انتخاب می شوند. در روش چکیده ای ساختار جمله ها به طور کلی می تواند تغییر یابد. این روش بسیار شبیه به مدل خلاصه سازی یک انسان می باشد. با توجه به پیچیدگی های بسیار زیاد این روش، علی رغم طولانی بودن تاریخچه آن، مقالات بسیار اندکی در زمینه خلاصه سازهای چکیده ای ارائه شده است و به تقریبا می توان گفت اکثر روش های معتبر و قابل استفاده ارائه شده، استخراجی می باشند. از یک دیدگاه دیگر خلاصه ها می توانند تک سندی و یا چند سندی باشند. در خلاصه سازی چند سندی، خلاصه سازی بر روی اسنادی صورت می گیرد که همگی در مورد یک موضوع بوده ولی جهت دید آنها متفاوت از یکدیگر می باشد. اما در خلاصه سازی تک سندی، تنها با یک سند مواجه هستیم. پیچیدگی ها در روش چند سندی به مراتب بیشتر می باشد چراکه ممکن است ما چندین سند بداریم که هر کدام در ارتباط با موضوعی بوده ولی دیدگاهایشان با یکدیگر متفاوت و حتی بعضا متناقض با یکدیگر باشد. ایجاد خلاصه ای که دارای خوانایی و پیوستگی مناسبی باشد در این روش ها سخت تر می باشد.[1] 1-2- تاریخچه : شروع خلاصه سازي متن به سال 1950 برمي گردد. به دليل کمبود کامپيوترهاي قدرتمند و مشکلات موجود براي پردازش زبانهاي طبيعي (NLP) ، کارهاي اوليه بروي مطالعه ظواهر متن (مانند تعداد کلمات پر کاربرد، موقعيت جمله و عبارات اشاره ، موضوع و …) ، متمرکز شده بود. مسلما صرف استناد به ویژگی های ظاهری متن نمی توانست منجر به تولید یک خلاصه دقیق و قابل استفاده گردد. طی سال 1970 تا 1980 با معرفی هوش مصنوعي، مبحث خلاصه سازی هم از این روش ها بی نصیب نماند و روش های مختلف موجود در بحث هوش مصنوعی در خلاصه سازی استفاده شد. ايد ه ي AI استخراج نمايش هاي دانش ، مانند فريم ها يا الگوها، براي شناسايي موجوديت هاي مفهومي از متن ، و استخراج روابط بين موجوديت ها با مکانيزمهاي استنتاج بود. مشکل اصلي آن است که فريم يا الگوهاي تعريف شده محدوديت هايي دارند و ممکن است به تحليل کامل موجوديت هاي مفهومي منجر نشود.
1-3- مروری بر روش ها : به طور کلی از یک دیدگاه ، روش های خلاصه سازی را می توان به سه دسته زیر تقسیم بندی کرد :
1- روش های مبتنی بر تکنیک های آماری
2- روش های مبتنی بر تکنیک های هوش مصنوعی
3- روش های که از روابط معنایی سطوح بالاتر استفاده می کنند.
اولین روش خلاصه سازی متن ، در سال 1950 توسط آقای Luhn ارائه گشت که مبتنی بر فرکانس کلمه بود. در سال های بعد روش های آماری زیادی معرفی شدند که برخی از آنها عبارتند از :
1) روش مبتنی بر فرکانس نسبی کلمات
2) روش های مبتنی بر موقعیت جملات
3) روش های مبتنی بر موضوع
4) روش های مبتنی بر عبارات اشاره
5) روش های مبتنی بر دسته بندی کننده ای بیزین.
اگر چه این روش ها در سال های دور بسیار استفاده می شدند ولی امروزه به تنهایی بکار نمی روند. بر روش های آماری ایرادات عمده ای وارد است که از جمله آنها می توان به موارد زیر اشاره کرد :
الف)- هم آوایی ها : به کلماتی که معنایشان در درون جمله مشخص می شود، در اصطلاح زبان شناسی هم آوایی گفته می شود. به عنوان مثال کلمه ” شیر ” با توجه به اینکه در چه جمله ای به کار برده شود به سه معنی شیر (حیوان) ، شیر (نوشیدنی)، شیر (شیر آب) بکار می رود. در روش های مبتنی بر تکنیک های آماری ، تمامی این معنایی یکسان در نظر گرفته می شوند.
ب)- خوانایی و پیوستگی مطالب : با توجه به اینکه صرفا مبتنی بر ظاهر متن می باشند به همین دلیل متون خلاصه شده توسط این روش ها عموما دارای پیوستگی و خوانایی بالایی نمی باشد.
ج)- هم خانواده ها : در این روش ها کلمات هم خانواده جدا از همدیگر در نظر گرفته می شوند. مثلا کلمه خودرو و اتومبیل و ماشین هر سه به یک معنا ولی با ظاهر متفاوت بوده که در این روش های آماری هم جدا از هم دیگر در نظر گرفته می شوند.
بدلیل وجود این مشکلات عمده، دسته ی دیگری از خلاصه سازها که از روابط معنایی هم استفاده می کنند معرفی شدند. برخی از این روش ها عبارتند از :
1) روش های مبتنی بر زنجیره های لغوی[2] 2) روش های مبتنی بر شبکه گراف [4] 3) روش های مبتنی بر LSI یا LSA [3][5][6][7][8]

در ادامه به معرفی مختصر این روش ها می پردازیم :
روش مبتنی بر زنجیره های لغوی : در روش های مبتنی بر زنجیره های لغوی ، سعی بر آن است که زنجیره های معنایی موجود در اسناد تشخیص داده شده و در گام بعد جملات خلاصه متناسب با این زنجیره ها انتخاب می شوند. زنجیره های لغوی واحدهایی از متن هستند که به صورت یک زنجیر به هم متصل شده اند. در این دسته از روش ها در گام اول کلمات کاندید استخراج شده و سپس این کلمات با اندازه گیری شباهت معنایی مبتنی بر شبکه واژگان زنجیره ها را تشکیل می دهند. در پایان هم خلاصه متناسب با زنجیره های استخراج شده تولید می شود. نسبت به روش های آماری ، این روش ها از دقت بالاتری برخوردار بوده و تا حدی قادر به تشخیص روابط معنایی بوده و خوانایی و پیوستگی بیشتری دارند.
روش های مبتنی بر شبکه گراف : در روش های مبتنی بر گراف هم عموما جملات گراف به عنوان نودهای گراف در نظر گرفته می شوند. وزن یال های گراف هم به برابر میزان ارتباط جملات در نظر گرفته می شود که عموما با فاصله کسینوسی محاسبه می شود. پس از محاسبه وزن یال ها، آنهایی که وزنشان از یک حد آستانه ای کمتر باشند حذف می شوند. سپس با الگوریتم های مختلفی می توان جملات خلاصه را تولید نمود. مثلا جملاتی که بیشترین لینک را دارند به عنوان مهمترین جملات انتخاب می شوند.

فایل Microsoft Word

تعداد صفحه 12

به علاوه فایل PowerPoint ارائه

تعداد اسلاید 18

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com