دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
چهارشنبه , ۱۷ آذر ۱۳۹۵
آخرین مطالب
خانه -> پردازش متن -> خلاصه سازی -> پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی

پروپوزال کارشناسی ارشد: خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی

عنوان : خلاصه سازی خودکار مبتنی بر مفاهیم اسناد چند سندی متنی
Title: Concept based Automatic Text Summarization

1- تعریف مساله، پیشینه، اهداف و سوالات تحقیق:
۱-۱- مقدمه : با گسترش روزافزون حجم اطلاعات موجود در وب و افزایش چشم گیر مقالات و کتب منتشر شده در زمینه های مختلف علمی ، دسترسی درست به مطالب و مطالعه اطلاعات مورد نیاز، همواره یکی از مشکلات محققان و پژوهشگران قرن ۲۱ می باشد. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان بدنبال راهکاری برای انتخاب درست و فشرده مطالب گردند. از این رو خلاصه سازی خودکار متون از سال ها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. خلاصه سازی خودکار سند ، یعنی تولید یک نسخه مختصر تر از سند اصلی توسط یک برنامه کامپیوتری به نحوی که ویژگی ها و نکات اصلی سند اولیه حفظ شود. بنابر تعریف ارائه شده در استاندارد ISO 215 سال ۱۹۸۶، خلاصه ” یک بازگویی مختصر از سند ” می باشد.
خلاصه سازی به دو دسته کلی استخراجی و چکیده ای تقسیم می شود. در روش استخراجی ساختار جملات تغییر نمی کند. در این دسته ابتدا با توجه به الگوریتم انتخاب شده به جملات وزن داده می شود و سپس جملات با وزن بالاتر به عنوان جمله های مهم انتخاب می شوند. در روش چکیده ای ساختار جمله ها به طور کلی می تواند تغییر یابد. این روش بسیار شبیه به مدل خلاصه سازی یک انسان می باشد. با توجه به پیچیدگی های بسیار زیاد این روش، علی رغم طولانی بودن تاریخچه آن، مقالات بسیار اندکی در زمینه خلاصه سازهای چکیده ای ارائه شده است و به تقریبا می توان گفت اکثر روش های معتبر و قابل استفاده ارائه شده، استخراجی می باشند. از یک دیدگاه دیگر خلاصه ها می توانند تک سندی و یا چند سندی باشند. در خلاصه سازی چند سندی، خلاصه سازی بر روی اسنادی صورت می گیرد که همگی در مورد یک موضوع بوده ولی جهت دید آنها متفاوت از یکدیگر می باشد. اما در خلاصه سازی تک سندی، تنها با یک سند مواجه هستیم. پیچیدگی ها در روش چند سندی به مراتب بیشتر می باشد چراکه ممکن است ما چندین سند بداریم که هر کدام در ارتباط با موضوعی بوده ولی دیدگاهایشان با یکدیگر متفاوت و حتی بعضا متناقض با یکدیگر باشد. ایجاد خلاصه ای که دارای خوانایی و پیوستگی مناسبی باشد در این روش ها سخت تر می باشد.[۱] ۱-۲- تاریخچه : شروع خلاصه سازی متن به سال ۱۹۵۰ برمی گردد. به دلیل کمبود کامپیوترهای قدرتمند و مشکلات موجود برای پردازش زبانهای طبیعی (NLP) ، کارهای اولیه بروی مطالعه ظواهر متن (مانند تعداد کلمات پر کاربرد، موقعیت جمله و عبارات اشاره ، موضوع و …) ، متمرکز شده بود. مسلما صرف استناد به ویژگی های ظاهری متن نمی توانست منجر به تولید یک خلاصه دقیق و قابل استفاده گردد. طی سال ۱۹۷۰ تا ۱۹۸۰ با معرفی هوش مصنوعی، مبحث خلاصه سازی هم از این روش ها بی نصیب نماند و روش های مختلف موجود در بحث هوش مصنوعی در خلاصه سازی استفاده شد. اید ه ی AI استخراج نمایش های دانش ، مانند فریم ها یا الگوها، برای شناسایی موجودیت های مفهومی از متن ، و استخراج روابط بین موجودیت ها با مکانیزمهای استنتاج بود. مشکل اصلی آن است که فریم یا الگوهای تعریف شده محدودیت هایی دارند و ممکن است به تحلیل کامل موجودیت های مفهومی منجر نشود.
۱-۳- مروری بر روش ها : به طور کلی از یک دیدگاه ، روش های خلاصه سازی را می توان به سه دسته زیر تقسیم بندی کرد :
۱- روش های مبتنی بر تکنیک های آماری
۲- روش های مبتنی بر تکنیک های هوش مصنوعی
۳- روش های که از روابط معنایی سطوح بالاتر استفاده می کنند.
اولین روش خلاصه سازی متن ، در سال ۱۹۵۰ توسط آقای Luhn ارائه گشت که مبتنی بر فرکانس کلمه بود. در سال های بعد روش های آماری زیادی معرفی شدند که برخی از آنها عبارتند از :
۱) روش مبتنی بر فرکانس نسبی کلمات
۲) روش های مبتنی بر موقعیت جملات
۳) روش های مبتنی بر موضوع
۴) روش های مبتنی بر عبارات اشاره
۵) روش های مبتنی بر دسته بندی کننده ای بیزین.
اگر چه این روش ها در سال های دور بسیار استفاده می شدند ولی امروزه به تنهایی بکار نمی روند. بر روش های آماری ایرادات عمده ای وارد است که از جمله آنها می توان به موارد زیر اشاره کرد :
الف)- هم آوایی ها : به کلماتی که معنایشان در درون جمله مشخص می شود، در اصطلاح زبان شناسی هم آوایی گفته می شود. به عنوان مثال کلمه ” شیر ” با توجه به اینکه در چه جمله ای به کار برده شود به سه معنی شیر (حیوان) ، شیر (نوشیدنی)، شیر (شیر آب) بکار می رود. در روش های مبتنی بر تکنیک های آماری ، تمامی این معنایی یکسان در نظر گرفته می شوند.
ب)- خوانایی و پیوستگی مطالب : با توجه به اینکه صرفا مبتنی بر ظاهر متن می باشند به همین دلیل متون خلاصه شده توسط این روش ها عموما دارای پیوستگی و خوانایی بالایی نمی باشد.
ج)- هم خانواده ها : در این روش ها کلمات هم خانواده جدا از همدیگر در نظر گرفته می شوند. مثلا کلمه خودرو و اتومبیل و ماشین هر سه به یک معنا ولی با ظاهر متفاوت بوده که در این روش های آماری هم جدا از هم دیگر در نظر گرفته می شوند.
بدلیل وجود این مشکلات عمده، دسته ی دیگری از خلاصه سازها که از روابط معنایی هم استفاده می کنند معرفی شدند. برخی از این روش ها عبارتند از :
۱) روش های مبتنی بر زنجیره های لغوی[۲] ۲) روش های مبتنی بر شبکه گراف [۴] ۳) روش های مبتنی بر LSI یا LSA [3][5][6][7][8]

در ادامه به معرفی مختصر این روش ها می پردازیم :
روش مبتنی بر زنجیره های لغوی : در روش های مبتنی بر زنجیره های لغوی ، سعی بر آن است که زنجیره های معنایی موجود در اسناد تشخیص داده شده و در گام بعد جملات خلاصه متناسب با این زنجیره ها انتخاب می شوند. زنجیره های لغوی واحدهایی از متن هستند که به صورت یک زنجیر به هم متصل شده اند. در این دسته از روش ها در گام اول کلمات کاندید استخراج شده و سپس این کلمات با اندازه گیری شباهت معنایی مبتنی بر شبکه واژگان زنجیره ها را تشکیل می دهند. در پایان هم خلاصه متناسب با زنجیره های استخراج شده تولید می شود. نسبت به روش های آماری ، این روش ها از دقت بالاتری برخوردار بوده و تا حدی قادر به تشخیص روابط معنایی بوده و خوانایی و پیوستگی بیشتری دارند.
روش های مبتنی بر شبکه گراف : در روش های مبتنی بر گراف هم عموما جملات گراف به عنوان نودهای گراف در نظر گرفته می شوند. وزن یال های گراف هم به برابر میزان ارتباط جملات در نظر گرفته می شود که عموما با فاصله کسینوسی محاسبه می شود. پس از محاسبه وزن یال ها، آنهایی که وزنشان از یک حد آستانه ای کمتر باشند حذف می شوند. سپس با الگوریتم های مختلفی می توان جملات خلاصه را تولید نمود. مثلا جملاتی که بیشترین لینک را دارند به عنوان مهمترین جملات انتخاب می شوند.

فایل Microsoft Word

تعداد صفحه ۱۲

به علاوه فایل PowerPoint ارائه

تعداد اسلاید ۱۸

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

پنج × 1 =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/