خلاصهسازی خودکار متن به عنوان هستهی مرکزی طیف گستردهای از ابزارهای پردازشگر متن مانند خلاصهسازهای ماشینی، سیستمهای تصمیمیار، سیستمهای پاسخ گو، موتورهای جستجو و … از سالها پیش مطرح شده و همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است. بنابر تعریف ارائه شده در استاندارد ISO215، خلاصه، “یک بازگویی مختصر از سند” می باشد. خلاصه ی تولید شده از یک متن اولا باید از خوانایی و پیوستگی بالایی برخوردار بوده و ثانیا فاقد اطلاعات تکراری باشد. در ادامه، نخست تاریخچه ی خلاصه سازی متن و اهمیت خلاصه سازی خودکار بیان گردیده و سپس برخی از دسته بندی های مختلفی که برای روش های خلاصه سازی خودکار متن وجود دارد، ذکرخواهد شد.
امروزه با رشد چشمگیر حجم مستندات منتشر شده در وب و نیاز اساسی به نگهداری، دستهبندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی و بهرهگیری از ابزارهایی نظیر خلاصهسازهای خودکار و مترجمهای ماشینی، بیش از پیش خودنمایی میکند. حجم عظیم مطالب از یک سو و محدود بودن زمان از سوی دیگر موجب شد تا محققان به دنبال راهکاری برای انتخاب درست و فشرده مطالب گردند. خلاصهسازی خودکار متن به عنوان هستهی مرکزی طیف گستردهای از ابزارهای پردازشگر متن از سالها پیش همواره به عنوان یک موضوع مهم مورد بررسی و تحقیق قرار گرفته است.
خلاصهسازی خودکار سند، یعنی تولید یک نسخه مختصرتر از سند اصلی توسط یک برنامه رایانهای به نحوی که ویژگیها و نکات اصلی سند اولیه حفظ شود[MAN99]. بنابر تعریف ارائه شده در استاندارد ISO215، خلاصه “یک بازگویی مختصر از سند” میباشد. خلاصهسازی از دیدگاههای مختلف دارای تقسیمبندیهای متفاوتی میباشند. از یک دیدگاه به دو دسته خلاصه گزینشی و چکیدهای تقسیم میشوند. در خلاصههای گزینشی، متن خلاصه از کنار هم قرار گرفتن کلمات و جملات انتخابی متن مرجع بوجود میآید؛ درحالیکه در خلاصههای چکیدهای، لغات تغییر مییابند و جملات خلاصه میتوانند بازتولید گردند. دستهبندیهای دیگری هم برای روشهای خلاصهسازی وجود دارد که در قسمتهای بعدی به آنها پرداخته شده است.
خلاصهسازی خودکار توسط رایانه انجام میشود و به همین دلیل تفاوتهای زیادی با خلاصهای که توسط انسان تولید میشود دارد. انسانها با توجه به هوش و شعور ذاتی خود قادر به درک و فهم مفاهیم موجود در متن و ارتباط بین آنها میباشند و این در حالی است که انجام این عملیات توسط ماشین کار بسیار دشوار و پیچیدهای میباشد.
هدف نهایی سیستمهای خلاصهسازی تولید خلاصههایی با کیفیت نزدیک به خلاصههای انسانی میباشد. اما برای رسیدن به این مهم چالشهای زیادی پیش رو وجود دارد. مهمترین مشکل در گام نخست انتخاب مناسبترین جملات متن اصلی میباشد به نحوی که مطالب مهم و اصلی متن را پوشش داده، از پیوستگی و خوانایی بالایی برخوردار بوده، دارای ساختار گرامری مناسبی باشد و در عین حال فاقد افزونگی و جملات تکراری یا شبیه به هم باشد.