اولین گام در پردازش هر نوع داده ای شناسایی ماهیت آن است. به همین دلیل در مقدمه زبان طبیعی به مرور نظریه های فلسفه زبان خواهیم پرداخت. این نظریه ها به ما کمک می نمایند تا دریافت مناسبی از مشکلات روش های حل مسئله پیدا نماییم. اما برداشتی که از زبان طبیعی داریم با آنچه در پردازش آن رخ می دهد متفاوت است. به عبارت دیگر مبتنی بر فلسفه زبان، بین مدل های پردازش زبان تا خود زبان و ماهیت آن فاصله زیادی وجود دارد که باید این فاصله را به خوبی شناسایی نماییم. پس از شناسایی این نیازها می توان گفت که پردازش های زبان بر دونوع برخط و برون خط می باشند. هر یک از این دو دارای کارکردهای خاص خود هستند که به بررسی و بیان این کارکردها و ویژگی خواهیم پرداخت. برای دستیابی به روش های پردازش برخط زبان طبیعی و حتی پردازش های برون خط برروی حجم وسیعی از داده ها، احتیاج به ساختارهای داده کارایی داریم. کاربردها و نگاه های جدید به حوزه پردازش زبان را می توان انگیزه اصلی برای حرکت در این مسیر دشوار و پر پیچ و خم دانست. با شناخت دقیق در این حوزه می توان با شناخت دقیق از آینده این حوزه نسبت به انتخاب درست کاربردها و مسائل دیگر اقدام نمود و مسیر مناسبی برای توسعه های آینده انتخاب نمود.
سرفصل ها
Outline in classic categorization
Outline in practical categorization
Natural Language Processing (NLP)
Text Summarization
NLP Tools
پردازش متن در اصل روش ها و عمل جستجو ، جابجایی (تعویض) و تجزیه متن و نوشته هایی با منطق و ساختاری معمولا پیچیده می باشد .در این مبحث ما قصد داریم متن هایی را به عنوان ورودی دریافت کرده و اعمال مختلفی بر روی آن آنجام دهیم . این مبحث یکی از مهمترین بحث های برنامه نویسی می باشد و در زمینه های بسیاری کاربرد دارد . در ساده ترین حد از تجزیه و دریافت پاراامتر های ورودی خط فرمان گرفته تا تکنولوژی هایی طراحی کامپایلر ها ، XML و … کارایی فراوانی دارد . هدف اساسی و اصلی این بخش آشنایی و کار با الگوی منظم و با قاعده یا Regular Expression می باشد . یک الگوی منظم یک بیان فشرده و با قاعده برای توصیف و مشخص کردن الگو و طرح های پیچیده در یک متن می باشد . برنامه نویس با استفاده از یک الگو منظم می تواند الگو های یکسان و منطبق بر آن در متن را جستجو کرده و سپس اعمالی چون ویرایش ، حذف ، تعویض و … را پیاده سازی نماید . شما حتما قبلا نیز از الگو های منظم در برنامه نویسی یا ابزار های مختلف استفاده کرده اید . برای مثال در دستورات سیستمی چون ls , dir , grep و … از انواع بسیار ساده الگوهای منظم استفاده می گردد . زمانی که شما بجای چندین کاراکتر از نشان ستاره (*) و بجای یک کاراکتر از علامت سوال (؟) استفاده می کنید در حقیقت یک الگوی منظم و باقاعده را به دستور ارسال می نمایید . پایتون یکی از قوی ترین زبانهای موجود در زمینه پردازی متن می باشد . امکانات و سهولت استفاده از آن باعث سهولت برنامه نویسی شده و امکان ایجاد برنامه هایی بسیار قدرتمند و سریع را فراهم می آورد . ناگفته نماند که مبحث پردازش متن و کار با الگو های منظم Regular Expression می تواند بسیار پیچیده و گیج کننده باشد . ولی با تمرین و مطالعه و استفاده از آن قابل فهم تر بنظر خواهد رسید .
رشد تعاملات بینالمللی در زمینههای مختلف و وجود زبانهای متفاوت در گوشه و کنار دنیا مشکلات زیادی برای افراد به منظور برقراری ارتباط با یکدیگر بوجود آورده است. از آنجا که نمیتوان برای حل این مشکل آموزش زبانهای مختلف را برای همه اجباری نمود و همچنین دسترسی به مترجم انسانی نیز در همه جا ممکن نیست؛ از این رو استفاده از کامپیوتر برای ترجمه به شدت احساس میشود. به این نوع مترجم اصطلاحاً مترجم ماشینی گفته میشود. درواقع اولین تلاشها در این زمینه از سال ۱۹۴۰ آغاز گردید و تا به امروز پیشرفتهای بسیار خوبی نیز به دست آمده است. اصولاً برای ایجاد یک مترجم ماشینی از دو رویکرد مبتنی بر قانون و مبتنی بر پیکره استفاده میشود. در رویکرد اول براساس زبان مبدا و مقصد یکسری قوانین نوشته شده و براساس آن عمل ترجمه صورت میگیرد که یکی از محدودیتهای اصلی آن همین محدود بودن آن به زبان میباشد. در رویکرد دوم براساس نمونههای قبلی و ترجمههای انسانی انجام شده به ترجمه متون جدید میپردازیم. در این رویکرد دیگر نیاز به قوانین برای ترجمه نیست و فقط نیازمند یک پیکره موازی و دوزبانه هستیم.
با گسترش روزافزون حجم اطلاعات موجود در وب و افزایش چشم گیر مقالات منتشر شده در زمینه های مختلف علمی ، دسترسی درست و مطالعه اطلاعات مورد نیاز، همواره یکی از مشکلات محققان و پژوهشگران قرن ۲۱ می باشد. اینکه چه طور از یک طرف با این حجم انبوه از داده ها و از طرفی دیگر با زمان محدودی که در اختیار داریم ، بتوانیم مطالب مورد نیاز خود را مطالعه کنیم و یا اینکه چه طور می توان در روز چندین کتاب را مطالعه نمود و یا اینکه آیا می توان سیستمی طراحی نمود که بتواند با داده های موجود به تمامی سوالات ما پاسخ دهد، اینها سوالاتی است که پاسخ آنها را می توان در یک سیستم خلاصه ساز متن جستجو کرد.
Intoduction to information retrieval