پردازش متن – متن کاوی – NLP

فایل اول: متن كاوي چیست؟

فایل Word – زیان فارسی – شامل 9 صفحه

چکيده : تقاضا براي اطلاعات فرابري شده ا ز منابع متني به طور فزاينده اي در حال افزايش است. ذات غيرساخت يافته ي اين متون، اعمال همان روشهايي را که ما در مورد ديتابيسها بکار مي بريم، غير ممکن مي سازد.در اين مقاله تلاش ما بر اين است تا کاربردهاي مهمي را که از پردازش متون مورد انتظار است، بررسي کنيم. به اينگونه پردازشها که روي متون اعمال مي شود، متن-کاوي مي گوييم[1] و سعي خواهيم کرد تا جنبه هاي مختلف آنرا کشف کنيم.

1 معرفي

اطلاعات باعث قدرت است و دانش قدرتمند تر. اکنون بيشتر از 80 درصد از دانش ما به صورت متن، مستندات و ديگر صورتهاي رسانه اي نظير ويديو و صدا نگهداري مي شود. اگر از منظر علوم کامپيوتري به اين مستندات نگاه کنيم همه ي آنها به طبيعتي غير ساختيافته وابسته اند. يک فرد براي دريافت دانش از اطلاعات يک متن، بايستي ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد چه معاني و مفاهيمي در آن موجود است، چه ارتباطي ميان مفاهيم وجود دارد و از ميان اين مفاهيم کدام جديد است و کدام قديمي. با اين حال در اين عصر تکنولوژي، ما معتقديم که هر چيزي بايد بتواند اتوماتيک انجام شود حتي اگر اين کار ” درک معني متن” باشد. اين تنها يکي از نامهايي است که شما براي اين نوع از پردازش مي يابيد. “متن-کاوي”، “کاوش داده هاي متني”[2] و نيز نام معروف “کشف دانش در متن”[3] يا KDT، از نامهاي بيشتر مورد قبول دراين زمينه هستند.

متن-کاوي، در تکنولوژي هاي متفاوتي ريشه دارد و از اينرو اين تعجب انگيز نيست که تعاريف زيادي نيز براي آن وجود دارد. افرادي که داراي پيشينه کار در زمينه ي داده-کاوي[4] بودند مي خواستند که همان مفاهيم و روشهاي موجود در داده-کاوي را بر متون اعمال کنند و تعاريف شان نيز منطبق بر همين زمينه بود. اما کساني که از جامعه ي زبان دانان محاسباتي[5] آمده بودند، قصد داشتند که اين توانايي را به کامپيوتر بدهند که بتوانند متن را بفهمند و اين غايت چيزي است که از متن-کاوي مورد انتظار است. در باره ي گستره ي تعاريف موجود از متن-کاوي در بخش 2 بيشتر خواهيم ديد. بخش 3 اساساً به مبحث کاربردهاي متن-کاوي مي پردازد. بخش 4 روشهاي کلي متن-کاوي را مورد کنکاش قرار مي دهد. درنهايت در بخش آخر ما يک نتيجه گيري کلي ارائه خواهيم کرد.

کاربردهاي متن-کاوي:

جستجو وبازيابي

گروه بندي[12] ( دسته بندي بدون نظارت[13]) و طبقه بندي[14] (دسته بندي بانظارت)

خلاصه سازي

استخراج روابط

يافتن و تحليل ترند[15] ها

برچسب زدن نحوي[16]

ساخت اتوماتيک آنتولوژي[17] و تزاروس[18]

….

==================================================================

فایل دوم : مرور ادبیات متن کاوی

فایل Word – زیان فارسی – شامل 10 صفحه

مرور ادبیات
در این فصل به مرور مفاهیم مرتبط با پایان نامه، پیش نیازهای لازم برای درک مفاهیم مطرح شده و کارهای انجام شده در ارتباط با موضوع پایان نامه می پردازیم. ابتدا تعاریف پایه در پردازش زبان طبیعی ذکر گردیده است. سپس مروری مختصر بر خلاصه سازی خودکار متن و در ادامه مروری بر کارهای انجام شده در زمینه ی خلاصه سازی متون فارسی آمده است. پس از آن، از آنجا که مشابهت معنایی بین اجزای مختلف متن، جایگاه ویژه ای در کاربردهای مختلف پردازش متن به ویژه خلاصه سازی و ارزیابی خلاصه سازها دارا می باشد، به معرفی تلاش های انجام شده در زمینه ی محاسبه ی شباهت معنایی کلمات و جملات می پردازیم. پس از آن روش های مورد استفاده برای ارزیابی خلاصه های ماشینی و ابزارهای طراحی شده برای ارزیابی خلاصه سازها مورد بررسی قرار می گیرد. در انتها به معرفی مجموعه داده های استاندارد موجود برای خلاصه سازی و چگونگی ارزیابی عملکرد ابزارهای ارزیابی خودکار خلاصه سازها خواهیم پرداخت.
تعاریف پایه زبان شناسی
پردازش متن از جمله مسائل اساسی در حوزه هوش مصنوعی و شناخت رایانشی است که در چند دهه اخیر، توجهات گسترده ای را در قالب های عدیده به خود معطوف کرده است. در پردازش متون زبان طبیعی با زبان نوشتاری سر و کار داریم. این مسأله باعث می شود گرچه به جهت از دست دادن اطلاعات گویشی مانند لحن گوینده، آهنگ صدا، تاکید و مکث، با مشکلات و ابهاماتی مواجه شویم، ولی در مقابل با شکل محدودتر و با قالب دستوری مشخص تری از زبان کار می کنیم. پردازش متون زبان فارسی در سطوح چهارگانه ی آوایی، ساخت‌واژی، نحو و معنایی و همچنین در حوزه‌های کاربردی متعددی امکان پذیر می باشد.
قبل از پرداختن به هر مطلبی در زمینه پردازش زبان طبیعی، برای آشنایی بهتر با مباحث مربوط به پردازش زبان طبیعی، خلاصه سازی و چگونگی ارزیابی آنها، بهتر است با مفاهیم پایه و تعاریف اولیه ی این حوزه که به منزله الفبای پردازش متن می باشند، آشنا شویم. اغلب اقدامات مربوط به این مفاهیم، در واقع نوعی پیش-پردازش متن می باشد؛ بدین معنی که انجام این پردازش ها بر روی متن، در واقع آماده سازی متن به منظور اعمال فرآیندها و فعالیت های بعدی می باشد. در ادامه ی این بخش، تعاریف پایه و ابتدایی مورد نیاز، توضیح داده شده است. در کاربردهای مختلف پردازش زبان طبیعی عموما از این تعاریف پایه استفاده می شود.

1- مرور ادبیات 2
1-1- تعاریف پایه زبان شناسی 2
1-1-1- زبان فارسی 3
1-1-2- ایست واژه ها (Stop words) 4
1-1-3- ریشه‌یابی 4
1-1-4- برچسب زنی بخش های سخن (POS) 5
1-1-5- پارسر 6
1-1-6- درخت تجزیه 6
1-1-7- برچسب‏زنی نقش معنایی کلمات (SRL) 7
1-1-8- شبکه واژگان 8
1-2- خلاصه سازی خودکار متن 10

==================================================================

فایل سوم: ابزارهای پردازش متن یا متن کاوی

فایل Word – زیان فارسی – شامل 3 صفحه

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به پايه بودن جمله در بسياري از پردازش هاي زباني، خروجي دقيق اين ابزار از درجه ي اهميت بالايي برخوردار است. از نمونه هاي انگليسي آن مي توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . لازمه ي ايجاد اين ابزار جمع آوري واحد هايي است که در زبان فارسي به عنوان واحد هاي مستقل معنايي شناخته مي شوند. سپس بر اساس انتخاب هر کدام از اين واحدها متن بر اساس آن شکسته خواهد شد. از نمونه هاي انگليسي آن مي توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Named entity recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و … . براي تشخيص اينکه يک کلمه اسم است، راه هاي مختلفي وجود دارد که از جمله ي آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ريشه ي کلمه، استفاده از قواعد نحوي ساخت واژه و … مي باشد. در اين ابزار پس از تشخيص اسم ها با استفاده يک لغتنامه از اسامي افراد، مکان ها، مقادير عددي و … نوع اسم تشخيص داده مي شود. به نظر مي رسد که اين لغتنامه در فارسي موجود نمي باشد.

از جمله نمونه هاي انگليسي اين ابزار مي توان به Stanford NER و Illinois NER اشاره کرد.

Word-net

Stemmer

Similarity recognition

Chunker

Semantic role labeler

Annotator

Coreference resolution

Pos tagger

==================================================================

فایل چهارم: رویکردی بر پردازش زبان طبیعی و ابزار آن

فایل PDF – زیان فارسی – شامل 5 صفحه

پردازش متن

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com