دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
پردازش متن - متن کاوی - NLP | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
چهارشنبه , ۱۷ آذر ۱۳۹۵
آخرین مطالب
خانه -> پردازش متن -> ابزارهای پردازش متن -> پردازش متن – متن کاوی – NLP

پردازش متن – متن کاوی – NLP

پکیج متن کاوی – شامل ۴ عدد فایل

 

فایل اول: متن کاوی چیست؟

فایل Word – زیان فارسی – شامل ۹ صفحه 

چکیده : تقاضا برای اطلاعات فرابری شده ا ز منابع متنی به طور فزاینده ای در حال افزایش است. ذات غیرساخت یافته ی این متون، اعمال همان روشهایی را که ما در مورد دیتابیسها بکار می بریم، غیر ممکن می سازد.در این مقاله تلاش ما بر این است تا کاربردهای مهمی را که از پردازش متون مورد انتظار است، بررسی کنیم. به اینگونه پردازشها که روی متون اعمال می شود، متن-کاوی می گوییم[۱] و سعی خواهیم کرد تا جنبه های مختلف آنرا کشف کنیم.

۱ معرفی

اطلاعات باعث قدرت است و دانش قدرتمند تر. اکنون بیشتر از ۸۰ درصد از دانش ما به صورت متن، مستندات و دیگر صورتهای رسانه ای نظیر ویدیو و صدا نگهداری می شود. اگر از منظر علوم کامپیوتری به این مستندات نگاه کنیم همه ی آنها به طبیعتی غیر ساختیافته وابسته اند. یک فرد برای دریافت دانش از اطلاعات یک متن، بایستی ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد چه معانی و مفاهیمی در آن موجود است، چه ارتباطی میان مفاهیم وجود دارد و از میان این مفاهیم کدام جدید است و کدام قدیمی. با این حال در این عصر تکنولوژی، ما معتقدیم که هر چیزی باید بتواند اتوماتیک انجام شود حتی اگر این کار ” درک معنی متن” باشد. این تنها یکی از نامهایی است که شما برای این نوع از پردازش می یابید. “متن-کاوی”، “کاوش داده های متنی”[۲] و نیز نام معروف “کشف دانش در متن”[۳] یا KDT، از نامهای بیشتر مورد قبول دراین زمینه هستند.

متن-کاوی، در تکنولوژی های متفاوتی ریشه دارد و از اینرو این تعجب انگیز نیست که تعاریف زیادی نیز برای آن وجود دارد. افرادی که دارای پیشینه کار در زمینه ی داده-کاوی[۴] بودند می خواستند که همان مفاهیم و روشهای موجود در داده-کاوی را بر متون اعمال کنند و تعاریف شان نیز منطبق بر همین زمینه بود. اما کسانی که از جامعه ی زبان دانان محاسباتی[۵] آمده بودند، قصد داشتند که این توانایی را به کامپیوتر بدهند که بتوانند متن را بفهمند و این غایت چیزی است که از متن-کاوی مورد انتظار است. در باره ی گستره ی تعاریف موجود از متن-کاوی در بخش ۲ بیشتر خواهیم دید. بخش ۳ اساساً به مبحث کاربردهای متن-کاوی می پردازد. بخش ۴ روشهای کلی متن-کاوی را مورد کنکاش قرار می دهد. درنهایت در بخش آخر ما یک نتیجه گیری کلی ارائه خواهیم کرد.

کاربردهای متن-کاوی:

جستجو وبازیابی

گروه بندی[۱۲] ( دسته بندی بدون نظارت[۱۳]) و طبقه بندی[۱۴] (دسته بندی بانظارت)

خلاصه سازی

استخراج روابط

یافتن و تحلیل ترند[۱۵] ها

برچسب زدن نحوی[۱۶]

ساخت اتوماتیک آنتولوژی[۱۷] و تزاروس[۱۸]

….

==================================================================

فایل دوم : مرور ادبیات متن کاوی 

فایل Word – زیان فارسی – شامل ۱۰ صفحه 

مرور ادبیات
در این فصل به مرور مفاهیم مرتبط با پایان نامه، پیش نیازهای لازم برای درک مفاهیم مطرح شده و کارهای انجام شده در ارتباط با موضوع پایان نامه می پردازیم. ابتدا تعاریف پایه در پردازش زبان طبیعی ذکر گردیده است. سپس مروری مختصر بر خلاصه سازی خودکار متن و در ادامه مروری بر کارهای انجام شده در زمینه ی خلاصه سازی متون فارسی آمده است. پس از آن، از آنجا که مشابهت معنایی بین اجزای مختلف متن، جایگاه ویژه ای در کاربردهای مختلف پردازش متن به ویژه خلاصه سازی و ارزیابی خلاصه سازها دارا می باشد، به معرفی تلاش های انجام شده در زمینه ی محاسبه ی شباهت معنایی کلمات و جملات می پردازیم. پس از آن روش های مورد استفاده برای ارزیابی خلاصه های ماشینی و ابزارهای طراحی شده برای ارزیابی خلاصه سازها مورد بررسی قرار می گیرد. در انتها به معرفی مجموعه داده های استاندارد موجود برای خلاصه سازی و چگونگی ارزیابی عملکرد ابزارهای ارزیابی خودکار خلاصه سازها خواهیم پرداخت.
تعاریف پایه زبان شناسی
پردازش متن از جمله مسائل اساسی در حوزه هوش مصنوعی و شناخت رایانشی است که در چند دهه اخیر، توجهات گسترده ای را در قالب های عدیده به خود معطوف کرده است. در پردازش متون زبان طبیعی با زبان نوشتاری سر و کار داریم. این مسأله باعث می شود گرچه به جهت از دست دادن اطلاعات گویشی مانند لحن گوینده، آهنگ صدا، تاکید و مکث، با مشکلات و ابهاماتی مواجه شویم، ولی در مقابل با شکل محدودتر و با قالب دستوری مشخص تری از زبان کار می کنیم. پردازش متون زبان فارسی در سطوح چهارگانه ی آوایی، ساخت‌واژی، نحو و معنایی و همچنین در حوزه‌های کاربردی متعددی امکان پذیر می باشد.
قبل از پرداختن به هر مطلبی در زمینه پردازش زبان طبیعی، برای آشنایی بهتر با مباحث مربوط به پردازش زبان طبیعی، خلاصه سازی و چگونگی ارزیابی آنها، بهتر است با مفاهیم پایه و تعاریف اولیه ی این حوزه که به منزله الفبای پردازش متن می باشند، آشنا شویم. اغلب اقدامات مربوط به این مفاهیم، در واقع نوعی پیش-پردازش متن می باشد؛ بدین معنی که انجام این پردازش ها بر روی متن، در واقع آماده سازی متن به منظور اعمال فرآیندها و فعالیت های بعدی می باشد. در ادامه ی این بخش، تعاریف پایه و ابتدایی مورد نیاز، توضیح داده شده است. در کاربردهای مختلف پردازش زبان طبیعی عموما از این تعاریف پایه استفاده می شود.

۱- مرور ادبیات ۲
۱-۱- تعاریف پایه زبان شناسی ۲
۱-۱-۱- زبان فارسی ۳
۱-۱-۲- ایست واژه ها (Stop words) 4
1-1-3- ریشه‌یابی ۴
۱-۱-۴- برچسب زنی بخش های سخن (POS) 5
1-1-5- پارسر ۶
۱-۱-۶- درخت تجزیه ۶
۱-۱-۷- برچسب‏زنی نقش معنایی کلمات (SRL) 7
1-1-8- شبکه واژگان ۸
۱-۲- خلاصه سازی خودکار متن ۱۰

==================================================================

فایل سوم: ابزارهای پردازش متن یا متن کاوی 

فایل Word – زیان فارسی – شامل ۳ صفحه 

ابزارهای لازم برای پردازش متن در زبان فارسی

 تشخیص دهنده ی جمله: این ابزار باید با توجه به کاراکترهای جداکننده ی جمله در زبان فارسی، توانایی تشخیص جملات را در متن ورودی داشته باشد. برای ایجاد این ابزار باید ابتدا تمامی کاراکترها، نماد ها و احیاناً قواعد دستوری که باعث شکسته شدن جملات می شوند، شناسایی گردند. با توجه به پایه بودن جمله در بسیاری از پردازش های زبانی، خروجی دقیق این ابزار از درجه ی اهمیت بالایی برخوردار است. از نمونه های انگلیسی آن می توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد این ابزار جمع آوری واحد هایی است که در زبان فارسی به عنوان واحد های مستقل معنایی شناخته می شوند. سپس بر اساس انتخاب هر کدام از این واحدها متن بر اساس آن شکسته خواهد شد. از نمونه های انگلیسی آن می توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Named entity recognition: ابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی افراد، اماکن، مقادیر عددی و … . برای تشخیص اینکه یک کلمه اسم است، راه های مختلفی وجود دارد که از جمله ی آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ریشه ی کلمه، استفاده از قواعد نحوی ساخت واژه و … می باشد. در این ابزار پس از تشخیص اسم ها با استفاده یک لغتنامه از اسامی افراد، مکان ها، مقادیر عددی و … نوع اسم تشخیص داده می شود. به نظر می رسد که این لغتنامه در فارسی موجود نمی باشد.

از جمله نمونه های انگلیسی این ابزار می توان به Stanford NER و Illinois NER اشاره کرد.

Word-net

Stemmer

Similarity recognition

Chunker

Semantic role labeler

Annotator

Coreference resolution

Pos tagger

==================================================================

فایل چهارم: رویکردی بر پردازش زبان طبیعی و ابزار آن

فایل PDF – زیان فارسی – شامل ۵ صفحه 

پردازش متن

پردازش متن

 

 

 

 

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

ده − نه =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/