پردازش متن

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخيص دهنده ي جمله: اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به پايه بودن جمله در بسياري از پردازش هاي زباني، خروجي دقيق اين ابزار از درجه ي اهميت بالايي برخوردار است. از نمونه هاي انگليسي آن مي توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . لازمه ي ايجاد اين ابزار جمع آوري واحد هايي است که در زبان فارسي به عنوان واحد هاي مستقل معنايي شناخته مي شوند. سپس بر اساس انتخاب هر کدام از اين واحدها متن بر اساس آن شکسته خواهد شد. از نمونه هاي انگليسي آن مي توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Named entity recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و … . براي تشخيص اينکه يک کلمه اسم است، راه هاي مختلفي وجود دارد که از جمله ي آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ريشه ي کلمه، استفاده از قواعد نحوي ساخت واژه و … مي باشد. در اين ابزار پس از تشخيص اسم ها با استفاده يک لغتنامه از اسامي افراد، مکان ها، مقادير عددي و … نوع اسم تشخيص داده مي شود. به نظر مي رسد که اين لغتنامه در فارسي موجود نمي باشد.

از جمله نمونه هاي انگليسي اين ابزار مي توان به Stanford NER و Illinois NER اشاره کرد.

Word-net: مجموعه اي از لغات و ارتباط ميان آنها به لحاظ معنايي. ارتباطات معنايي در داخل اين مجموعه شامل 16 رابطه مي باشد. اين مجموعه به عنوان يک مرجع در بسياري از پردازش هاي زباني مورد استفاده قرار مي گيرد. ار نمونه هاي انگليسي آن مي توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمايشگاه فناوري وب دانشگاه فردوسي مشهد نيز يک نمونه از اين مجموعه با نام فردوس نت را توليد کرده است.

Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و …). معمولاً ريشه يابي لغات بر اساس قواعد ساخت واژه اي و سپس حذف پسوندها مي باشد. تاکنون روش مؤثري براي حذف پيشوندها ارائه نشده است. در تلاشي که در آزمايشگاه فناوري وب انجام شده است، سعي شده تا بر اساس آناليزهاي آماري و داده کاوي پسوندها حذف گردند، که اين روش هم مي تواند راهي براي تشخيص ريشه باشد.

معروفترين الگوريتم ريشه يابي در انگليسي porter مي باشد.

Similarity recognition: ابزاري براي تشخيص ميزان شباهت ميان دو عبارت بر اساس پارامترهاي مختلف مانند نوع اسامي مشابه به کار رفته، استفاده از word-net و… . در اين ابزار پس از تشخيص نوع کلمات به کار رفته در يک جمله و سپس بر اساس جايگاه آن کلمات در جمله، کلماتي که در جايگاه هاي يکسان قرار دارند، مورد مقايسه قرار مي گيرند. از نمونه هاي انگليسي آن مي توان به Illinois NESim و Illinois WNSim اشاره نمود.

Chunker: ابزاري براي تشخيص گروه هاي اسمي، فعلي و …. در يک جمله. جهت تقويت الگوريتم هاي وابسته به SRL لازم است نه تنها نقش هاي کلمات مشخص گردند، بلکه بايد وابستگي هاي کلمات به لحاظ نقشي در جمله مشخص گردند. از جمله نمونه هاي انگليسي آن مي توان به Illinois Chunker اشاره کرد.

Semantic role labeler: ابزاري براي تشخيص نقش گرامري کلمه در جمله. اين ابزار يکي از مهمترين نقش ها را در پردازش هاي زباني بر عهده دارد. دقت در اين ابزار بسيار حائز اهميت است. اين ابزار بايد نقش هاي گرامري کلمات در جمله ها مانند فعل، فاعل، مفعول مستقيم، مفعول غير مستقيم و …. را تشخيص دهد. از جمله نمونه هاي انگليسي آن مي توان به OpenNlP، Illinois SRL، Swirl و LTHSRL اشاره کرد. اين ابزارها از الگوريتم پارسينگ charniak استفاده مي کنند.

Annotator: ابزاري براي ايجاد يک نمونه از يک آنتولوژي در يک سند داده شده. از ابزارهاي موجود در انگليسي مي توان به Illinois Curator و Stanford Annotator اشاره کرد.

Coreference resolution: ابزاري براي تعيين مرجع اسمي يک اسم يا يک ضمير در جملات. اين ابزار در زبان انگليسي معادل ابزاري است که مرجع ضمير را که به صورت اسم در جمله هاي قبلي آمده است، مشخص مي کند. استفاده از ضماير به جاي اسامي در زبان انگليسي بسير رايج مي باشد. اما در زبان فارسي اين امر چندان رايج نيست. اما در زبان فارسي عنوان يک مفهوم اسمي با اصطلاحات مختلف بسيار رايج مي باشد. عملاً ما به دنبال ابزاري هستيم که مرجع خاص يک سري از عنوان ها ي مختلف اسمي را مشخص کند. از نمونه هاي انگليسي اين ابزار مي توان به Illinois Coreference package اشاره کرد.

Pos tagger: ابزاري براي مشخص کردن نوع کلمات از قبيل اسم، صفت، قيد، فعل و … . يکي از روش هاي کاري براي ايجاد اين ابزار، ايجاد يک rule base که معمولاً به صورت دستي تشکليل مي شود، براي تشخيص نوع کلمه است. از نونه هاي فارسي آن مي توان به ابزار آزمايشگاه آقاي دکتر بيجن خان، و ابزار آزمايشگاه فناوري وب دانشگاه فردوسي مشهد اشاره کرد. از نمونه هاي انگليسي آن مي توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

تعاریف پایه زبان شناسی

پردازش متن از جمله مسائل اساسی در حوزه هوش مصنوعی و شناخت رایانشی است که در چند دهه اخیر، توجهات گسترده ای را در قالب های عدیده به خود معطوف کرده است. در پردازش متون زبان طبیعی با زبان نوشتاری سر و کار داریم. این مسأله باعث می شود گرچه به جهت از دست دادن اطلاعات گویشی مانند لحن گوینده، آهنگ صدا، تاکید و مکث، با مشکلات و ابهاماتی مواجه شویم، ولی در مقابل با شکل محدودتر و با قالب دستوری مشخص تری از زبان کار می کنیم. پردازش متون زبان فارسی در سطوح چهارگانه ی آوایی، ساخت‌واژی، نحو و معنایی و همچنین در حوزه‌های کاربردی متعددی امکان پذیر می باشد.

قبل از پرداختن به هر مطلبی در زمینه پردازش زبان طبیعی، برای آشنایی بهتر با مباحث مربوط به پردازش زبان طبیعی، خلاصه سازی و چگونگی ارزیابی آنها، بهتر است با مفاهیم پایه و تعاریف اولیه ی این حوزه که به منزله الفبای پردازش متن می باشند، آشنا شویم. اغلب اقدامات مربوط به این مفاهیم، در واقع نوعی پیش-پردازش متن می باشد؛ بدین معنی که انجام این پردازش ها بر روی متن، در واقع آماده سازی متن به منظور اعمال فرآیندها و فعالیت های بعدی می باشد. در ادامه ی این بخش، تعاریف پایه و ابتدایی مورد نیاز، توضیح داده شده است. در کاربردهای مختلف پردازش زبان طبیعی عموما از این تعاریف پایه استفاده می شود.

زبان فارسی

در تلاش برای ساخت یک سیستم پردازش و درک متون فارسی با مسائل و مشکلاتی مواجه می شویم که بعضی از آنها در بیشتر زبان ها بروز کرده و برخی خاص زبان فارسی می باشند.

همچنین برخی از این پیچیدگی ها به طبیعت زبان و نارسایی های دستورات زبان شناسی مربوط و برخی دیگر برخاسته از مشکلات ایجاد سیستم های هوش مصنوعی است ]داد 80[. در این بخش به برخی از این مسائل اشاره می شود.

زبان فارسی از نظر ساختاری دارای تفاوت‌های بسیاری با زبان انگلیسی است. برخی از تفاوت‌های مشهود بین زبان فارسی و انگلیسی عبارتند از:

-تفاوت در ترتیب قرارگیری ارکان جمله. در اصطلاح، زبان‌هایی مثل انگلیسی را SVO و زبان‌هایی مثل فارسی را SOV می‌نامند که در واقع نشان دهنده ی ترتیب ارکان در جملات می‌باشد.

-زبان فارسی یک زبان اصطلاحاً بازتابی نامیده می‌شود. یعنی کلمات براساس زمان و شخص موجود در جمله، می‌توانند حالت‌های مختلفی به خود بگیرند.

-در فارسی برخی ضمیرها وجود دارند که به اسم‌ها و افعال متصل می‌شوند (ضمیرهای متصل) که باعث بروز شکل‌های مختلف برای کلمات می‌شوند که این حالت هم در زبان انگلیسی وجود ندارد و تمامی‌ضمیرها منفصل می‌باشند.

با توجه به موارد ذکر شده و از آنجایی که زبان فارسی نوعی از زبان های غیرساختیافته است با مشکلات بسیار بیشتری نسبت به زبان انگلیسی مواجه خواهیم شد. متون غیرساختیافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعه‌ای مرتب از جملات و کلمات در نظر می‌گیریم.

به طور کلی مشکلات اصلی در پردازش متون فارسی را می توان در چند دسته زیر، خلاصه نمود ]داد 80[:

•عدم وجود منابع زبانی مناسب و کافی برای زبان فارسی.

•مشکل تشخیص مرز کلمات (مسأله شیوه های نگارش متفاوت)

•مشکل تشخیص مرز گروه های اسمی (مسأله ی کسره ی اضافه نامرئی)

•از دست دادن اطلاعات گویشی

•مسأله ی ابهام

•افعال مرکب و اصطلاحات

•مسأله ی همنگاره ها و تحت آن مسأله ی حذف مصوت های کوتاه (اعراب) از نوشتار

•معناشناسی و مشکلات تحلیل معنایی.

ایست واژه ها (Stop words)

ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل “اگر”، “و”، “ولی”،”که” و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته شده اند. در اغلب کاربردهای متن، حذف این کلمات، نتایج پردازش را به شدت بهبود می دهد و سبب کاهش بار محاسبات و افزایش سرعت خواهد شد. به همین دلیل این کلمات غالبا در فاز پیش پردازش، حذف می شوند. برای زبان فارسی چندین لیست از این کلمات منتشر شده است که بطور میانگین شامل 500 کلمه می باشند.

ریشه‌یابی

در این مرحله به منظور یکسان سازی اشکال مختلف یک کلمه، یکپارچه سازی و همچنین اعمال پردازش های بعدی بایستی کلمات، ریشه یابی شوند. ریشه یابی به فرآیند تبدیل کلمات به فرم ریشه ای و پایه ای آنها اشاره می نماید. بنابراین “دانش آموز” و “دانشجو”و “دانشگاه” به”دان” كه ریشه‌ی اصلی است، كاهش می یابند. لازم به ذکر است که منظور از ریشه در این بخش، دقیقا ریشه ی کلمات که در زبان شناسی استفاده می شود، نیست. بلکه منظور از ریشه، یک نماینده برای کلماتی است که از لحاظ معنایی و نحوی در یک حوزه قرار می گیرند. این فرآیند در پردازش متن، اهمیت بسیاری دارد؛ چرا که باعث می شود ماشین با دو کلمه ی هم خانواده اما ظاهرا متفاوت، مانند دو کلمه ای که از لحاظ ریشه ای هیچ ارتباطی با هم ندارند، برخورد ننماید. الگوریتم های مختلفی برای ریشه یابی لغات پیشنهاد شده است و مورد استفاده قرار می گیرد. الگوریتم پیشنهاد شده در [POR80] رایج ترین الگوریتم در زبان انگلیسی می باشد. نمونه‌های دیگری از الگوریتم‌های ریشه یابی، الگوریتم كراوتز در انگلیسی و الگوریتم کاظم تقوا در فارسی هستند [POR80][KRO93][TAG05]. اما از آنجا که خروجی ریشه یاب در فازهای بعد، مورد استفاده های گوناگون از جمله اندازه گیری شباهت معنایی بر مبنای شبکه واژگان قرار می گیرد، بایستی بررسی شود تا خروجی ریشه یاب، ورودی مناسبی برای آن فازها باشد.

برچسب زنی بخش های سخن (POS)

در دستور زبان، بخش های سخن، طبقه بندی هایی زبانی از کلمات هستند که رفتار نحوی یک قسمت از جمله را بیان می دارند. به طور عموم، تمامی زبان ها دو بخش سخن فعل و اسم را دارند. بقیه بخش های سخن در زبان-های مختلف، متفاوت می باشند. از جمله مهم ترین بخش های سخن در زبان فارسی اسم، ضمیر، صفت، قید و حرف اضافه را می توان نام برد.

در زبان شناسی پیکره ای ، برچسب زن اجزای کلام (POS tagging یا POST)، که همچنین برچسب زن دستوری یا ابهام زدایی لغت-دسته ، نامیده می شود، فرآیند نشانه گذاری لغت در یک متن است، که این نشانه، بیانگر وجه آن جزء از کلام می باشد. تشخیص این امر، مبتنی بر تعریف و نوع کاربرد در متن، انجام می شود. برای مثال رابطه ای که یک لغت با دیگر لغات در یک عبارت، جمله و یا پاراگراف دارد مشخص می شود. شکل ساده شده ی این موضوع، همان مشخص کردن نوع لغت از لحاظ اسم، فعل، صفت و قید می باشد که در مدارس به آن پرداخته می شود.

تجزیه گر یا پارسر

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیله‌ی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح، تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام تجزیه گر یا پارسر صورت می‌گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.

تجزیه‎گرها با بهره گیری از دستورات گرامری زبان به تفکیک جملات متون به اجزای تشکیل دهنده ی آن، مشخص کردن نقش هر عبارت و لغت در متن و همچنین تشکیل درخت تجزیه برای جملات متن می پردازند.

تجزیه‎گر نقش پایه ای و مهمی را در بهبود ابزارهای پردازش متن ایفا می کند. به عنوان مثال جهت تقویت الگوریتم های وابسته به برچسب زن معنایی لغات (SRL) علاوه بر نقش های کلمات، وابستگی های کلمات به لحاظ نقشی در جمله نیز باید مشخص گردد.

درخت تجزیه

اجزای هر جمله را می توان در قالب گروه های اسمی، فعلی، حرف اضافه ای و … تقسیم بندی نمود. گاه هر کدام از این گروه ها خود شامل زیرگروه دیگری می باشند. علاوه بر این، هر کدام نیز دارای روابطی می باشند، مثلا یک گروه اسمی می تواند متعلق به یک گروه فعلی باشد. در نتیجه ی این تقسیم بندی های سلسله مراتبی، می-توان یک ساختار درخت گونه از جمله داشت که درخت تجزیه نام دارد. درخت تجزیه، درختی است که ساختار نحوی یک جمله را بر اساس برخی روابط گرامری موجود در آن به شکلی ساده و قابل فهم برای کسانی که دانش عمیق زبان شناسی ندارند، نمایان می سازد [MAR08]. ابزارهای مختلفی برای تجزیه جمله توسعه یافته-اند که خروجی اغلب آنها به صورت رشته ای شامل پرانتز های تو در تو به همراه برچسب ها و کلمات می باشند. این مدل نمایش برای ورودی سیستم ها مناسب است، اما برای انسان خوانایی چندانی ندارد. در ابزار lfgParser شاهد نمایش گرافیکی و درخت گونه ی درخت تجزیه خواهیم بود.

برچسب‏ زنی نقش معنایی کلمات (SRL)

برچسب زنی معنایی کلمات مشابه برچسب گذاری اجزای واژگانی کلام بوده با این تفاوت که عمیق تر و پیچیده تر از آن می باشد. برچسب زنی معنایی، وظیفه ی استخراج نقش های معنایی جملات نظیر فاعل، مفعول مستقیم، مفعول غیرمستقیم، فعل و … را بر عهده دارد. برچسب زنی معنایی کلمات هم عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و شباهت معنایی می باشد.

شبکه واژگان

زبان های طبیعی، همگی دارای ابهام هستند. کلمات هر زبان می توانند چندین معنی و مفهوم داشته باشند. به عنوان مثال، اگر شما لغت game را در یک فرهنگ لغت جستجو کنید، معانی مختلفی برای آن وجود دارد؛ از”بازی” گرفته تا “گوشت شکار” که اصلا هیچ شباهتی به یکدیگر ندارند. معانی این کلمات، بسته به کاربرد آن در جمله و یک متن، تا حدودی مشخص می شود. این ابهام، در کاربردهایی مانند بررسی میزان تشابه دو متن در سیستم های ارزیابی خلاصه سازهای ماشینی و همچنین سیستم های ترجمه ماشینی به عنوان یک مشکل، شناخته می شود. از اوایل دهه ی 90 میلادی، محققان عرصه ی کامپیوتر، بر آن شدند تا روشی را برای بیان صریح مفاهیم موجود در دنیای واقعی، پیدا کنند. هستان شناسی ، چنین کاری برای ما انجام می-دهد. هستان شناسی، گرافی است که گره های آن، مفاهیم موجود در دنیای واقعی و یال های آن، ارتباطات موجود بین این مفاهیم را مشخص می کنند [CAL06].

شبکه واژگان یا WordNet فرهنگی از واژگان است که براساس تئوری‌های زبانی-روانی بوده و مدل‌ها و معانی کلمات را تعریف می‌کند. شبکه ی واژگان یکی از مباحثی است که در سال های اخیر به شدت مورد توجه قرار گرفته و در کاربردهای بسیار متنوعی استفاده شده است. این شبكه ها عموما در نقش واژهستان شناسی و یا واژگان محاسباتی در خدمت سیستم های هوشمند دانش بنیان و معناگرا قرار دارند. WordNet، لغت‌نامه‌ای است که از یک آنتولوژی برای دسته‌بندی مفاهیم موجود در دنیای واقعی استفاده کرده است و کلمات انگلیسی اعم از اسم، فعل، صفت و قید را به این مفاهیم نسبت داده است [LIN08].

شبکه واژگان در واقع شبكه ای متشکل از هزاران مفهومی است كه بوسیله روابط معنایی به هم مرتبطند. هر مفهوم، نشان دهنده ی مجموعه ای انتزاعی از عناصری می باشد كه بر اساس مختصه های مشتركشان، یك گروه را تشكیل می دهند. در شبکه واژگان، ابتدا لغات در یکی از دسته های اسم، فعل، صفت، و قید قرار گرفته و سپس لغات هر یک از این دسته ها در گروه های هم خانواده ی خود قرار می گیرند. هر یک از این گروه های هم خانواده از یک یا چند لغت تشکیل می شود، که یک مفهوم مشخص را عنوان می کنند و لغات تشکیل دهنده این گروه می-توانند به جای یکدیگر در یک متن استفاده شوند و توسط یکسری روابط معنایی با سایر گروه ها مرتبط می-شوند. روابط معنایی بین گروه های هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قید) متفاوت است.

در واقع شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت (Part of)، شمول (Has-A) را دربر می‌گیرند. روابط معنایی بین Synset‌ها با توجه به طبقه‌بندی‌های گرامری متفاوت است [LIN08]. شبکه واژگان هم‌چنین تعاریف متنی از مفاهیم را فراهم می‌سازد (Glossary) که شامل تعاریف و مثال‌ها می‌باشد. شبکه واژگان را می‌توان به عنوان یک مجموعه‌ی مرتب جزئی از منابع عبارات مترادف، برشمرد.

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com