شبکه واژگان فارسی، فارس نت و فردوس نت

نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارسنت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكدهی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزهی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارسنت، ايجاد يک شاخهی فارسي براي Word Net است که در تحقيقات و پژوهشهاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند. فارسنت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی میباشد. کلیهی اطلاعات و توضیحات مربوط به روال تولید فارسنت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقالهای آورده شده است.

این پایگاه دانش كه حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است در دو نسخه از طریق آدرس http://nlp.sbu.ac.ir:8080/farsnet قابل دسترسی می‌باشد.

نسخۀ اول فارسنت شامل بیش از 17هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است که در قالب 10 هزار مجموعه مترادف بیان گردیده است، همچنین روابط تحت پوشش آن، روابط درون مقوله‌ای مطرح در وردنت انگلیسی (نسخه 2.1) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.

نسخۀ دوم فارسنت نیز كه توسعه‌یافتۀ نسخه اول است برای كاربردهای پژوهشی به صورت رایگان در اختیار پژوهشگران قرار دارد و شامل بیش از 30هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید می‌باشد. در این نسخه علاوه بر روابط درون مقوله‌ای مطرح در وردنت انگلیسی (نسخۀ 2.1) پنج رابطۀ میان مقوله‌ای نیز مفاهیم را به هم پیوند می‌دهد و علاوه بر ویژگی‌های درنظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. همچنین این وردنت همانند نسخهی قبل، قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ 3.0 را نیز داراست.

شبکه واژگان فارسنت دارای سه پایگاه داده میباشد:

پایگاه داده مفهومها: هر مفهوم دارای «شناسه»، «جمله تعریف»، «جمله مثال» و مجموعه «شناسه کلمه» بیانکننده مفهوم میباشد
پایگاه داده کلمات: هر کلمه دارای «شناسه»، «نوع کلمه» (اسم،فعل،صفت) و «نام کلمه» میباشد.
پایگاه داده روابط بین مفهومها: روابط بین مفهومها از طریق «شماره شناسه» دو مفهوم و «نوع رابطه» بیان میشود.

در شبکه واژگان فارسنت هشت نوع رابطه بین مفهومها وجود دارد که عبارتند از:

– Holonym (member of)

– Holonym(part of)

– Holonym(portion of)

– Antonym

– Causes

– Hypernym

– Hyponym

– Sysnonym

در روال تولید فارسنت، سه مرحلهی اولیه وجود دارد که با استفاده از روش نیمه اتوماتیک و تهیهی ساختارهای جدید سعی شده است روابط هممعنا به صورت دقیق و بدون سوگیری به زبان انگلیسی فراهم، و همهی مفاهیم پایه به زبان فارسی استخراج گردد. چهار محور اصلی در خودکارسازی این پروژه دخیل بوده است. این مراحل شامل: نگاشت نیمه خودکار کلمات در وردنت انگلیسی، استخراج خودکار روابط از پیکره وب، دستهبندی نیمه خودکار سه فاز و ایجاد رابطه تضاد بین آنها و مرحلهی آخر، انجام آزمونهای ارزیابی میباشد.

از جمله کارهایی که انجام شده است، نگارش متن فارسی در ورد نت فارسی با اتصال به ورد نت انگلیسی بود؛ چون مواردی که در وردنت فارسی هست، در ورد نت انگلیسی هم است. مسأله مورد توجه این است که گفته می شود این Synsets (مجموعه مترادف ها) در زبان انگلیسی معادل Synset آن در زبان فارسی است.

این کار قاعدتا با کمک زبانشناسان متخصص انجام شده و با توجه به اینکه کاری زمان بر بود، نتیجهی حاصل از آن تهیهی ابزار واژهنگار بود. طرح نگاشت نیمه خودکار در دو فاز انجام شد؛ به این صورت که کلمات هممعنا به زبان انگلیسی وصل و در نهایت نزدیکترین Sysnset به لغت مورد نظر تعیین میشد که در این راستا تعدادی واژگان کاندیدا وجود داشت و به ترتیب احتمال نگارش مرتب شد.

مرحله بعد تبدیل Sysnsetهای فارسی به Sysnsetهای انگلیسی نگاشته شده است که با استفاده از سیستم ترجمه و کاربرد فرهنگ لغتها، این کار با نگاشت کلمات انجام میشد و برای تهیه قسمتی از سلسله مراتب اسامی نیز به صورت دستی ساخته شد تا بتوان از آن استفاده کرد. در واقع یک کلمه که احتمال نگاشت آن به شکلهای مختلف وجود دارد در یک سیستم قرار میگیرد که میتوان آن را توسط nسیستم دیگر نیز نگاشت.

یکی از مشکلات نگاشت، وجود یا عدم وجود یک مفهوم در هر دو ورد نت فارسی و زبان انگلیسی است، و مسألهی دیگر وجود سطوح جزئیسازی در فرایند دو وردنت است که نگاشتها در بعضی موارد یک به یک نیستند و در برخی موارد نیز نگاشت صورت گرفته است.

از زمینه های دیگر که به صورت نیمه خودکار انجام شد، استخراج و دستهبندی نیمه خودکار صفتها و استخراج رابطهی تضاد بین آنها بود که در این رابطهی تضاد، یک سری قوانین رابطه مورفولوژی تضاد ایجاد میشد و با این کار تضاد در سطح واژه شناسایی و با تایید زبانشناسان به سیستم افزوده شد.

یک بخش از شبکه واژگان فارسی، استخراج خودکار روابط مفهومی است که عمده منابع مورد استفاده در این کار، فرهنگهای دو زبانه یا دیکشنری (پیکره) است و با چهار رویکرد اساسی؛ مبتنی بر الگو، روش های ساختاری، روش آماری و روش مبتنی بر شباهت استخراج خودکار روابط انجام شد.

در تهیه ورد نت فارسی، تمام مراحل اشاره شده در فوق به صورت نیمه خودکار انجام گرفتند و ما بقی روشها به صورت دستی و به کمک زبانشناسان متخصص انجام شده است. در راستای این فعالیت ها یک ویرایشگر نیز برای ورد نت فارسی فراهم شد که در قالب وب ارائه میشود و افراد میتوانند با استفاده از نام کاربری و کلمه عبور مشخص، کلمه مورد نظر را در سیستم وارد کنند و از موارد یافت شده توسط وردنت استفاده کنند.

یک سیستم تحت آزمون و ارزیابی نیز تهیه شده است و صحت دادهها بر اساس کتابهای مرجع تطبیق داده شده و برخی نیز بر اساس شم زبانی متخصص تعیین شدند. از جمله قابلیتهای فارسنت، امکان جستجوی دو زبانه در آن است و در تکمیل ورد نت فارسی سطح پوشش واژگان در حال افزایش است.

در واقع فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است كه حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است و در دو نسخه قابل دسترسی می‌باشد. نسخۀ اول فارس‌نت شامل بیش از ۱۷هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست. نسخه دوم فارس نت شامل بیش از ۳۰ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارس نت در پژوهشكدۀ فناوری اطلاعات پژوهشگاه فضای مجازی و با همكاری دانشگاه شهید بهشتی تهیه شده است.

شرایط استفاده:

– استفاده از فارس‌نت ۱ جهت اهداف پژوهشی برای عموم کاربران آزاد است. فارس‌نت ۲ تنها در اختیار اعضای هیئت علمی دانشگاه‌ها قرار می‌گیرد.

اطلاعات ارجاع:

– Mehrnoush Shamsfard, Akbar Hesabi, Hakimeh Fadaei, Niloofar Mansoory, Ali Famian, Somayeh Bagherbeigi, Elham Fekri, et al. (2010). Semi Automatic Development of Farsnet; the Persian Wordnet. Proceedings of 5th Global WordNet Conference (GWA2010). Mumbai, India. (دریافت)

پژوهش‌های مرتبط:

– http://scholar.google.com/scholar?q=related:pfryjrRe08EJ:scholar.google.com/&hl=en&as_sdt=0,5

کاربردها:

پردازش زبان طبیعی، زبان‌شناسی رایانشی

اطلاعات تکمیلی:

– سخنرانی خانم دکتر مهرنوش شمس‌فرد (مدیر پروژه فارس نت) با عنوان «هستان‌شناسی و فارس‌نت» (۹۳/۲/۱۶ – تصویری)

– خبر تهیه فارس نت در وبگاه پژوهشگاه فضای مجازی

1. هستان شناسی و شبکه واژگان
فایل Word
3 صفحه
شبکه واژگان در واقع شبكه اي متشکل از هزاران مفهومي است كه بوسيله روابط معنايي به هم مرتبطند. هر مفهوم، نشان-دهنده ي مجموعه اي انتزاعي از عناصري مي باشد كه بر اساس مختصه هاي مشتركشان، يك گروه را تشكيل مي دهند. در شبکه واژگان، ابتدا لغات در يکي از دسته هاي اسم، فعل، صفت، و قيد قرار گرفته و سپس لغات هر يک از اين دسته ها در گروه هاي هم خانواده ي خود قرار مي گيرند. هر يک از اين گروه هاي هم خانواده از يک يا چند لغت تشکيل مي شود، که يک مفهوم مشخص را عنوان مي کنند و لغات تشکيل دهنده اين گروه مي توانند به جاي يکديگر در يک متن استفاده شوند و توسط يکسري روابط معنايي با ساير گروه ها مرتبط مي شوند. روابط معنايي بين گروه هاي هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قيد) متفاوت است.

2. شبکه واژگان
فایل Word
2 صفحه
در واقع شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت (Part of)، شمول (Has-A) را دربر می‌گیرند.

3. شبکه واژگان فارسی
فایل Word
6 صفحه
به عنوان مهمترین کاربردهای شبکه واژگان می توان به موارد زیر اشاره نمود.
1) تشخیص نقش لغات در متون.
2) دسته بندی متون بصورت خودکار
3) خلاصه سازی متون به صورت خودکار
4) استفاده در پردازش های وب معنایی
در این قسمت به تشریح دو مورد از مهمترین کاربردهای شبکه واژگان آورده شده است

4. مشابهت معنایی مبتنی بر شبکه واژگان
فایل Word
15 صفحه
مشابهت معناییِ مبتنی بر WordNet بصورت گسترده در پردازش زبان طبیعی (NLP)و بازیابی اطلاعات (IR) مورد بررسی قرار گرفته است.
روش‌های بسیاری برای محاسبه‌ی مشابهت معنایی بین دو کلمه و براساس WordNet ارائه شده است. معیارهای تشابه بر روی اسم‌ها‌ و فعل‌ها بوده و نیز اکثراً بر روابط IS-A در WordNet اعمال شده‌اند. علت این امر آن است که نزدیک 80 درصد از رابطه‌ها و لینک‌های بین مفاهیم را روابط ابرمفهوم/ زیر مفهوم تشکیل می‌دهند. با این‌حال به هنگام بررسی یک رابطه معنایی در سطح مفاهیم، چندین نوع رابطه‌ی بالقوه را می‌توان متصور شد: مترادف، رابطه‌ی ابرمفهمومی/ زیرمفهومی (IS-A)، جزییت/شمول (Part of)، علت و معلولی،Material-Product، Event-Role و… . در این میان سه رابطه‌ی اول سهم بزرگتری از روابط بین مفاهیم را تشکیل می‌دهند. در ضمن روابط ویژگی‌های سلسله‌مراتبی برای صفات و قیود موجود نمی‌باشد. روش‌های تشابه معنایی به چهار دسته‌ی اصلی طبقه‌بندی می‌شوند.
روشهای مبتنی بر شمارش یالها
روشهای آماری مبتنی بر اطلاعات
روشهای مبتنی بر ویژگی‌ها
روشهای ترکیبی

5. ساخت و بهره گیری از شبکه ی واژگان
فایل Word
1 صفحه
همانطور که بیان گردید WordNet، شبکه واژگان زبان انگلیسی است. با بهره گیری از یک فرهنگ لغت مناسب (در تهیه شبکه واژگان فارسی از ترجمه آنلاین گوگل استفاده شده است)، بنا بر طراحی روندی است که شبکه واژگان انگلیسی را به شبکه واژگان فارسی، نگاشت نماید(این کار در قالب مقاله ای مجزا تحت عنوان “ساخت شبکه واژگان زبان فارسی” به این کنفرانس ارائه گردیده است). هر گره در شبکه واژگان، متناظر با یک مفهوم یا Synset در دنیای واقعی است که چندین لغت را در خود جای می دهد که بیانگرمفهوم مورد نظر هستند.

6. شبکه واژگان فارسی – فارس نت
فایل Word
7 صفحه
نخستین شبكه ی واژگان زبان فارسی تحت عنوان فارس نت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشكده ی IT پژوهشگاه فضای مجازی و با همكاری متخصصان از هر دو حوزه ی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارس نت، ايجاد يک شاخه ی فارسي براي Word Net است که در تحقيقات و پژوهش هاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند. فارس نت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی می باشد. کلیه ی اطلاعات و توضیحات مربوط به روال تولید فارس نت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقاله ای آورده شده است.

7. دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات با بهره گیری از شبکه واژگان
فایل Word، مقاله
7 صفحه
امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی توسط رایانه، بیش از پیش احساس می شود. در بسیاری از مواقع در کاربردهای مختلف پردازش زبان طبیعی، نیازمند محاسبه ی تشابه معنایی بین جملات و متناظراً کلمات هستیم. این مبحث در کاربردهای متعددی نظیر رفع ابهام واژه ها، خلاصه سازی متن، تصحیح خودکار لغات، ارزیابی خلاصه سازها و مترجم های ماشینی و موارد مشابه به شکل قابل توجهی مورد نیاز خواهد بود. اندازه گیری میزان تشابه ظاهری کلمات، نتایج چندان مطلوبی را در بر نخواهد داشت. روش هایی که برای اندازه-گیری ارتباط معنایی کلمات از یک منبع لغوی استفاده می نمایند، آن منبع لغوی را به عنوان یک شبکه یا گراف می بینند و ارتباط معنایی را بر اساس خصوصیات مسیرها در این گراف محاسبه می نمایند. در بین منابع موجود، شبکه واژگان به شدت مورد توجه قرار گرفته و روش های متعددی برای محاسبه ی ارتباط بین کلمات بر اساس شبکه واژگان پیشنهاد گردیده است. در زبان فارسی نیز با توجه به تولید و توسعه ی دو شبکه ی واژگان فارس نت و فردوس نت، می توان محاسبه ی شباهت معنایی لغات را به جای محاسبه ی شباهت املایی و ظاهری لغات در کاربردهای فوق جهت بهبود نتایج مد نظر قرار داد.

8. تحلیل نیازمندی های تولید هستان شناسی های عمومی و تخصصی بر ای زبان فارسی
فایل PDF
69 صفحه

9. Semi Automatic Development of FarsNet; The Persian WordNet
فایل PDF
8 صفحه، مقاله
This paper describes the development process of FarsNet; a lexical ontology for the Persian language. FarsNet is designed to contain a Persian WordNet with about 10000 synsets in
its first phase and grow to cover verbs’ argument structures and their selectional restrictions in its second phase. In this paper we discuss the semi-automatic approach to create the first phase: the Persian WordNet.
10. Ontologies for Software Engineering and Software Technology
فایل PDF
343 صفحه
Coral Calero · Francisco Ruiz · Mario Piattini (Eds.)
Two important challenges facing current communities of researchers and practitioners in the field of software engineering and technology (SET) are knowledge integration and computer-based automatic support. The first challenge implies wasting a lot of time and effort and this is due to one of the difficulties in human relationships, namely the lack of explicit knowledge shared among members of a group/project, with other groups and with other stakeholders. The second challenge arises because many projects include the design/construction of advanced tools for supporting different software engineering activities. These tools should provide as much functionality as possible with the smallest cost of development.

Both challenges can be better and more easily approached by using ontologies. In this book, we will mainly deal with two of the multiple applications of ontologies in software engineering and technology that have been identified in the literature: (1) sharing knowledge of the problem domain and using a common terminology among all the interested people
(not just researchers); and (2) filtering the knowledge when defining models and metamodels.
The utility of the first application is obvious. However, it is important and convenient to pay it opportune attention. Communication is one of the main activities (regarding duration and impact) in software projects. It is proven that participants in projects have a different knowledge of the problem domain and/or use different languages. The ambiguity of the natural language implies mistakes and nonproductive efforts. Ontologies can mitigate these problems and, farther, some authors have intended to use ontologies as back-bone of software tools and environments.

تعاونی نیرومندسازی تحقیقات جامع ترین مرجع دانلود تحقیق، مقاله، سمینار و پایان نامه

شبکه واژگان فارسی، فارس نت و فردوس نت

جوابی بنویسید جواب را باطل کن