دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
شبکه واژگان فارسی، فارس نت و فردوس نت | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
دوشنبه , ۸ خرداد ۱۳۹۶
آخرین مطالب
خانه -> شبکه واژگان فارسی، فارس نت و فردوس نت

شبکه واژگان فارسی، فارس نت و فردوس نت

نخستین شبکه ­ی واژگان زبان فارسی تحت عنوان فارس­نت (وردنت عمومی زبان فارسی)  با حمایت مرکز تحقیقات مخابرات ایران در پژوهشکده­ی IT پژوهشگاه فضای مجازی و با همکاری متخصصان از هر دو حوزه­ی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارس­نت، ایجاد یک شاخه­ی فارسی برای Word Net است که در تحقیقات و پژوهش­های زبان فارسی قابل استفاده باشد و امکانات تبدیل چند زبانه را نیز فراهم کند. فارس­نت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی می­باشد. کلیه­ی اطلاعات و توضیحات مربوط به روال تولید فارس­نت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقاله­ای آورده شده است.

این پایگاه دانش که حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است در دو نسخه از طریق آدرس http://nlp.sbu.ac.ir:8080/farsnet  قابل دسترسی می‌باشد.

نسخۀ اول فارس­نت شامل بیش از ۱۷هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است که در قالب ۱۰ هزار مجموعه مترادف بیان گردیده است، همچنین روابط تحت پوشش آن، روابط درون مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲.۱) می‌باشد و  قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳.۰ را نیز داراست.

نسخۀ دوم فارس­نت نیز که توسعه‌یافتۀ نسخه اول است برای کاربردهای پژوهشی به صورت رایگان در اختیار پژوهشگران قرار دارد و شامل بیش از ۳۰هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید می‌باشد. در این نسخه علاوه بر روابط درون مقوله‌ای مطرح در وردنت انگلیسی (نسخۀ ۲.۱)  پنج رابطۀ میان مقوله‌ای نیز مفاهیم را به هم پیوند می‌دهد و علاوه بر ویژگی‌های درنظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. همچنین این وردنت همانند نسخه­ی قبل، قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳.۰ را نیز داراست.

شبکه واژگان فارس­نت دارای سه پایگاه داده می­باشد:

  1. پایگاه داده مفهوم­ها: هر مفهوم دارای «شناسه»، «جمله تعریف»، «جمله مثال» و مجموعه «شناسه کلمه» بیان­کننده مفهوم می­باشد
  2. پایگاه داده کلمات: هر کلمه دارای «شناسه»، «نوع کلمه» (اسم،فعل،صفت) و «نام کلمه» می­باشد.
  3. پایگاه داده روابط بین مفهوم­ها: روابط بین مفهوم­ها از طریق «شماره شناسه» دو مفهوم و «نوع رابطه» بیان می­شود.

در شبکه واژگان فارس­نت هشت نوع رابطه بین مفهوم­ها وجود دارد که عبارتند از:

– Holonym (member of)

– Holonym(part of)

– Holonym(portion of)

– Antonym

– Causes

– Hypernym

– Hyponym

– Sysnonym

 

در روال تولید فارس­نت، سه مرحله­ی اولیه وجود دارد که با استفاده از روش نیمه اتوماتیک و تهیه­ی ساختارهای جدید سعی شده است روابط هم­معنا به صورت دقیق و بدون سوگیری به زبان انگلیسی فراهم، و همه­ی مفاهیم پایه به زبان فارسی استخراج گردد. چهار محور اصلی در خودکارسازی این پروژه دخیل بوده است. این مراحل شامل: نگاشت نیمه خودکار کلمات در وردنت انگلیسی، استخراج خودکار روابط از پیکره وب، دسته­بندی نیمه خودکار سه فاز و ایجاد رابطه تضاد بین آنها و مرحله­ی آخر، انجام آزمون­های ارزیابی می­باشد.

از جمله کارهایی که انجام شده است، نگارش متن فارسی در ورد نت فارسی با اتصال به ورد نت انگلیسی بود؛ چون مواردی که در وردنت فارسی هست، در ورد نت انگلیسی هم است. مسأله مورد توجه این است که گفته می شود این Synsets (مجموعه مترادف ها) در زبان انگلیسی معادل Synset آن در زبان فارسی است.

این کار قاعدتا با کمک زبان­شناسان متخصص انجام شده و با توجه به اینکه کاری زمان بر بود، نتیجه­ی حاصل از آن تهیه­ی ابزار واژه­نگار بود. طرح نگاشت نیمه خودکار در دو فاز انجام شد؛ به این صورت که کلمات هم­معنا به زبان انگلیسی وصل و در نهایت نزدیکترین Sysnset به لغت مورد نظر تعیین می­شد که در این راستا تعدادی واژگان کاندیدا وجود داشت و به ترتیب احتمال نگارش مرتب شد.

مرحله بعد تبدیل Sysnsetهای فارسی به Sysnsetهای انگلیسی نگاشته شده است که با استفاده از سیستم ترجمه و کاربرد فرهنگ لغت­ها، این کار با نگاشت کلمات انجام می­شد و برای تهیه  قسمتی از سلسله مراتب اسامی نیز به صورت دستی ساخته شد تا بتوان از آن استفاده کرد. در واقع یک کلمه که احتمال نگاشت آن به شکل­های مختلف وجود دارد در یک سیستم قرار می­گیرد که می­توان آن را توسط  nسیستم دیگر نیز نگاشت.

یکی از مشکلات نگاشت، وجود یا عدم وجود یک مفهوم در هر دو ورد نت فارسی و زبان انگلیسی است، و مسأله­ی دیگر وجود سطوح جزئی­سازی در فرایند دو وردنت است که نگاشت­ها در بعضی موارد یک به یک نیستند و در برخی موارد نیز نگاشت صورت گرفته است.

از زمینه های دیگر که به صورت نیمه خودکار انجام شد، استخراج و دسته­بندی نیمه خودکار صفت­ها و استخراج رابطه­ی تضاد بین آنها بود که در این رابطه­ی تضاد، یک سری قوانین رابطه مورفولوژی تضاد ایجاد می­شد و با این کار تضاد در سطح واژه شناسایی و با تایید زبانشناسان به سیستم افزوده شد.

یک بخش از شبکه واژگان فارسی، استخراج خودکار روابط مفهومی است که عمده منابع مورد استفاده در این کار، فرهنگ­های دو زبانه یا دیکشنری (پیکره) است و با چهار رویکرد اساسی؛ مبتنی بر الگو، روش های ساختاری، روش آماری و روش مبتنی بر شباهت استخراج خودکار روابط انجام شد.

در تهیه ورد نت فارسی، تمام مراحل اشاره شده در فوق به صورت نیمه خودکار انجام گرفتند و ما بقی روش­ها به صورت دستی و به کمک زبانشناسان متخصص انجام شده است. در راستای این فعالیت ها یک ویرایشگر نیز برای ورد نت فارسی فراهم شد که در قالب وب ارائه می­شود و افراد می­توانند با استفاده از نام کاربری و کلمه عبور مشخص، کلمه مورد نظر را در سیستم وارد کنند و از موارد یافت شده توسط وردنت استفاده کنند.

یک سیستم تحت آزمون و ارزیابی نیز تهیه شده است و صحت داده­ها بر اساس کتاب­های مرجع تطبیق داده شده و برخی نیز بر اساس شم  زبانی متخصص تعیین شدند. از جمله قابلیت­های فارس­نت، امکان جستجوی دو زبانه در آن است و در تکمیل ورد نت فارسی سطح پوشش واژگان در حال افزایش است.

در واقع فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است که حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است و در دو نسخه قابل دسترسی می‌باشد. نسخۀ اول فارس‌نت شامل بیش از ۱۷هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست. نسخه دوم فارس نت شامل بیش از ۳۰ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارس نت در پژوهشکدۀ فناوری اطلاعات پژوهشگاه فضای مجازی و با همکاری دانشگاه شهید بهشتی تهیه شده است.

شرایط استفاده:

 – استفاده از فارس‌نت ۱ جهت اهداف پژوهشی برای عموم کاربران آزاد است. فارس‌نت ۲ تنها در اختیار اعضای هیئت علمی دانشگاه‌ها قرار می‌گیرد.

اطلاعات ارجاع:

 – Mehrnoush Shamsfard, Akbar Hesabi, Hakimeh Fadaei, Niloofar Mansoory, Ali Famian, Somayeh Bagherbeigi, Elham Fekri, et al. (2010). Semi Automatic Development of Farsnet; the Persian Wordnet. Proceedings of 5th Global WordNet Conference (GWA2010). Mumbai, India. (دریافت)

کاربردها:

پردازش زبان طبیعی، زبان‌شناسی رایانشی

1. هستان شناسی و شبکه واژگان
فایل Word
3 صفحه
شبکه واژگان در واقع شبکه ای متشکل از هزاران مفهومی است که بوسیله روابط معنایی به هم مرتبطند. هر مفهوم، نشان-دهنده ی مجموعه ای انتزاعی از عناصری می باشد که بر اساس مختصه های مشترکشان، یک گروه را تشکیل می دهند. در شبکه واژگان، ابتدا لغات در یکی از دسته های اسم، فعل، صفت، و قید قرار گرفته و سپس لغات هر یک از این دسته ها در گروه های هم خانواده ی خود قرار می گیرند. هر یک از این گروه های هم خانواده از یک یا چند لغت تشکیل می شود، که یک مفهوم مشخص را عنوان می کنند و لغات تشکیل دهنده این گروه می توانند به جای یکدیگر در یک متن استفاده شوند و توسط یکسری روابط معنایی با سایر گروه ها مرتبط می شوند. روابط معنایی بین گروه های هم خانواده بر حسب نوع گروه (اسم، فعل، صفت و قید) متفاوت است.

۲. شبکه واژگان
فایل Word
2 صفحه
در واقع شبکه واژگان دارای سه پایگاه داده می‌باشد: یکی برای اسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و قیود. شبکه واژگان شامل مجموعه‌ی مترادف‌های کلمات می‌باشد که از آن به عنوان “Synsets” یاد می‌شود. هر Synset یک مفهوم و یا یک معنی از گروهی از کلمات، را شامل می‌شود. Synsetها روابط معنایی متفاوتی چون مترادف ، متضاد ‌، ابرمفهوم ، زیرمفهوم (IS-A )، جزئیت (Part of)، شمول (Has-A) را دربر می‌گیرند.

۳. شبکه واژگان فارسی
فایل Word
6 صفحه
به عنوان مهمترین کاربردهای شبکه واژگان می توان به موارد زیر اشاره نمود.
۱) تشخیص نقش لغات در متون.
۲) دسته بندی متون بصورت خودکار
۳) خلاصه سازی متون به صورت خودکار
۴) استفاده در پردازش های وب معنایی
در این قسمت به تشریح دو مورد از مهمترین کاربردهای شبکه واژگان آورده شده است

۴. مشابهت معنایی مبتنی بر شبکه واژگان
فایل Word
15 صفحه
مشابهت معناییِ مبتنی بر WordNet بصورت گسترده در پردازش زبان طبیعی (NLP)و بازیابی اطلاعات (IR) مورد بررسی قرار گرفته است.
روش‌های بسیاری برای محاسبه‌ی مشابهت معنایی بین دو کلمه و براساس WordNet ارائه شده است. معیارهای تشابه بر روی اسم‌ها‌ و فعل‌ها بوده و نیز اکثراً بر روابط IS-A در WordNet اعمال شده‌اند. علت این امر آن است که نزدیک ۸۰ درصد از رابطه‌ها و لینک‌های بین مفاهیم را روابط ابرمفهوم/ زیر مفهوم تشکیل می‌دهند. با این‌حال به هنگام بررسی یک رابطه معنایی در سطح مفاهیم، چندین نوع رابطه‌ی بالقوه را می‌توان متصور شد: مترادف، رابطه‌ی ابرمفهمومی/ زیرمفهومی (IS-A)، جزییت/شمول (Part of)، علت و معلولی،Material-Product، Event-Role و… . در این میان سه رابطه‌ی اول سهم بزرگتری از روابط بین مفاهیم را تشکیل می‌دهند. در ضمن روابط ویژگی‌های سلسله‌مراتبی برای صفات و قیود موجود نمی‌باشد. روش‌های تشابه معنایی به چهار دسته‌ی اصلی طبقه‌بندی می‌شوند.
روشهای مبتنی بر شمارش یالها
روشهای آماری مبتنی بر اطلاعات
روشهای مبتنی بر ویژگی‌ها
روشهای ترکیبی

۵. ساخت و بهره گیری از شبکه ی واژگان
فایل Word
1 صفحه
همانطور که بیان گردید WordNet، شبکه واژگان زبان انگلیسی است. با بهره گیری از یک فرهنگ لغت مناسب (در تهیه شبکه واژگان فارسی از ترجمه آنلاین گوگل استفاده شده است)، بنا بر طراحی روندی است که شبکه واژگان انگلیسی را به شبکه واژگان فارسی، نگاشت نماید(این کار در قالب مقاله ای مجزا تحت عنوان “ساخت شبکه واژگان زبان فارسی” به این کنفرانس ارائه گردیده است). هر گره در شبکه واژگان، متناظر با یک مفهوم یا Synset در دنیای واقعی است که چندین لغت را در خود جای می دهد که بیانگرمفهوم مورد نظر هستند.

۶. شبکه واژگان فارسی – فارس نت
فایل Word
7 صفحه
نخستین شبکه ی واژگان زبان فارسی تحت عنوان فارس نت (وردنت عمومی زبان فارسی) با حمایت مرکز تحقیقات مخابرات ایران در پژوهشکده ی IT پژوهشگاه فضای مجازی و با همکاری متخصصان از هر دو حوزه ی رایانه و زبان شناسی دانشگاه شهید بهشتی تهیه گردیده است. در واقع هدف ایجاد فارس نت، ایجاد یک شاخه ی فارسی برای Word Net است که در تحقیقات و پژوهش های زبان فارسی قابل استفاده باشد و امکانات تبدیل چند زبانه را نیز فراهم کند. فارس نت در تاریخ ۲۱ فروردین ۱۳۹۲در سایت مرجع دادگان زبان فارسی ثبت گردیده است و از طریق همین سایت قابل دستیابی می باشد. کلیه ی اطلاعات و توضیحات مربوط به روال تولید فارس نت که زیر نظر دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی انجام گردیده در مقاله ای آورده شده است.

۷. دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات با بهره گیری از شبکه واژگان
فایل Word، مقاله
۷ صفحه
امروزه با رشد چشمگیر اسناد منتشر شده در وب و نیاز اساسی به نگهداری، دسته بندی، بازیابی و پردازش آنها، توجه به پردازش زبان طبیعی توسط رایانه، بیش از پیش احساس می شود. در بسیاری از مواقع در کاربردهای مختلف پردازش زبان طبیعی، نیازمند محاسبه ی تشابه معنایی بین جملات و متناظراً کلمات هستیم. این مبحث در کاربردهای متعددی نظیر رفع ابهام واژه ها، خلاصه سازی متن، تصحیح خودکار لغات، ارزیابی خلاصه سازها و مترجم های ماشینی و موارد مشابه به شکل قابل توجهی مورد نیاز خواهد بود. اندازه گیری میزان تشابه ظاهری کلمات، نتایج چندان مطلوبی را در بر نخواهد داشت. روش هایی که برای اندازه-گیری ارتباط معنایی کلمات از یک منبع لغوی استفاده می نمایند، آن منبع لغوی را به عنوان یک شبکه یا گراف می بینند و ارتباط معنایی را بر اساس خصوصیات مسیرها در این گراف محاسبه می نمایند. در بین منابع موجود، شبکه واژگان به شدت مورد توجه قرار گرفته و روش های متعددی برای محاسبه ی ارتباط بین کلمات بر اساس شبکه واژگان پیشنهاد گردیده است. در زبان فارسی نیز با توجه به تولید و توسعه ی دو شبکه ی واژگان فارس نت و فردوس نت، می توان محاسبه ی شباهت معنایی لغات را به جای محاسبه ی شباهت املایی و ظاهری لغات در کاربردهای فوق جهت بهبود نتایج مد نظر قرار داد.

۸. تحلیل نیازمندی های تولید هستان شناسی های عمومی و تخصصی بر ای زبان فارسی
فایل PDF
69 صفحه

۹. Semi Automatic Development of FarsNet; The Persian WordNet
فایل PDF
8 صفحه، مقاله
This paper describes the development process of FarsNet; a lexical ontology for the Persian language. FarsNet is designed to contain a Persian WordNet with about 10000 synsets in
its first phase and grow to cover verbs’ argument structures and their selectional restrictions in its second phase. In this paper we discuss the semi-automatic approach to create the first phase: the Persian WordNet.
10. Ontologies for Software Engineering and Software Technology
فایل PDF
343 صفحه
Coral Calero · Francisco Ruiz · Mario Piattini (Eds.)
Two important challenges facing current communities of researchers and practitioners in the field of software engineering and technology (SET) are  knowledge integration and computer-based automatic support. The first  challenge implies wasting a lot of time and effort and this is due to one of  the difficulties in human relationships, namely the lack of explicit knowledge shared among members of a group/project, with other groups and  with other stakeholders. The second challenge arises because many projects include the design/construction of advanced tools for supporting different software engineering activities. These tools should provide as much  functionality as possible with the smallest cost of development.

Both challenges can be better and more easily approached by using ontologies. In this book, we will mainly deal with two of the multiple applications of ontologies in software engineering and technology that have  been identified in the literature: (1) sharing knowledge of the problem domain and using a common terminology among all the interested people
(not just researchers); and (2) filtering the knowledge when defining models and metamodels.
The utility of the first application is obvious. However, it is important  and convenient to pay it opportune attention. Communication is one of the  main activities (regarding duration and impact) in software projects. It is  proven that participants in projects have a different knowledge of the problem domain and/or use different languages. The ambiguity of the natural  language implies mistakes and nonproductive efforts. Ontologies can mitigate these problems and, farther, some authors have intended to use ontologies as back-bone of software tools and environments.

جوابی بنویسید

ایمیل شما نشر نخواهد شد

شش − 6 =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/