دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
معرفی سایت دادگان | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
شنبه , ۱۳ آذر ۱۳۹۵
آخرین مطالب
خانه -> اخبار -> معرفی سایت دادگان

معرفی سایت دادگان

مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکره‌ها و سایر داده‌های زبانی موجود برای زبان فارسی راه‌اندازی شده است. داده‌های عرضه شده در این مرجع تخصصی می‌توانند برای اهداف پردازش رایانه‌ای زبان و مطالعات زبان‌شناختی مورد استفاده قرار بگیرند.

 

امروزه روش‌های آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانه‌هایی چون سامانه‌های ترجمه ماشینی، پرسش و پاسخ خودکار، تبدیل رایانه‌ای متن به گفتار و بالعکس، بازیابی اطلاعات و … پیدا کرده‌اند. یکی از ملزومات استفاده از روش‌های آماری در پردازش زبان طبیعی، دسترسی به داده‌های زبانی شامل پیکره‌های متنی، پیکره‌های درختی، واژگان‌ها، بانک‌های صوتی و … است و عدم دسترسی مناسب به چنین داده‌هایی مشکلات فراوانی را پیش پای پژوهشگران قرار می‌دهد.

از سوی دیگر بسیاری از زبان‌شناسان در پژوهش‌های خود از پیکره‌های زبانی بهره می‌گیرند و به بررسی ویژگی‌ها و کشف قواعد زبان از طریق اطلاعات موجود در داده‌های زبانی می‌پردازند.

»مرجع دادگان زبان فارسی» به منظور دسترسی هرچه سریع‌تر محققان حوزه پردازش رایانه‌ای زبان و زبان‌شناسی به داده‌های زبانی موجود برای زبان فارسی راه‌اندازی شده است و در نظر دارد با همراهی همه علاقه‌مندان، به مرجعی کارآمد در این زمینه تبدیل شود.

 

داده‌های ثبت شده در مرجع دادگان در «فهرست داده‌ها» نمایش داده می‌شود. صفحه مربوط به هر داده شامل اطلاعات زیر است:

 

  • معرفی (اطلاعات مختصر در خصوص هر داده به منظور آشنایی اولیه کاربران در بخش “معرفی” نمایش داده‌ می‌شود.)
  • اطلاعات ارجاع (مناسب است – و معمولاً از کاربران خواسته می‌شود – که هنگام استفاده از داده در پژوهش به این شکل به داده ارجاع داده شود.)
  • سایر مستندات علمی مربوط به داده ( اگر علاوه بر موارد معرفی شده در بخش اطلاعات ارجاع، مستندات دیگری در خصوص داده وجود داشته باشد در این بخش معرفی می‌شود.)
  • پژوهش‌های مرتبط (محققین با مراجعه به این پژوهش‌ها می‌توانند با کاربردهای مختلف یک داده، مشکلات استفاده از داده و راه‌حل‌های موجود، محصولات به دست آمده از داده، و همچنین تغییر و یا توسعه داده‌ای مشخص آشنا شوند.)
  • اطلاعات تکمیلی (توضیحات تکمیلی در خصوص داده در این قسمت ثبت شده و یا پیوند وبگاه دیگری که حاوی اطلاعات تکمیلی باشد در این بخش ارائه می‌شود.)
  • پیوند دریافت داده (کاربران می‌توانند با مراجعه به این پیوند داده را دانلود نموده و یا به هر شکل دیگری که عرضه شده باشد دریافت نمایند. به منظور رعایت حقوق معنوی صاحبان آثار، هیچ یک از داده‌های معرفی شده به صورت مستقیم در مرجع دادگان زبان فارسی عرضه نخواهد شد، مگر آنکه مالک معنوی اثر خود چنین درخواستی از مرجع دادگان داشته باشد.)
  • نمونه داده (به منظور فراهم نمودن امکان آشنایی با ساختار داده پیش از دریافت آن، در صورت امکان بخشی از داده به عنوان نمونه ارائه می‌شود.)
  • اگر داده زبانی تولید کرده‌اید و می‌خواهید آن را در مرجع دادگان زبان فارسی معرفی کنید،
  • اگر داده‌ای را می‌شناسید که هنوز در مرجع دادگان زبان فارسی معرفی نشده است،
  • اگر هرگونه پیشنهاد و یا سؤالی در خصوص مرجع دادگان زبان فارسی دارید،


با ما تماس بگیرید.

چند نمونه از پیکره ها:

D3940531a
۳۱ مرداد ۱۳۹۴
۲۹۳

پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هم‌معنا اعمال شده است.

D3940423a
۲۴ تیر ۱۳۹۴
۶۰۰

پیکره سِنتی‌پِرس شامل مجموعه‌ای از جملات فارسی با برچسب‌های حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیده‌کاوی کاربرد دارد. با توجه به ویژگی‌های این پیکره، می‌توان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است. پروژه توسعه این پیکره ادامه دارد و پیکره حاضر که تحت عنوان بخش اول کار ارائه شده است مشتمل بر حدود ۱۱۰۰ جملهٔ برچسب‌خورده است.

D3940406a
۶ تیر ۱۳۹۴
۶۲۸

پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصه‌سازی خودکار دارای اهمیت است.

D3940330b
۱ تیر ۱۳۹۴
۵۹۹

پیکره لوتوس مجموعه‌ای از ۵۰ متن نسبتاً بلند برگفته از پیکره بی‌جن‌خان است که عبارات اسمی هم‌مرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیان‌گذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با کروشه مشخص شده‌اند به یک موجودیت واحد اشاره دارند. دسترسی به چنین اطلاعاتی در بسیاری از کاربردهای پردازش زبان و از جمله استخراج اطلاعات دارای اهمیت است.

D3940317a
۱۷ خرداد ۱۳۹۴
۷۵۷

وردنت فارسی حوزه فاوا مجموعه‌ای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقوله‌های اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقوله‌ای، روابط میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. وردنت فارسی حوزه فاوا با همکاری پژوهشگاه ارتباطات و فناوری اطلاعات و دانشگاه بوعلی‌سینای همدان تهیه شده است.

D3930615a
۱۵ شهریور ۱۳۹۳
۲۱۵۹

پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصه‌سازی تک‌سندی و خلاصه‌سازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تک‌سندی و چندسندی است. در تولید این مجموعه سعی شده است تمامی استانداردهای لازم برای تولید یک پیکره خلاصه‌سازی رعایت گردد.

D3930518a
۱۸ مرداد ۱۳۹۳
۵۱۲۵
دسترسی به ابزار پژوهش رواسازی شده برای ارزیابی نوای گفتار (پروسودی) از ملزومات مطالعه گفتار‌ احساسی‌ (عاطفی) است. “پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی Persian ESD”، اولین مجموعه جامع و معتبر گفتار احساسی‌ برای زبان فارسی است که در دانشگاه Freie Universitaet Berlin ساخته و سپس رواسازی شده‌ است. برای ساخت این مجموعه دو بازیگر فارسی‌ زبان (یک زن و یک مرد) ۹۰ جمله را در پنج آهنگ عاطفی [۱] عصبانیت، شادی، غم، ترس، چندش و نیز خنثی را طی شرایط خاصی در سه دسته “همگون [۲]”، “ناهمگون [۳]” و “پایه [۴]”در یک استودیو تخصصی ضبط صدا و زیر نظر یک زبانشناس و یک متخصص آکوستیک در شهر برلین آلمان اجرا کردند. متن این ٩٠ جمله پیشتر توسط ۱۱۲۶ فارسی‌زبان در دو مطالعه رفتاری جداگانه رواسازی شده بودند. حاصل این کار ۴۷۲ جمله صوتی با آهنگ‌های عاطفی متفاوت است. روایی محتوایی [۵] این جملات صوتی در یک مطالعه رفتاری توسط ۳۴ فارسی‌زبان مورد ارزیابی قرار گرفته و ۴۶۸ جمله صوتی که درصد تشخیصشان بالای ۷۱.۴۲ % بود (پنج‌بار بالاتر از سطح شانس) به عنوان جملات معتبر (روسازی شده) درنظر گرفته شده‌اند. همچنین تجزیه و تحلیل اکوستیکی این ۴۶۸ جمله صوتی نمایانگر تفاوت معنی داری در زمینه شدت، زیر و بمی صدا، و کشش (دیرند) بیان جملات در پنج آهنگ عاطفی مورد مطالعه است.
پایگاه‌داده گفتار احساسی‌ زبان فارسی (Persian ESD)، که برای استفاده در مطالعات حوزه‌های گوناگون از جمله عصب‌شناسی زبان، روانشناسی زبان، زبانشناسی بالینی، گفتار درمانی و نیز شناخت [۶] و ترکیب [۷] گفتار تهیه شده است، این امکان را به پژوهشگران می‌­دهد که تاثیر نوای عاطفی گفتار [۸]، متن گفتار (واژگان) [۹] و نیز تعامل این دو را در درک گفتار عاطفی [۱۰] بطور جداگانه مورد بررسی قرار دهند.
D3930414a
۱۵ تیر ۱۳۹۳
۲۱۸۷

دادگان تلفنی اعداد متصل زبان فارسی شامل داده‌های ضبط‌شده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده می‌باشد که هر یک تقریبا ۷۰ رشته عددی را بیان کرده‌اند. هر رشته عددی جداگانه بر چسب‌دهی شده است. آزمایش‌های متنوعی که به وسیله شنوندگان مختلف بر روی این دادگان صورت گرفته، کیفیت دادگان از نظر قابل فهم بودن برای استفاده‌کنندگان انسانی و همچنین صحت برچسب‌گذاری دادگان را تضمین کرده است. از این دادگان در سیستم‌های بازشناسی گفتار پیوسته استفاده می‌شود. با به کارگیری این دادگان، دقت بازشناسی اعداد متصل تلفنی بیش از ۹۷٪ بوده است.

D3930317a
۱۸ خرداد ۱۳۹۳
۲۵۴۲

دادگان «مجموعه افعال تصریف‌شده فارسی» مجموعه‌ایست که به گردآوری مصادر مختلف فارسی در پیکره‌های بی‌جن‌خان، همشهری، تب‌کورپ و چند منبع دیگر پرداخته است. این مصادر در صیغه‌های مختلف صرف ‌شده‌اند و ویژگی‌های مختلف آن‌ها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و …  برای هر صیغه و همینطور صورت واج‌نویسی‌شده و معادل انگلیسی برخی از مصادر نیز تعیین شده است. از این دادگان می‌توان در مطالعات ساخت‌واژی و نحوی زبان‌شناختی یا پردازش‌های مختلف رایانه‌ای از جمله تشخیص افعال مرکب، تعیین حدود جمله، تحلیل‌های صرفی و نحوی و … استفاده کرد. تعداد کل مصادر در این مجموعه نزدیک به ۱۳۰۰ مصدر می‌باشد. این مجموعه دادگان در سه قالب xml، sql و csv ارائه شده است.

D3930213a
۱۴ اردیبهشت ۱۳۹۳
۲۶۳۹

برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکره‌های مشابه موجود چارچوب MULTEXT-East برای زبان‌هایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

3 × سه =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/