کد داده: D3920221a | ثبت در مرجع: ۲۲ اردیبهشت ۱۳۹۲ | تعداد بازدید: ۳۱۲۱ پیکره میزان مجموعهای است حاوی بیش از ۱ میلیون جمله از متون انگلیسی (اغلب در حوزه ادبیات کلاسیک) و ترجمه این جملات به فارسی که توسط دبیرخانه شورای عالی اطلاعرسانی تهیه شده است. از این پیکره میتوان در کاربردهای مختلف پردازش زبان طبیعی و به ویژه در ... ادامه مطلب »
نتیجه جستجو برای : های
پیکره موازی انگلیسی-فارسی تهران
کد داده: D3920214a | ثبت در مرجع: ۱۴ اردیبهشت ۱۳۹۲ | تعداد بازدید: ۱۶۵۸ پیکره موازی انگلیسی فارسی تهران (TEP) مجموعهای است حاوی بیش از ششصدهزار جمله همترازشده انگلیسی و فارسی که از زیرنویس ۱۶۰۰ فیلم استخراج شدهاند. این پیکره در آزمایشگاه پردازش زبان طبیعی دانشگاه تهران تهیه شده است و در ماشینهای ترجمه و دیگر سیستمهای پردازش زبان طبیعی ... ادامه مطلب »
پیکره – فارسدات تلفنی
کد داده: D3920124c | ثبت در مرجع: ۲۵ فروردین ۱۳۹۲ | تعداد بازدید: ۱۴۳۹ دادگان فارسدات تلفنی (TFarsDat)، مجموعهای از عبارات و جملات است که توسط گویندگان فارسیزبان از مناطق مختلف کشور از طریق خط تلفن بیان شده است. این دادگان در سطح واج (آوا) با دقت میلیثانیه تقطیع و برچسبدهی شده و بصورت فایلهای مجزا ذخیره گردیده است. تهیه این ... ادامه مطلب »
پیکره – فارسدات
کد داده: D3920124a | ثبت در مرجع: ۲۵ فروردین ۱۳۹۲ | تعداد بازدید: ۲۲۰۷ دادگان فارسدات (FarsDat)، مجموعهای از عبارات و جملات است که توسط گویندگان فارسیزبان از مناطق مختلف کشور بیان شده است. این دادگان در سطح واج (آوا) با دقت میلیثانیه تقطیع و برچسبدهی شده و بصورت فایلهای مجزا ذخیره گردیده است. این دادگان، به عنوان دادگان استاندارد ... ادامه مطلب »
پیکره – پیکره متنی زبان فارسی
کد داده: D3920121a | ثبت در مرجع: ۲۳ فروردین ۱۳۹۲ | تعداد بازدید: ۲۵۳۰ پیکره متنی زبان فارسی، مجموعهای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامهها، سایتها و مستنداتِ از قبل تایپ شده، جمعآوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و ... ادامه مطلب »
پیکره – فارس نت
کد داده: D3920119a | ثبت در مرجع: ۲۳ فروردین ۱۳۹۲ | تعداد بازدید: ۵۶۲۷ فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است كه حاوی اطلاعات درمورد واژهها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است و در دو نسخه قابل دسترسی میباشد. نسخۀ اول فارسنت شامل بیش از ۱۷هزار مدخل واژگانی از مقولههای اسم، ... ادامه مطلب »
پیکره – مجموعه همشهری (نسخه ۲)
کد داده: D3920117a | ثبت در مرجع: ۲۰ فروردین ۱۳۹۲ | تعداد بازدید: ۲۰۶۹ مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای ... ادامه مطلب »
پیکره – فرهنگ ظرفیت نحوی افعال فارسی (نسخه ۳.۰)
کد داده: D3911212a | ثبت در مرجع: ۲۴ اسفند ۱۳۹۱ | تعداد بازدید: ۳۶۴۸ فرهنگ ظرفیت نحوی افعال فارسی مجموعهای است حاوی اطلاعات مربوط به ظرفیت نحوی بیش از ۴۵۰۰ فعل در زبان فارسی. در این فرهنگ، متممهای اجباری و اختیاری انواع فعلهای ساده، مرکب، پیشوندی و عبارات فعلی مشخص شده است. فراوانی فعلهای مرکب در زبان فارسی، نیاز به ... ادامه مطلب »
پیکره – فرهنگ املایی خط فارسی
کد داده: D3911203c | ثبت در مرجع: ۰۴ اسفند ۱۳۹۱ | تعداد بازدید: ۱۹۷۴ داده حاضر نسخه رقومی فرهنگ املايى خطّ فارسى براساس دستور خطّ فارسی مصوّب فرهنگستان زبان و ادب فارسی است. ازآنجاكه بهخاطر سپردن تمام قواعدى كه در دستور خطّ فارسى مصوّب فرهنگستان زبان و ادب فارسى آمده براى همگان امكانپذير نيست، و ازسوىديگر، عموم نويسندگان، اعم از ... ادامه مطلب »
پیکره – فرهنگ جامع واژگان مترادف و متضاد زبان فارسی
کد داده: D3911124a | ثبت در مرجع: ۲۷ بهمن ۱۳۹۱ | تعداد بازدید: ۳۶۴۱۰ این داده نسخه رقومی فرهنگ جامع واژگان مترادف و متضاد زبان فارسی (تألیف فرجالله خداپرستی) است که متشکل از ۱۵۰۰۰ مدخل، ۲۷۴۰۰ حوزه معنایی و ۱۳۵۰۰۰ واژه میباشد. نحوه تنظیم لغات الفبایی بوده و در برابر هر واژه ابتدا مترادفات آن و سپس واژگان متضاد آمده ... ادامه مطلب »
پیکره – مجموعه داده عروض (نسخۀ ۲.۰۰)
کد داده: D3911108c | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۶۵۶۲ دادگان عروض مجموعهای است شامل حدود ۱۳۰۰ بیت از اشعار مولانا و حافظ به همراه کد وزن آنها که میتواند جهت تشخیص خودکار وزن عروضی اشعار فارسی مورد استفاده قرار گیرد. مالکیت معنوی: دبیرخانه شورای عالی اطلاعرسانی شرایط استفاده: – اطلاعات ارجاع: – محمدمهدی مجیری، و ... ادامه مطلب »
پیکره – بانک اطلاعات حروف گسسته دستنویس فارسی
کد داده: D3911108a | ثبت در مرجع: ۰۹ بهمن ۱۳۹۱ | تعداد بازدید: ۱۵۰۹ به دلیل روند رو به گسترش تولید و استفاده از سیستمهای مبتنی بر نویسهخوانی نوری (OCR)، اهمیت وجود بانکهای اطلاعات تصاویر نوشتار فارسی بیش از پیش احساس میشود. این بانکهای اطلاعاتی هم به منظور توسعه و آموزش الگوریتمهای آموزشپذیر و هم به منظور ارزیابی سیستمهای ساخته ... ادامه مطلب »
پیکره – فرهنگ طیفی زبان فارسی
کد داده: D3911105c | ثبت در مرجع: ۰۷ بهمن ۱۳۹۱ | تعداد بازدید: ۲۰۵۶ این داده نسخه رقومی کتاب «فرهنگ طیفی» با طبقهبندی بر اساس ارتباط معنایی ۴۵ هزار لغت و ۹۲ هزار معنی و تداعی آن لغات است. کتاب فرهنگ طیفی نخستین تزاروس طبقهبندی لغات و اصطلاحات رایج زبان فارسی است که به صورت طبقهبندی شده، ذیل ۹۹۱ مقوله ... ادامه مطلب »
پیکره – واژگان زایای زبان فارسی
کد داده: D3911105a | ثبت در مرجع: ۰۷ بهمن ۱۳۹۱ | تعداد بازدید: ۲۵۰۵ واژگان زایای زبان فارسی واژگانی است شامل حدود ۵۵هزار مدخل که هر مدخل دارای اطلاعات مربوط به صورت نوشتاری واژه در خط فارسی، ساخت واجی، مقولهٔ واژگانی، الگوی تکیه، و بسامد واژه میباشد. برای تهیهٔ واژگان زایا، یک پیکره متنی ۱۰میلیون کلمهای ملاک استخراج واژهها قرار ... ادامه مطلب »
پیکره – پیکره وابستگی نحوی زبان فارسی (نسخه ۱.۱.۱)
کد داده: D3911103a | ثبت در مرجع: ۲۷ اسفند ۱۳۹۳ | تعداد بازدید: ۴۰۶۲ پیکره وابستگی نحوی زبان فارسی مجموعهای است شامل حدود ۳۰ هزار جمله برچسبخورده با اطلاعات نحوی و ساختواژی. این پیکره میتواند به عنوان زیرساختی اساسی در پردازش رایانهای زبان فارسی به کار رود. مهمترین دلائل استفاده از دستور وابستگی در این پیکره نحوی عبارتند از: نتایج ... ادامه مطلب »
معرفی سایت دادگان
مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکرهها و سایر دادههای زبانی موجود برای زبان فارسی راهاندازی شده است. دادههای عرضه شده در این مرجع تخصصی میتوانند برای اهداف پردازش رایانهای زبان و مطالعات زبانشناختی مورد استفاده قرار بگیرند. امروزه روشهای آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانههایی چون سامانههای ... ادامه مطلب »