معرفی سایت دادگان

مرجع دادگان زبان فارسی (dadegan.ir) با هدف ارائه متمرکز پیکره‌ها و سایر داده‌های زبانی موجود برای زبان فارسی راه‌اندازی شده است. داده‌های عرضه شده در این مرجع تخصصی می‌توانند برای اهداف پردازش رایانه‌ای زبان و مطالعات زبان‌شناختی مورد استفاده قرار بگیرند.

امروزه روش‌های آماری و مبتنی بر یادگیری ماشینی کاربرد فراوانی در پردازش زبان طبیعی و ایجاد سامانه‌هایی چون سامانه‌های ترجمه ماشینی، پرسش و پاسخ خودکار، تبدیل رایانه‌ای متن به گفتار و بالعکس، بازیابی اطلاعات و … پیدا کرده‌اند. یکی از ملزومات استفاده از روش‌های آماری در پردازش زبان طبیعی، دسترسی به داده‌های زبانی شامل پیکره‌های متنی، پیکره‌های درختی، واژگان‌ها، بانک‌های صوتی و … است و عدم دسترسی مناسب به چنین داده‌هایی مشکلات فراوانی را پیش پای پژوهشگران قرار می‌دهد.

از سوی دیگر بسیاری از زبان‌شناسان در پژوهش‌های خود از پیکره‌های زبانی بهره می‌گیرند و به بررسی ویژگی‌ها و کشف قواعد زبان از طریق اطلاعات موجود در داده‌های زبانی می‌پردازند.

»مرجع دادگان زبان فارسی» به منظور دسترسی هرچه سریع‌تر محققان حوزه پردازش رایانه‌ای زبان و زبان‌شناسی به داده‌های زبانی موجود برای زبان فارسی راه‌اندازی شده است و در نظر دارد با همراهی همه علاقه‌مندان، به مرجعی کارآمد در این زمینه تبدیل شود.

داده‌های ثبت شده در مرجع دادگان در «فهرست داده‌ها» نمایش داده می‌شود. صفحه مربوط به هر داده شامل اطلاعات زیر است:

معرفی (اطلاعات مختصر در خصوص هر داده به منظور آشنایی اولیه کاربران در بخش “معرفی” نمایش داده‌ می‌شود.)
اطلاعات ارجاع (مناسب است – و معمولاً از کاربران خواسته می‌شود – که هنگام استفاده از داده در پژوهش به این شکل به داده ارجاع داده شود.)
سایر مستندات علمی مربوط به داده ( اگر علاوه بر موارد معرفی شده در بخش اطلاعات ارجاع، مستندات دیگری در خصوص داده وجود داشته باشد در این بخش معرفی می‌شود.)
پژوهش‌های مرتبط (محققین با مراجعه به این پژوهش‌ها می‌توانند با کاربردهای مختلف یک داده، مشکلات استفاده از داده و راه‌حل‌های موجود، محصولات به دست آمده از داده، و همچنین تغییر و یا توسعه داده‌ای مشخص آشنا شوند.)
اطلاعات تکمیلی (توضیحات تکمیلی در خصوص داده در این قسمت ثبت شده و یا پیوند وبگاه دیگری که حاوی اطلاعات تکمیلی باشد در این بخش ارائه می‌شود.)
پیوند دریافت داده (کاربران می‌توانند با مراجعه به این پیوند داده را دانلود نموده و یا به هر شکل دیگری که عرضه شده باشد دریافت نمایند. به منظور رعایت حقوق معنوی صاحبان آثار، هیچ یک از داده‌های معرفی شده به صورت مستقیم در مرجع دادگان زبان فارسی عرضه نخواهد شد، مگر آنکه مالک معنوی اثر خود چنین درخواستی از مرجع دادگان داشته باشد.)
نمونه داده (به منظور فراهم نمودن امکان آشنایی با ساختار داده پیش از دریافت آن، در صورت امکان بخشی از داده به عنوان نمونه ارائه می‌شود.)

اگر داده زبانی تولید کرده‌اید و می‌خواهید آن را در مرجع دادگان زبان فارسی معرفی کنید،
اگر داده‌ای را می‌شناسید که هنوز در مرجع دادگان زبان فارسی معرفی نشده است،
اگر هرگونه پیشنهاد و یا سؤالی در خصوص مرجع دادگان زبان فارسی دارید،

با ما تماس بگیرید.

چند نمونه از پیکره ها:

پیکره فارسی ارزیابی سامانه‌های تقلب‌یاب

کد محصول: D3940531a

ثبت در مرجع: ۳۱ مرداد ۱۳۹۴

بازدیدها: ۲۹۳

پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هم‌معنا اعمال شده است.

اطلاعات بیشتر

پیکره فارسی تحلیل احساس سِنتی‌پِرس

کد محصول: D3940423a

ثبت در مرجع: ۲۴ تیر ۱۳۹۴

بازدیدها: ۶۰۰

پیکره سِنتی‌پِرس شامل مجموعه‌ای از جملات فارسی با برچسب‌های حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیده‌کاوی کاربرد دارد. با توجه به ویژگی‌های این پیکره، می‌توان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است. پروژه توسعه این پیکره ادامه دارد و پیکره حاضر که تحت عنوان بخش اول کار ارائه شده است مشتمل بر حدود ۱۱۰۰ جملهٔ برچسب‌خورده است.

اطلاعات بیشتر

پی.سی.ای.سی ۲۰۰۸ (پیکره مرجع ضمیر)

کد محصول: D3940406a

ثبت در مرجع: ۶ تیر ۱۳۹۴

بازدیدها: ۶۲۸

پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصه‌سازی خودکار دارای اهمیت است.

اطلاعات بیشتر

لوتوس (پیکره کلمات هم‌مرجع) [منتشر نشده]

کد محصول: D3940330b

ثبت در مرجع: ۱ تیر ۱۳۹۴

بازدیدها: ۵۹۹

پیکره لوتوس مجموعه‌ای از ۵۰ متن نسبتاً بلند برگفته از پیکره بی‌جن‌خان است که عبارات اسمی هم‌مرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیان‌گذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با کروشه مشخص شده‌اند به یک موجودیت واحد اشاره دارند. دسترسی به چنین اطلاعاتی در بسیاری از کاربردهای پردازش زبان و از جمله استخراج اطلاعات دارای اهمیت است.

اطلاعات بیشتر

وردنت فارسی حوزه فاوا [منتشر نشده]

کد محصول: D3940317a

ثبت در مرجع: ۱۷ خرداد ۱۳۹۴

بازدیدها: ۷۵۷

وردنت فارسی حوزه فاوا مجموعه‌ای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقوله‌های اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقوله‌ای، روابط میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. وردنت فارسی حوزه فاوا با همكاری پژوهشگاه ارتباطات و فناوری اطلاعات و دانشگاه بوعلی‌سینای همدان تهیه شده است.

اطلاعات بیشتر

پاسخ (پیکره استاندارد سامانه‌های خلاصه‌ساز)

کد محصول: D3930615a

ثبت در مرجع: ۱۵ شهریور ۱۳۹۳

بازدیدها: ۲۱۵۹

پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصه‌سازی تک‌سندی و خلاصه‌سازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تک‌سندی و چندسندی است. در تولید این مجموعه سعی شده است تمامی استانداردهای لازم برای تولید یک پیکره خلاصه‌سازی رعایت گردد.

اطلاعات بیشتر

پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی (Persian ESD)

کد محصول: D3930518a

ثبت در مرجع: ۱۸ مرداد ۱۳۹۳

بازدیدها: ۵۱۲۵

دسترسی به ابزار پژوهش رواسازی شده برای ارزیابی نوای گفتار (پروسودی) از ملزومات مطالعه گفتار‌ احساسی‌ (عاطفی) است. “پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی Persian ESD”، اولین مجموعه جامع و معتبر گفتار احساسی‌ برای زبان فارسی است که در دانشگاه Freie Universitaet Berlin ساخته و سپس رواسازی شده‌ است. برای ساخت این مجموعه دو بازیگر فارسی‌ زبان (یک زن و یک مرد) ۹۰ جمله را در پنج آهنگ عاطفی [1] عصبانیت، شادی، غم، ترس، چندش و نیز خنثی را طی شرایط خاصی در سه دسته “همگون [2]”، “ناهمگون [3]” و “پایه [4]”در یک استودیو تخصصی ضبط صدا و زیر نظر یک زبانشناس و یک متخصص آکوستیک در شهر برلین آلمان اجرا کردند. متن این ٩٠ جمله پیشتر توسط ۱۱۲۶ فارسی‌زبان در دو مطالعه رفتاری جداگانه رواسازی شده بودند. حاصل این کار ۴۷۲ جمله صوتی با آهنگ‌های عاطفی متفاوت است. روايی محتوایی [5] این جملات صوتی در یک مطالعه رفتاری توسط ۳۴ فارسی‌زبان مورد ارزیابی قرار گرفته و ۴۶۸ جمله صوتی که درصد تشخیصشان بالای ۷۱.۴۲ % بود (پنج‌بار بالاتر از سطح شانس) به عنوان جملات معتبر (روسازی شده) درنظر گرفته شده‌اند. همچنین تجزیه و تحلیل اکوستیکی این ۴۶۸ جمله صوتی نمایانگر تفاوت معنی داری در زمینه شدت، زیر و بمی صدا، و کشش (دیرند) بیان جملات در پنج آهنگ عاطفی مورد مطالعه است.

پایگاه‌داده گفتار احساسی‌ زبان فارسی (Persian ESD)، که برای استفاده در مطالعات حوزه‌های گوناگون از جمله عصب‌شناسی زبان، روانشناسی زبان، زبانشناسی بالینی، گفتار درمانی و نیز شناخت [6] و ترکیب [7] گفتار تهیه شده است، این امکان را به پژوهشگران می‌دهد که تاثیر نوای عاطفی گفتار [8]، متن گفتار (واژگان) [9] و نیز تعامل این دو را در درک گفتار عاطفی [10] بطور جداگانه مورد بررسی قرار دهند.

اطلاعات بیشتر

دادگان تلفنی اعداد متصل

کد محصول: D3930414a

ثبت در مرجع: ۱۵ تیر ۱۳۹۳

بازدیدها: ۲۱۸۷

دادگان تلفنی اعداد متصل زبان فارسی شامل داده‌های ضبط‌شده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده می‌باشد كه هر یك تقریبا ۷۰ رشته عددی را بیان كرده‌اند. هر رشته عددی جداگانه بر چسب‌دهی شده است. آزمایش‌های متنوعی كه به وسیله شنوندگان مختلف بر روی این دادگان صورت گرفته، كیفیت دادگان از نظر قابل فهم بودن برای استفاده‌كنندگان انسانی و همچنین صحت برچسب‌گذاری دادگان را تضمین كرده است. از این دادگان در سیستم‌های بازشناسی گفتار پیوسته استفاده می‌شود. با به كارگیری این دادگان، دقت بازشناسی اعداد متصل تلفنی بیش از ۹۷٪ بوده است.

اطلاعات بیشتر

مجموعه افعال تصریف‌شده فارسی

کد محصول: D3930317a

ثبت در مرجع: ۱۸ خرداد ۱۳۹۳

بازدیدها: ۲۵۴۲

دادگان «مجموعه افعال تصریف‌شده فارسی» مجموعه‌ایست که به گردآوری مصادر مختلف فارسی در پیکره‌های بی‌جن‌خان، همشهری، تب‌کورپ و چند منبع دیگر پرداخته است. این مصادر در صیغه‌های مختلف صرف ‌شده‌اند و ویژگی‌های مختلف آن‌ها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و … برای هر صیغه و همینطور صورت واج‌نویسی‌شده و معادل انگلیسی برخی از مصادر نیز تعیین شده است. از این دادگان می‌توان در مطالعات ساخت‌واژی و نحوی زبان‌شناختی یا پردازش‌های مختلف رایانه‌ای از جمله تشخیص افعال مرکب، تعیین حدود جمله، تحلیل‌های صرفی و نحوی و … استفاده کرد. تعداد کل مصادر در این مجموعه نزدیک به ۱۳۰۰ مصدر می‌باشد. این مجموعه دادگان در سه قالب xml، sql و csv ارائه شده است.

اطلاعات بیشتر

پیکره فارسی ۱۹۸۴

کد محصول: D3930213a

ثبت در مرجع: ۱۴ اردیبهشت ۱۳۹۳

بازدیدها: ۲۶۳۹

برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکره‌های مشابه موجود چارچوب MULTEXT-East برای زبان‌هایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.

اطلاعات بیشتر

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com