دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
دانلود, پیکره, برچسب, همشهری, کلمات, زبان, فارسی, hamshahri, corpuse | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
شنبه , ۱۳ آذر ۱۳۹۵
آخرین مطالب
خانه -> پردازش متن -> مجموعه همشهری

مجموعه همشهری

مجموعه‌های متنی ابزارهای مهمی برای پیشبرد تحقیقات در تعدادی از شاخه‌های علوم کامپیوتر مانند بازیابی اطلاعات (Information Retrieval)، زبانشناسی پیکره‌ای (Corpus Linguistics) و زبانشناسی محاسباتی (Computational Linguistics) هستند. مجموعه آزمایش همشهری یکی از معتبرترین این منابع در زبان فارسی است. از این مجموعه در همایش‌های معتبر بین‌المللی Persian@CLEF2008 و Persian@CLEF2009 استفاده شده است. لازم به ذکر است که سایت قدیمی مجموعه همشهری از این آدرس قابل دسترسی است.

یک مجموعه آزمایش (Test Collection) دارای اجزاء زیر می‌باشد:

  • یک مجموعه استاندارد: باید به اندازه کافی بزرگ باشد تا بتوان آن را نماینده‌ای از متون فارسی در نظر گرفت و نتایج آزمایشات روی مجموعه را تعمیم داد.
  • مجموعه‌ای از پرس‌وجوها
  • داوری ارتباط اسناد مجموعه به پرس‌وجوها (Relevance Judgment)

در این پژوهش ما مجموعه آزمایش همشهری را ایجاد نموده‌ایم به نحوی که نیازمندی‌های فوق را تا حد ممکن برآورده سازد.

مجموعه همشهری

مجموعه اسناد همشهری با خزش (Crawl) وب سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. نسخه ۱ این مجموعه نمونه‌ای است که در همایش‌های CLEF در سال‌های ۲۰۰۸ و ۲۰۰۹ برای ارزیابی سامانه‌های ارزیابی سامانه‌های بازیابی اطلاعات تک‌منظوره (Ad Hoc) مورد استفاده قرار گرفته است. نسخه ۲، آخرین نسخه مجموعه است که نسبت به نسخه ۱ بزرگتر و جامع‌تر می‌باشد.

برای نسخه ۱ مجموعه همشهری دو سری پرس‌و‌جوی استاندارد در همایش بین المللی CLEF در سال های ۲۰۰۸ و ۲۰۰۹ ایجاد شده‌اند. هر سری از پرس‌و‌جو ها شامل ۵۰ موضوع به دو زبان انگلیسی و فارسی است که توسط ۲۵ کاربر ساخته و ارزیابی شده‌اند. برای اینکار از سامانه DIRECT تهیه شده در گروه تحقیقاتی Information Management Systems در دانشگاه پادوا (ایتالیا) استفاده شده است. از این سامانه برای ایجاد موضوع، ارزیابی موضوع‌ها و دریافت نتایج شرکت کنندگان در CLEF استفاده می‌شود.

مشخصات مجموعه همشهری

جدول زیر مشخصات کمی نسخه‌های ۱و ۲ مجموعه همشهری را نشان می‌دهد.

معیار
نسخه ۱
نسخه ۲
حجم (یونیکد در قالب CLEF) 700 مگابایت ۱۴۰۰ مگابایت
تعداد اسناد ۱۶۰ هزار ۳۱۸ هزار
محدوده زمانی اسناد از ۱۳۷۵/۲/۴ ۱۳۷۵/۲/۴
تا ۱۳۸۱/۱۱/۲۲ ۱۳۸۶/۲/۲۳
طبقه‌بندی اسناد دارد دارد
پیوند به تصاویر ندارد دارد
پیوند به اصل صفحات در وب ندارد دارد
پرس‌و‌جو + داوری ارتباط دارد دارد

مقایسه نسخه‌های ۱ و ۲ مجموعه همشهری

  • متون در نسخه ۲ از ساختار بهتری برخودار هستند.
  • حجم و تعداد اسناد در نسخه ۲ تقریبا ۲ برابر شده است و محدوده زمانی اخبار نیز از ۷ سال به ۱۲سال افزایش پیدا کرده است.
  • پیوند به صفحات اصلی در نسخه ۲ (تحت برچسب‌های ORIGINALFILE) نگهداری شده‌اند. بدین صورت پژوهشگران در صورت نیاز می‌توانند صفحه اولیه اینترنتی خبر را دانلود نموده و پردازش‌های دلخواه خود را روی آن انجام دهند.
  • در نسخه ۲ تصاویر موجود در اخبار استخراج و حفظ شده‌اند. تصاویر در بسته‌ای مجزا با نام HAM2-IMG قابل دریافت هستند (شامل ۱۴۸,۶۳۹ تصویر در قالب JPEG با حجم کلی ۱۹۰۰ مگابایت).

ویژگی‌های فوق، علاوه بر کاربرد‌های متداول بازیابی اطلاعات و طبقه‌بندی و کلاس‌بندی متون (Text Categorization & Classification)، نسخه ۲ مجموعه همشهری را برای تحقیقات و کاربرد‌های بازیابی تصاویر (Image Retrieval) نیز مناسب نموده است. با این وجود در حال حاضر تنها نسخه ۱ مجموعه همشهری به تایید همایش بین‌المللی CLEF رسیده است.

کاربرد‌ها

مجموعه همشهری می‌تواند در بسیاری از زمینه‌های تحقیقاتی مربوط به بازیابی اطلاعات مورد استفاده قرار بگیرد، از جمله:

  • بررسی مؤلفه‌های مختلف موتورهای جستجو و الگوریتم‌های مختلف بازیابی اطلاعات مانند الگوریتم‌های شاخص‌گذاری و مدل‌های بازیابی.
  • تحلیل زبان فارسی: مجموعه‌ای که در این تحقیق ایجاد شده است را می‌توان برای تحلیل خصوصیات زبان فارسی نیز استفاده کرد.
  • الگوریتم‌های خوشه‌بندی و کلاس‌بندی اسناد فارسی: همه اسناد مجموعه همشهری دارای برچسب “Cat” هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و …).
  • الگوریتم‌های ریشه‌یابی و تحلیل زبان فارسی: این دسته از الگوریتم‌ها از مهمترین الگوریتم‌ها هستند که در کاربردهای دیگر مانند بازیابی اطلاعات، ترجمه زبانی و غلط یاب کاربرد فراوانی دارند. مجموعه همشهری از متن روزنامه همشهری تهیه شده است که متنی منظم و بدون غلط است و این مطلب این مجموعه را برای الگوریتم‌های ریشه‌یابی و تحلیل زبان فارسی مناسب می‌کند. همچنین از این مجموعه برای ساخت ریشه‌یاب‌های آماری فارسی نیز می‌توان استفاده کرد.

حقوق مؤلفین

تمامی حقوق مادی و معنوی اخبار مجموعه همشهری متعلق به روزنامه همشهری می‌باشد. حقوق مادی و معنوی مجموعه و داده‌ها و ابزار‌های جنبی توسعه داده شده برای آن متعلق به مرکز تحقیقات مخابرات ایران می‌باشد. استفاده از مجموعه و ابزار‌های جنبی برای کاربرد‌های تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است. لطفاً در صورت استفاده از مجموعه آزمایش همشهری و یا ابزارهای مرتبط از [۱] جهت ارجاع استفاده نمایید.

تقدیر و تشکر

این پروژه توسط مرکز تحقیقات مخابرات ایران و آزمایشگاه پایگاه داده دانشگاه تهران پشتیبانی شده است که بدین وسیله مجریان پروژه مراتب سپاس‌گزاری خود را اعلام می‌نمایند.

نسخه ۱ رسمی مجموعه همشهری

توجه:

  • نسخه ۱ رسمی مجموعه همشهری توسط برگزارکنندگان CLEF نگهداری و توزیع می‌شود. این مجموعه در CLEF2008 و CLEF2009 استفاده شده است و ۱۰۰ پرس‌و‌جو دارد. علاقمندان برای دریافت این نسخه باید از طریق این آدرس با مسئولان CLEF تماس حاصل نمایند. با این وجود نسخه ۱ غیر رسمی مجموعه همشهری در زیر قابل دانلود است. لازم به ذکر است که اسناد مجموعه، پرس‌و‌جو‌ها و داوری ارتباط پرس‌و‌جو‌های نسخه غیر رسمی، قابل مقایسه با نتایج اعلام شده در همایش‌های CLEF نمی‌باشند.
  • نسخه ۲ مجموعه همشهری در سال ۱۳۸۸ توسط سامانه UTIRE در گروه تحقیقاتی پایگاه داده دانشگاه تهران و بر اساس استاندارد TREC تهیه شده است. مجموعه پرس‌و‌جوها و ارزیابی آنها در زیر قابل دانلود است.

نسخه ۱ غیررسمی مجموعه همشهری

توجه:

جهت اطلاع از آخرین تغییرات و به روزرسانی‌های احتمالی خواهشمند است این فرم را تکمیل کرده و به آدرس a.aleahmad(at)ece.ut.ac.ir ایمیل فرمایید

عنوان
حجم
توضیح
دانلود
اسناد مجموعه
۱۵۴ مگابایت

کل اسناد مجموعه به صورت یک فایل برچسب خورده در قالب TREC در آمده است. در صورت نیاز می‌توانید به سادگی با پردازش برچسب‌ها فایل‌ها را جدا نمایید. در این فایل متنی اسناد با برچسب‌های DID (شماره سند)، Date (تاریخ)، Category (طبقه‌بندی) مشخص شده‌اند و بلافاصله متن سند آمده است

سند نمونه
۲.۵ کیلوبایت یک نمونه از فایل‌های اسناد مجموعه

رسته‌ها ۴.۲ کیلوبایت

این فایل رسته‌های طبقه‌بندی اسناد مجموعه را نشان می‌دهد

پرس‌و‌جو‌ها ۱۰.۷ کیلوبایت ۶۸ پرس‌و‌جو مخصوص مجموعه ساخته شده است

داوری ارتباط (Relevance Judgment) 32.5 کیلوبایت

۶۸ پرس‌و‌جوی بالا طبق استاندارد TREC به صورت دستی مورد ارزیابی قرار گرفته‌اند

نسخه ۲ مجموعه همشهری

توجه:

جهت استفاده از این مجموعه نیاز به کلمه عبور است که برای دریافت آن این فرم را تکمیل کرده و به آدرس a.aleahmad(at)ece.ut.ac.ir ایمیل فرمایید

عنوان
حجم
توضیح
دانلود
اسناد مجموعه همشهری ۲ و DTD مربوطه
۳۹۹ مگابایت

حاوی اسناد مجموعه در قالب CLEF به صورت فشرده می‌باشد. اخبار هر روز در یک فایل XML قرار داده شده است که نام فایل متاثر از تاریخ اخبار می‌باشد. نام فایل با کلید‌واژه HAM2 شروع شده و بعد از علامت “-” دو رقم اولی سال و دو رقم دوم ماه و دو رقم آخر روز میلادی را نشان می‌دهد. به عنوان مثال فایلی با عنوان “HAM2-000102.xml” اخبار دوم ژانویه سال ۲۰۰۸ را در خود جای داده است. تاریخ‌های معادل شمسی در خود فایل‌ها ذکر شده‌اند. برای راهنمایی در مورد برچسب‌های (tag) مورد استفاده زیر را ببینید. برای توضیحات بیشتر ردیف ٣ این جدول را ببینید.

بسته HAM2-IMG
1.93 گیگابایت

این بسته حاوی تصاویر بکار رفته در مجموعه می‌باشد. در بسته HAM2 تنها مسیر تصاویر ذکر شده است. لذا در صورتیکه به تصاویر نیاز دارید بسته HAM2-IMG را نیز دریافت نمایید.

فایل راهنما ۲۲۱ کیلوبایت راهنمای مجموعه و توضیح برچسب‌های مورد استفاده در آن.

یک نمونه از فایل‌های مجموعه ۱۳۹ کیلوبایت

در صورتیکه مایل هستید این فایل را روی رایانه خود ذخیره نمایید لازم است فایل DTD مربوطه را نیز از اینجا دانلود کرده و در مسیر فایل قرار دهید.

رسته‌های مورد استفاده برای طبقه‌بندی اسناد مجموعه ۱۵.۲ کیلوبایت عناوین دسته‌بندی‌های انجام شده روی اسناد

پرس‌و‌جو‌ها
۷.۷۱ کیلوبایت

۵۰ پرس‌و‌جو مخصوص مجموعه با استفاده از سامانه UTIRE ساخته شده است. این فایل حاوی پرس‌و‌جوها به دو زبان فارسی و انگلیسی می‌باشد.

داوری ارتباط (Relevance Judgment) 485 کیلوبایت

۵۰ پرس‌و‌جوی بالا طبق استاندارد TREC مورد ارزیابی قرار گرفته‌اند.

لیست کلمات فارسی ۱.۴۳ مگابایت

فهرست تمام کلمات فارسی مورد استفاده در پیکره همشهری ۲ به همراه بسامد آنها به فرمت UFT8. این فایل با فرمت های دیگر نیز قابل دسترسی است: UTF16 یا Windows 1256

پیکره بدون برچسب همشهری دو

۲۹۵ مگابایت

پیکره همشهری دو بصورت متنی خالص بدون برچسب. کدپیج فایل ۱۲۵۶ (عربی استاندارد) میباشد. درصورتیکه کدپیج دیگری مورد نیاز است از برنامه مبدل کدپیج که در همین صفحه قابل دریافت است برای تولید پیکره استفاده نمایید.

برنامه مبدل کدپیج ۳.۵۳ کیلوبایت

برنامه‌ای که پیکره همشهری ۲ را به متن خالص در یکی از کدپیج‌های Unicode ،Windows-1256 و یا UTF-8 تبدیل مینماید. برای اجرای این برنامه باید Net Framework. نسخه ۳.۵ روی رایانه شما نصب شده باشد و پیکره همشهری ۲ را نیز دانلود و باز نموده باشید.

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

1 × 1 =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/