دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
مجموعه داده Epinions | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
شنبه , ۱۳ آذر ۱۳۹۵
آخرین مطالب
خانه -> وب معنایی -> سیستم توصیه گر -> پیکره ارزیابی سیستم های توصیه گر – مجموعه داده‏ Epinions

پیکره ارزیابی سیستم های توصیه گر – مجموعه داده‏ Epinions

ارزیابی سیستم توصیه گر

برای دریافت پیکره گرداوری شده که حدود۲ گیگا بایت حجم دارد، لطفا از طریق پیامک یا ایمیل زیر به ما اطلاع دهید تا پس از دریافت آدرس پستی شما، در صورتیکه در تهران هستید با پیک موتوری و در صورتیکه در شهرستان هستید از طریق پست DVD حاوی پیکره را برایتان ارسال نماییم. بخشی از هزینه دریافتی جهت ارسال پستی فایل می باشد…

در ضمن کلیه کدهای کار با پیکره و همچنین کدهای کار با وردنت موجود می باشد و برای دریافت کدها می توانید با ایمیل زیر مکاتبه نمایید.

universitydatainfo@yahoo.com

09359529058

 

دانلود پیکره:

رمز عبور فایل فشرده : ۰۹۳۵۹۵۲۹۰۵۸

با توجه به سوالات برخی از دوستان در مورد این پیکره، یکسری توضیحات در مورد پیکره اضافه گردید:

۱- داده ها در فرمت فایل SQL هستند. تبدیل به اکسل مشکل و یا زحمت زیادی نمیخواهد، با یک کد ساده قابل تبدیل است…
۲- داده ها از یک سایت با کاربران انسانی هستند.
۳- در پایان نامه کارشناسی ارشد از این داده ها استفاده شده … داده های سایت Epinions در مقیاس خیلی کوچکتر که توسط آقای Paolo Massa جمع آوری شده اند، در مقالات زیادی استفاده شده اند. اگر آن مقیاس را میتوانید استفاده کنید، در آدرس زیر موجود است. لیست مقالات استفاده کننده هم در سایت ایشان هستند:
trustlet.org
4- نمونه کوچکی از پیکره نیز بزودی روی سایت جهت دانلود رایگان قرار خواهد گرفت…

———————————————————————————————————-

dataset1:
این دیتاست کرال شده کتابها و کاربران خواننده ی این کتابها از سایت: http://epinions.com/search/books/63715 هست.

دانلود دیتاست اول   Download_catalog_darb

dataset2:
تلفیق دیتاست اول (دیتاست بالا) و مجموعه کتب آمازون:

این تلفیق بدین صورت انجام شده که مجموعه کتابهای آمازون کرال شدند و سپس اشتراک این مجموعه و دیتاست اول رو با هم گرفتم. به عبارت دیگه کتابهایی از دیتاست اول انتخاب شدند که در مجموعه کتب آمازون هم وجود داشتند. در این دیتاست اطلاعات تکمیلی کتب از سایت آمازون هم وجود دارند.

دانلود دیتاست دومDownload_catalog_darb
فایلهای دموی هر دو دیتاست با نام خودشون در ضمیمه همین ایمیل هست. هر دیتاست در فایل زیپ قرار داره. درون هر فایل زیپ یک فایل تصویری با نام: tablesOverview وجود داره که لیست جداول در هر دیتاست هست.
علاوه بر این در هر فایل زیپ، چندین فایل از نوع: html هم وجود داره که در واقع هر کدام از این فایلهای html چندین رکورد نمونه هر جدول در دیتاست رو نشون میده.

قایل ذکر است که هر دو دیتاست به صورت فایلهای sql قایل ارائه به محقق هستند و محقق میتونه این فایلها رو به دیتابیس mySQL خودش import کنه. همچنین کد به زبان جاوا که در کرال استفاده شده هم قابل ارائه است.

———————————————————————————————————-

یک سیستم توصیه گر به دنبال پیش بینی نرخ کاربر هدف به هر یک از آیتم ها و سپس ارائه ی پیشنهاد آیتم هایی به کاربر هدف است که بالاترین مقدار نرخ محاسبه شده توسط سیستم را دارند. در واقع این نرخ پیش بینی شده نمایان گر تشخیص سیستم از میزان علاقه ای است که کاربر هدف به یک آیتم دارد. حال هر چه این مقدار پیش بینی شده به واقعیت نزدیک تر باشد، تشخیص سیستم و ارائه ی پیشنهاداتش دقیق تر خواهد بود. برای اندازه گیری خطای یک سیستم توصیه گر، به دو گونه عمل می شود: آفلاین و آنلاین.

روش عمده در ارزیابی آنلاین، محاسبه ی میزان رضایت کاربران از ارائه ی پیشنهادات است. به عنوان یک راه اندازه گیری این رضایت، می توان پس از پیش بینی نرخی که کاربر ممکن است به یک آیتم بدهد و ارائه ی پیشنهاد آیتم های با بالاترین مقدار نرخ، به طور مستقیم از کاربر انسانی، میزان نزدیکی این پیشنهادات را با علایق واقعی وی را پرسید و به بیانی دیگر، به کاربران هدف اجازه دهیم تا خودشان سیستم را ارزیابی کنند. هم چنین می توان به طور غیرمستقیم عمل کرد. به بیان دقیق تر، اندازه گیری میزان اشتراک مجموعه  آیتم های پیشنهادی با مجموعه آن هایی که کاربر در آینده نرخ می دهد، راهی غیر مستقیمی در محاسبه ی میزان رضایت کاربر در یک ارزیابی آنلاین می باشد. برای توضیح بیش تر، باید بگوییم که در این روش مجموعه ی پیشنهادی را تشکیل داده و سپس منتظر بازدید و نرخ های جدید کاربر می شویم. با محاسبه ی میزان اشتراک این در مجموعه، میزان ارزیابی نسبتاً دقیقی از سیستم را انجام داد. البته در ارزیابی آنلاین یک سیستم توصیه گر، باید مراقب تغییر سلیقه های کاربران باشیم. این تغییر معمولاً خیلی زیاد نیست و باز هم می توان گفت که ارزیابی آنلاین روشی مناسب در مقایسه ی یک الگوریتم توصیه گر با انواع مشابه می باشد.

به هرحال، یکی از مشکلات عمده ی ارزیابی آنلاین، زمان زیادی است که باید منتظر بود تا کاربران در سیستم ثبت نام کرده، از آیتم ها بازدید کنند و پس از مدتی نیز نرخی به آیتم های بازدیدی دهند. معمولاً زمان این روش آن قدر زیاد می باشد که می توان گفت انتخاب روش ارزیابی آنلاین، برای مقایسه ی یک الگوریتم پیشنهادی تحقیقاتی که در یک پایان نامه ارشد ارائه شده، تصمیم گیری درستی نیست. پس بنابراین ما در جهت ارزیابی الگوریتم پیشنهادی خود، روش آفلاین را انتخاب کرده ایم. منتهی ممکن است سؤال زیر در ابتدا به ذهن خطور نماید:

“علایق واقعی کاربران موجود در مجموعه داده های آفلاین خود را چگونه تشخیص می دهید؟ تا با استفاده از آن بتوانید مقدار صحت پیشنهادات خود را محاسبه کرده و در کل به ارزیابی سیستم خود بپردازید.”

در پاسخ باید گفت که:

برای ارزیابی آفلاین[۱] یک سیستم توصیه گر با استفاده از مجموعه داده ای موجود[۲] [۲] مثل EpinionsAll، نیازی به تشخیص علایق واقعی کاربران مورد ارزیابی نیست. در واقع می توان با پیش بینی درصدی از نرخ های یک کاربر و سپس مقایسه آن با مقادیر واقعی نرخ ها، مقدار خطا  و دقت سیستم توصیه گر را بدست آورد. روند کامل  این نوع ارزیابی در ادامه را توضیح داده شده است.

۱-۱- آزمایشات تجربی آفلاین با استفاده از مجموعه داده های آماده

راه اندازی آزمایشی که در علوم کامپیوتر و عموماً زیرحوزه های مثالی یادگیری ماشین یا استخراج اطلاعات پرکاربرد است، به مجموعه داده هایی گفته می شود که شامل داده های پیشینه ای /مصنوعی و ترکیبی  تعاملات کاربر  باشد.

ایده  اساسی روش مذکور این است که مجموعه ای از پروفایل های کاربران، شامل ترجیحات آن ها مثل نرخ ها و تعاملات خرید و یا پیشینه کلیک های آنها، موجود باشد که بتوان آن را به دو قسمت مجزای آموزش  و آزمون  تقسیم کرد. الگوریتم ها سپس قسمت آموزشی را استفاده می کنند تا پیش بینی ها را در مورد قسمت پنهان آزمونی انجام دهند. مزیت این روش در آن است که می توان عملکرد[۳] الگوریتم های مختلف را با هم مقایسه کرد. و هم چنین قابلیت تنظیمات دلخواه اولیه روی بستر ارزیابی یک الگوریتم خاص، وجود دارد. به عبارت دیگر، برای مثال، می توان جهت ارزیابی الگوریتمی که به سمت حل مشکل شروع آهسته در سیستم های توصیه گر حرکت می کند، داده های آموزشی را طوری انتخاب کرد تا تُنُکی داده ها، و در نتیجه تعداد آیتم ها و یا کاربران با نرخ کم، زیاد باشد. اما به هر حال این خطر احتمالی، برای ارزیابی صحت پیشنهادات یک سیستم توصیه گر، وجود دارد که مجموعه داده های مصنوعی و شبیه سازی شده به سمت الگوریتمی خاص گرایش داشته باشند و در نتیجه با دیگر الگوریتم ها نامنصفانه رفتار کنند.

تُنُکی داده ای در یک مجموعه داده از روی فرمول (۳۸) بدستمی آید. در این فرمول  و  و  به ترتیب به معنی تعداد نرخ ها، تعداد کاربران و تعداد آیتم های موجود در مجموعه داده ی مورد نظر می باشد.

(۳۸)

در بخش بعد، در کنار معرفی مجموعه داده ی مورد استفاده در ارزیابی های خود، به محاسبه ی پراکندگی برای این مجموعه داده خواهیم پرداخت.

 

1-2- مجموعه داده ی مورد استفاده در ارزیابی ها

ما در ارزیابی های آفلاین خود از مجموعه داده ی Epinions استفاده کرده ایم. ما در ابتدا قصد استفاده از مجموعه داده ی جمع آوری شده توسط آقای Paolo Massa[77] را داشتیم. امّا الگوریتم های آیتم محور (در این جا منظور کتاب-محور است) پیشنهادی ما در این پایان نامه از سرموضوعات[۴] کتب هم استفاده می کنند. برای دسترسی به سرموضوعات هر کتاب بایستی ارتباط مجموعه داده ی Epinions با محیط داده های خارج از خود از جمله طبقه بندی موضوعی کتابخانه ی کنگره و آمازون، را برقرار کنیم. بنابراین به شماره کتاب سریال یکتای جهانی[۵] نیاز داشتیم.  از طرفی مجموعه داده ی فوق الذکر، برای کتب شماره ای مستقل و خود تعریف را داراست. در نتیجه ما تصمیم به خزش[۶] دوباره ی سایت Epinions گرفته و در طول پنجاه روز به جمع آوری اطلاعات کاربران و کتاب‎ ها از قسمت کتب سایت Epinions پرداختیم. این مجموعه داده ی جدید مزیت های بسیار زیادی را نسبت به نمونه ی قبلی [۷۷] دارد. معرفی کامل این مجموعه داده و تفاوت های کلیدی مزیت های بسیار نسبت به نمونه ی قبلی، به هم راه کاربردهای متنوع آن در حوزه های گوناگون (ارزیابی الگوریتم های اعتماد، ارزیابی روش های استخراج اطلاعات[۷]، ارزیابی روش های استنتاج موضوع یک کتاب و پردازش برچسب ها و نظرات در مورد یک کتاب، و مهم تر از همه ارزیابی الگوریتم های توصیه گر و پیش بینی نرخ) در ادامه آمده است.

در مجموعه داده ی جمع آوری شده توسط ما چهار جدول به شرح زیر وجود دارد:

  1. جدول کاربران
  2. جدول کتب
  3. جدول نرخ ها
  4. جدول اعتمادهای بین کاربران

جدول پنجمی، با نام فایل ها، نیز وجود دارد که در حال حاضر جهت ارزیابی های علمی کارایی ندارد اما محتوای صفحات سایت Epinions.com می باشد که حین جمع آوری داده ها، پردازش شده اند. هم چنین این جدول صفحات پردازش نشده ی مفیدی را نیز در خود جای داده است که از آن جمله می توان به صفحات نظرهای کاربران “روی نرخ ها و نظرات خوانندگان دیگر یک کتاب”، اشاره کرد. در جدول ۴ ساختار کلی این مجموعه داده نشان داده شده است.

جدول ۴- ساختار مجموعه داده ی جمع آوری شده (EpinionsAll)

جدول Files Info جدول کاربران(user) جدول نرخ ها(userBookRating) جدول کتب جدول اعتمادهای بین کاربرانUsers-Trust
fileID userID ratingID bookID trusted
pageLink Username userID bookISBN trusterUserID
filePath userRegDate bookInfo bookTitle trustedUserID
fileContent userStatus bookInfoType bookReviewsPage trustValue
userLocation Rate Date
  userPage ratingDate
  userMailAddress reviewPage
  reviewRating

 

در جدول ۵ نیز مقایسه ای آماری بین تعداد رکوردهای جداول در مجموعه داده ی جمع آوری شده و فعلی آورده شده است.

جدول ۵- آمار مجموعه داده  Epinions

  EpinionsAll(by Mohsen Abasi)
کاربران ۸۹,۹۲۶
آیتم ها ۵۲,۱۹۴
نرخ ها ۹۳,۷۰۸
اعتماد ها ۵۷۶,۳۲۷

 

از روی مقادیر جدول ۵ این طور معلوم است که:  این مجموعه داده ی جمع آوری شده ی توسط ما در طی انجام این پایان نامه تعداد ۸۹۹۲۶ کاربر، ۵۲۱۹۴ کتاب به هم راه شماره سریال جهانی و مشخصات آن ها، ۹۳۷۰۸ نرخ کاربری روی کتب و ۵۷۶۳۲۷ رابطه ی اعتماد صریح کاربران به یکدیگر را داراست. بنابراین پراکندگی مجموعه داده ی Epinions جمع آوری شده توسط ما، بر طبق فرمول استاندارد ((۳۸، برابراست با: ۰.۹۹۹۹۸۰

چون این عدد نزدیک به یک است، پراکندگی این مجموعه داده بسیار زیاد می باشد و بسیار مناسب برای محک الگوریتم های توصیه گری است که قصد غلبه بر تُنُکی ماتریس نرخ ها را دارند. علاوه بر پراکندگی بسیار داده در این مجموعه، دلیل دیگر انتخاب آن برای ارزیابی، موجود بودن ارتباط بین کاربران می باشد. همان طور که در قبل نیز توضیح داده شد، در سیستم پیشنهادی از روی روابط بین کاربران و شباهت سلایق آن ها به یکدیگر، در واقع با استفاده از اسنادFOAF کاربران، اقدام به تکمیل پروفایل آن ها می شود که با این کار حوزه های بیش تر مورد علاقه شان تشخیص داده می شوند. این روابط بین کاربری در یک شبکه اجتماعی و توسط خود کاربران ایجاد شده است. به دلیل موجود بودن ارتباطات بین کاربران، مجموعه Epinions  یک شبکه اجتماعی نیز می باشد و با استفاده آن می توان تأثیر تکمیل پروفایل کاربران از روی کاربران مشابه مرتبط با آن ها را در افزایش صحت پیشنهادات سیستم مشاهده کرد. کاربران در این شبکه اجتماعی با بازدید نرخ ها و توضیحات دیگر کاربران، روی آیتم هایی که خودشان قبلاً بازبینی کرده اند، اقدام به برقراری ارتباط “اعتماد” از خود به کاربران با نطرات مشابه خود می کنند. به عنوان نمونه فرض کنید که کاربر A پس از خواندن کتابی به آن نرخ ۵ (بالاترین میزان علاقه) را می دهد. این کاربر وقتی با مشاهده نظرات و نرخ کاربر B متوجه می شود که او نیز به همان کتاب یا چندین کتاب مشابه دیگر ابراز علاقه بالا کرده است، به آن کاربر اعتماد کرده و سعی می کند سایر کتبی که کاربر B به آن ها علاقه دارد را نیز بخواند. در واقع کاربر A کاربر B را در نظرات و علاقه ها و روحیات شبیه خودش تشخیص می دهد. بنابراین از اعتماد کاربر A به کاربر B می توان در جهت تکمیل پروفایل A و تشخیص بیش تر علاقه های وی استفاده کرد. در این مجموعه داده تعداد ۵۷۶۳۲۷ روابط اعتماد از نوع صریح وجود دارد.

 

1-3- مجموعه داده ی کتب

این مجموعه داده از سایت آمازون جمع آوری شده است. در آن ۴ جدول به شرح زیر وجود دارد:

v     جدول Amazon Books

o       این جدول شامل اطلاعات کتب موجود در آمازون می باشد. این اطلاعات شامل شماره جهانی استاندارد ISBN کتاب، عنوان، رتبه ی فروش کتاب در آمازون، شماره ISBN کتب مشابه، شماره ID سرموضوعاتی که کتاب به آن ها تعلق دارد، و تعداد Reviewها و نرخ دهی میانگین به این کتاب

v     جدول Amazon Subject_Headings

o       این جدول حاوی اطلاعاتی درباره ی سرموضوعات کتب سایت آمازون می باشد. این اطلاعات شامل نام، شماره ی سرموضوع در سایت آمازون، و سرموضوع پدر (در سلسله مراتب سرموضوعات) می باشد.

v     جدول Amazon Book Subject_Heading

o       این جدول بیان می کند که هر کتاب در چه سرموضوعاتی جای دارد.

v     جدول Amazon Ratings

o       این جدول شامل شماره یکتای مشتری های آمازون، نرخ هایی که به کتب داده اند، تاریخ نرخ دهی و هم چنین تعداد نظراتی که در مورد هر نرخ داده شده است و نظر کلی مشتریان در مورد مفید بودن یا نبودن نرخ مورد نظر

جدول Amazon Books(393560 رکورد) جدول Amazon Subject_Headings(13171 رکورد) جدول Amazon Book Subject_Heading(1440213 رکورد) جدول Amazon Ratings(4591301 رکورد)
bookID shID bookID bookID
ISBN name shID date
Title Number (in Amazon) customer
Sales Rank ParentShID rateValue
similar votes
categories helpful
reviews

 

 

با سلام

برای دریافت پیکره گرداوری شده که حدود۲ گیگا بایت حجم دارد، لطفا از طریق پیامک یا ایمیل زیر به ما اطلاع دهید تا پس از دریافت آدرس پستی شما، در صورتیکه در تهران هستید با پیک موتوری و در صورتیکه در شهرستان هستید از طریق پست DVD حاوی پیکره را برایتان ارسال نماییم. بخشی از هزینه دریافتی جهت ارسال پستی فایل می باشد…

در ضمن کلیه کدهای کار با پیکره و همچنین کدهای کار با وردنت موجود می باشد و برای دریافت کدها می توانید با ایمیل زیر مکاتبه نمایید.

universitydatainfo@yahoo.com

09359529058

رمز عبور فایل فشرده : ۰۹۳۵۹۵۲۹۰۵۸

 

[1]Offline evaluation

[2](Pre-collected / historical) dataset

[3]performance

[4]Subject Headings

[5]International Serial Book Number (ISBN)

[6] Crawl

[7]Information Retrieval (IR)

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

یک × دو =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/