پیکره ارزیابی سیستم های توصیه گر – مجموعه داده‏ Epinions

ارزيابي سيستم توصيه گر

پیکره گرداوری شده حدود ۲ گیگا بایت حجم دارد، و نمونه هایی از پیکره در ادامه قابل دانلود و مشاهده است. در صورت نیاز به ارسال از طریق پست ، لطفا از طریق پیامک یا ایمیل زیر به ما اطلاع دهید تا پس از دریافت آدرس پستی شما، در صورتیکه در تهران هستید با پیک موتوری و در صورتیکه در شهرستان هستید از طریق پست DVD حاوی پیکره را برایتان ارسال نماییم.

لازم به ذکر است در صورت ارسال از طریق پیک یا پست، مبلغی جهت ارسال پستی به مبلغ فوق افزوده خواهد شد.

universitydatainfo@yahoo.com

09359529058

دانلود پیکره:

رمز عبور فایل فشرده : 09359529058

با توجه به سوالات برخی از دوستان در مورد این پیکره، یکسری توضیحات در مورد پیکره اضافه گردید:

1- داده ها در فرمت فایل SQL هستند. تبدیل به اکسل مشکل و یا زحمت زیادی نمیخواهد، با یک کد ساده قابل تبدیل است…
2- داده ها از یک سایت با کاربران انسانی هستند.
3- در پایان نامه کارشناسی ارشد از این داده ها استفاده شده … داده های سایت Epinions در مقیاس خیلی کوچکتر که توسط آقای Paolo Massa جمع آوری شده اند، در مقالات زیادی استفاده شده اند. اگر آن مقیاس را میتوانید استفاده کنید، در آدرس زیر موجود است. لیست مقالات استفاده کننده هم در سایت ایشان هستند:
trustlet.org
4- نمونه کوچکی از پیکره نیز بزودی روی سایت جهت دانلود رایگان قرار خواهد گرفت…

———————————————————————————————————-

dataset1:
این دیتاست کرال شده کتابها و کاربران خواننده ی این کتابها از سایت: http://epinions.com/search/books/63715 هست.

دانلود دیتاست اول

dataset2:
تلفیق دیتاست اول (دیتاست بالا) و مجموعه کتب آمازون:

این تلفیق بدین صورت انجام شده که مجموعه کتابهای آمازون کرال شدند و سپس اشتراک این مجموعه و دیتاست اول رو با هم گرفتم. به عبارت دیگه کتابهایی از دیتاست اول انتخاب شدند که در مجموعه کتب آمازون هم وجود داشتند. در این دیتاست اطلاعات تکمیلی کتب از سایت آمازون هم وجود دارند.

دانلود دیتاست دوم Download_catalog_darb
فایلهای دموی هر دو دیتاست با نام خودشون در ضمیمه همین ایمیل هست. هر دیتاست در فایل زیپ قرار داره. درون هر فایل زیپ یک فایل تصویری با نام: tablesOverview وجود داره که لیست جداول در هر دیتاست هست.
علاوه بر این در هر فایل زیپ، چندین فایل از نوع: html هم وجود داره که در واقع هر کدام از این فایلهای html چندین رکورد نمونه هر جدول در دیتاست رو نشون میده.

قایل ذکر است که هر دو دیتاست به صورت فایلهای sql قایل ارائه به محقق هستند و محقق میتونه این فایلها رو به دیتابیس mySQL خودش import کنه. همچنین کد به زبان جاوا که در کرال استفاده شده هم قابل ارائه است.

———————————————————————————————————-

يک سيستم توصيه گر به دنبال پيش بيني نرخ کاربر هدف به هر يک از آيتم ها و سپس ارائه ي پيشنهاد آيتم هايي به کاربر هدف است که بالاترين مقدار نرخ محاسبه شده توسط سيستم را دارند. در واقع اين نرخ پيش بيني شده نمايان گر تشخيص سيستم از ميزان علاقه اي است که کاربر هدف به يک آيتم دارد. حال هر چه اين مقدار پيش بيني شده به واقعيت نزديک تر باشد، تشخيص سيستم و ارائه ي پيشنهاداتش دقيق تر خواهد بود. براي اندازه گيري خطاي يک سيستم توصيه گر، به دو گونه عمل مي شود: آفلاين و آنلاين.

روش عمده در ارزيابي آنلاين، محاسبه ي ميزان رضايت کاربران از ارائه ي پيشنهادات است. به عنوان يک راه اندازه گيري اين رضايت، مي توان پس از پيش بيني نرخي که کاربر ممکن است به يک آيتم بدهد و ارائه ي پيشنهاد آيتم هاي با بالاترين مقدار نرخ، به طور مستقيم از کاربر انساني، ميزان نزديکي اين پيشنهادات را با علايق واقعي وي را پرسيد و به بياني ديگر، به کاربران هدف اجازه دهيم تا خودشان سيستم را ارزيابي کنند. هم چنين مي توان به طور غيرمستقيم عمل کرد. به بيان دقيق تر، اندازه گيري ميزان اشتراک مجموعه آيتم هاي پيشنهادي با مجموعه آن هايي که کاربر در آينده نرخ مي دهد، راهي غير مستقيمي در محاسبه ي ميزان رضايت کاربر در يک ارزيابي آنلاين مي باشد. براي توضيح بيش تر، بايد بگوييم که در اين روش مجموعه ي پيشنهادي را تشکيل داده و سپس منتظر بازديد و نرخ هاي جديد کاربر مي شويم. با محاسبه ي ميزان اشتراک اين در مجموعه، ميزان ارزيابي نسبتاً دقيقي از سيستم را انجام داد. البته در ارزيابي آنلاين يک سيستم توصيه گر، بايد مراقب تغيير سليقه هاي کاربران باشيم. اين تغيير معمولاً خيلي زياد نيست و باز هم مي توان گفت که ارزيابي آنلاين روشي مناسب در مقايسه ي يک الگوريتم توصيه گر با انواع مشابه مي باشد.

به هرحال، يکي از مشکلات عمده ي ارزيابي آنلاين، زمان زيادي است که بايد منتظر بود تا کاربران در سيستم ثبت نام کرده، از آيتم ها بازديد کنند و پس از مدتي نيز نرخي به آيتم هاي بازديدي دهند. معمولاً زمان اين روش آن قدر زياد مي باشد که مي توان گفت انتخاب روش ارزيابي آنلاين، براي مقايسه ي يک الگوريتم پيشنهادي تحقيقاتي که در يک پايان نامه ارشد ارائه شده، تصميم گيري درستي نيست. پس بنابراين ما در جهت ارزيابي الگوريتم پيشنهادي خود، روش آفلاين را انتخاب کرده ايم. منتهي ممکن است سؤال زير در ابتدا به ذهن خطور نمايد:

“علايق واقعي کاربران موجود در مجموعه داده هاي آفلاين خود را چگونه تشخيص مي دهيد؟ تا با استفاده از آن بتوانيد مقدار صحت پيشنهادات خود را محاسبه کرده و در کل به ارزيابي سيستم خود بپردازيد.”

در پاسخ بايد گفت که:

براي ارزيابي آفلاين[1] يک سيستم توصيه گر با استفاده از مجموعه داده اي موجود[2] [2] مثل EpinionsAll، نيازي به تشخيص علايق واقعي کاربران مورد ارزيابي نيست. در واقع مي توان با پيش بيني درصدي از نرخ هاي يک کاربر و سپس مقايسه آن با مقادير واقعي نرخ ها، مقدار خطا و دقت سيستم توصيه گر را بدست آورد. روند کامل اين نوع ارزيابي در ادامه را توضيح داده شده است.

1-1- آزمايشات تجربي آفلاين با استفاده از مجموعه داده هاي آماده

راه اندازي آزمايشي که در علوم کامپيوتر و عموماً زيرحوزه هاي مثالي يادگيري ماشين يا استخراج اطلاعات پرکاربرد است، به مجموعه داده هايي گفته مي شود که شامل داده هاي پيشينه اي /مصنوعي و ترکيبي تعاملات کاربر باشد.

ايده اساسي روش مذکور اين است که مجموعه اي از پروفايل هاي کاربران، شامل ترجيحات آن ها مثل نرخ ها و تعاملات خريد و يا پيشينه کليک هاي آنها، موجود باشد که بتوان آن را به دو قسمت مجزاي آموزش و آزمون تقسيم کرد. الگوريتم ها سپس قسمت آموزشي را استفاده مي کنند تا پيش بيني ها را در مورد قسمت پنهان آزموني انجام دهند. مزيت اين روش در آن است که مي توان عملکرد[3] الگوريتم هاي مختلف را با هم مقايسه کرد. و هم چنين قابليت تنظيمات دلخواه اوليه روي بستر ارزيابي يک الگوريتم خاص، وجود دارد. به عبارت ديگر، براي مثال، مي توان جهت ارزيابي الگوريتمي که به سمت حل مشکل شروع آهسته در سيستم هاي توصيه گر حرکت مي کند، داده هاي آموزشي را طوري انتخاب کرد تا تُنُکي داده ها، و در نتيجه تعداد آيتم ها و يا کاربران با نرخ کم، زياد باشد. اما به هر حال اين خطر احتمالي، براي ارزيابي صحت پيشنهادات يک سيستم توصيه گر، وجود دارد که مجموعه داده هاي مصنوعي و شبيه سازي شده به سمت الگوريتمي خاص گرايش داشته باشند و در نتيجه با ديگر الگوريتم ها نامنصفانه رفتار کنند.

تُنُکي داده اي در يک مجموعه داده از روي فرمول (38) بدستمي آيد. در اين فرمول و و به ترتيب به معني تعداد نرخ ها، تعداد کاربران و تعداد آيتم هاي موجود در مجموعه داده ي مورد نظر مي باشد.

(38)

در بخش بعد، در کنار معرفي مجموعه داده ي مورد استفاده در ارزيابي هاي خود، به محاسبه ي پراکندگي براي اين مجموعه داده خواهيم پرداخت.

1-2- مجموعه داده ي مورد استفاده در ارزيابي ها

ما در ارزيابي هاي آفلاين خود از مجموعه داده ي Epinions استفاده کرده ايم. ما در ابتدا قصد استفاده از مجموعه داده ي جمع آوري شده توسط آقاي Paolo Massa[77] را داشتيم. امّا الگوريتم هاي آيتم محور (در اين جا منظور کتاب-محور است) پيشنهادي ما در اين پايان نامه از سرموضوعات[4] کتب هم استفاده مي کنند. براي دسترسي به سرموضوعات هر کتاب بايستي ارتباط مجموعه داده ي Epinions با محيط داده هاي خارج از خود از جمله طبقه بندي موضوعي کتابخانه ي کنگره و آمازون، را برقرار کنيم. بنابراين به شماره کتاب سريال يکتاي جهاني[5] نياز داشتيم. از طرفي مجموعه داده ي فوق الذکر، براي کتب شماره اي مستقل و خود تعريف را داراست. در نتيجه ما تصميم به خزش[6] دوباره ي سايت Epinions گرفته و در طول پنجاه روز به جمع آوري اطلاعات کاربران و کتاب‎ ها از قسمت کتب سايت Epinions پرداختيم. اين مجموعه داده ي جديد مزيت هاي بسيار زيادي را نسبت به نمونه ي قبلي [77] دارد. معرفي کامل اين مجموعه داده و تفاوت هاي کليدي مزيت هاي بسيار نسبت به نمونه ي قبلي، به هم راه کاربردهاي متنوع آن در حوزه هاي گوناگون (ارزيابي الگوريتم هاي اعتماد، ارزيابي روش هاي استخراج اطلاعات[7]، ارزيابي روش هاي استنتاج موضوع يک کتاب و پردازش برچسب ها و نظرات در مورد يک کتاب، و مهم تر از همه ارزيابي الگوريتم هاي توصيه گر و پيش بيني نرخ) در ادامه آمده است.

در مجموعه داده ي جمع آوري شده توسط ما چهار جدول به شرح زير وجود دارد:

جدول کاربران
جدول کتب
جدول نرخ ها
جدول اعتمادهاي بين کاربران

جدول پنجمي، با نام فايل ها، نيز وجود دارد که در حال حاضر جهت ارزيابي هاي علمي کارايي ندارد اما محتواي صفحات سايت Epinions.com مي باشد که حين جمع آوري داده ها، پردازش شده اند. هم چنين اين جدول صفحات پردازش نشده ي مفيدي را نيز در خود جاي داده است که از آن جمله مي توان به صفحات نظرهاي کاربران “روي نرخ ها و نظرات خوانندگان ديگر يک کتاب”، اشاره کرد. در جدول 4 ساختار کلي اين مجموعه داده نشان داده شده است.

جدول 4- ساختار مجموعه داده ي جمع آوري شده (EpinionsAll)

جدول Files Info	جدول کاربران(user)	جدول نرخ ها(userBookRating)	جدول کتب	جدول اعتمادهاي بين کاربرانUsers-Trust
fileID	userID	ratingID	bookID	trusted
pageLink	Username	userID	bookISBN	trusterUserID
filePath	userRegDate	bookInfo	bookTitle	trustedUserID
fileContent	userStatus	bookInfoType	bookReviewsPage	trustValue
	userLocation	Rate		Date
	userPage	ratingDate
	userMailAddress	reviewPage
		reviewRating

در جدول 5 نيز مقايسه اي آماري بين تعداد رکوردهاي جداول در مجموعه داده ي جمع آوري شده و فعلي آورده شده است.

جدول 5- آمار مجموعه داده Epinions

	EpinionsAll(by Mohsen Abasi)
کاربران	89,926
آيتم ها	52,194
نرخ ها	93,708
اعتماد ها	576,327

از روي مقادير جدول 5 اين طور معلوم است که: اين مجموعه داده ي جمع آوري شده ي توسط ما در طي انجام اين پايان نامه تعداد 89926 کاربر، 52194 کتاب به هم راه شماره سريال جهاني و مشخصات آن ها، 93708 نرخ کاربري روي کتب و 576327 رابطه ي اعتماد صريح کاربران به يکديگر را داراست. بنابراين پراکندگي مجموعه داده ي Epinions جمع آوري شده توسط ما، بر طبق فرمول استاندارد ((38، برابراست با: 0.999980

چون اين عدد نزديک به يک است، پراکندگي اين مجموعه داده بسيار زياد مي باشد و بسيار مناسب براي محک الگوريتم هاي توصيه گري است که قصد غلبه بر تُنُکي ماتريس نرخ ها را دارند. علاوه بر پراکندگي بسيار داده در اين مجموعه، دليل ديگر انتخاب آن براي ارزيابي، موجود بودن ارتباط بين کاربران مي باشد. همان طور که در قبل نيز توضيح داده شد، در سيستم پيشنهادي از روي روابط بين کاربران و شباهت سلايق آن ها به يکديگر، در واقع با استفاده از اسنادFOAF کاربران، اقدام به تکميل پروفايل آن ها مي شود که با اين کار حوزه هاي بيش تر مورد علاقه شان تشخيص داده مي شوند. اين روابط بين کاربري در يک شبکه اجتماعي و توسط خود کاربران ايجاد شده است. به دليل موجود بودن ارتباطات بين کاربران، مجموعه Epinions يک شبکه اجتماعي نيز مي باشد و با استفاده آن مي توان تأثير تکميل پروفايل کاربران از روي کاربران مشابه مرتبط با آن ها را در افزايش صحت پيشنهادات سيستم مشاهده کرد. کاربران در اين شبکه اجتماعي با بازديد نرخ ها و توضيحات ديگر کاربران، روي آيتم هايي که خودشان قبلاً بازبيني کرده اند، اقدام به برقراري ارتباط “اعتماد” از خود به کاربران با نطرات مشابه خود مي کنند. به عنوان نمونه فرض کنيد که کاربر A پس از خواندن کتابي به آن نرخ 5 (بالاترين ميزان علاقه) را مي دهد. اين کاربر وقتي با مشاهده نظرات و نرخ کاربر B متوجه مي شود که او نيز به همان کتاب يا چندين کتاب مشابه ديگر ابراز علاقه بالا کرده است، به آن کاربر اعتماد کرده و سعي مي کند ساير کتبي که کاربر B به آن ها علاقه دارد را نيز بخواند. در واقع کاربر A کاربر B را در نظرات و علاقه ها و روحيات شبيه خودش تشخيص مي دهد. بنابراين از اعتماد کاربر A به کاربر B مي توان در جهت تکميل پروفايل A و تشخيص بيش تر علاقه هاي وي استفاده کرد. در اين مجموعه داده تعداد 576327 روابط اعتماد از نوع صريح وجود دارد.

1-3- مجموعه داده ی کتب

این مجموعه داده از سایت آمازون جمع آوری شده است. در آن 4 جدول به شرح زیر وجود دارد:

v جدول Amazon Books

o این جدول شامل اطلاعات کتب موجود در آمازون می باشد. این اطلاعات شامل شماره جهانی استاندارد ISBN کتاب، عنوان، رتبه ی فروش کتاب در آمازون، شماره ISBN کتب مشابه، شماره ID سرموضوعاتی که کتاب به آن ها تعلق دارد، و تعداد Reviewها و نرخ دهی میانگین به این کتاب

v جدول Amazon Subject_Headings

o این جدول حاوی اطلاعاتی درباره ی سرموضوعات کتب سایت آمازون می باشد. این اطلاعات شامل نام، شماره ی سرموضوع در سایت آمازون، و سرموضوع پدر (در سلسله مراتب سرموضوعات) می باشد.

v جدول Amazon Book Subject_Heading

o این جدول بیان می کند که هر کتاب در چه سرموضوعاتی جای دارد.

v جدول Amazon Ratings

o این جدول شامل شماره یکتای مشتری های آمازون، نرخ هایی که به کتب داده اند، تاریخ نرخ دهی و هم چنین تعداد نظراتی که در مورد هر نرخ داده شده است و نظر کلی مشتریان در مورد مفید بودن یا نبودن نرخ مورد نظر

جدول Amazon Books(393560 رکورد)	جدول Amazon Subject_Headings(13171 رکورد)	جدول Amazon Book Subject_Heading(1440213 رکورد)	جدول Amazon Ratings(4591301 رکورد)
bookID	shID	bookID	bookID
ISBN	name	shID	date
Title	Number (in Amazon)		customer
Sales Rank	ParentShID		rateValue
similar			votes
categories			helpful
reviews

لازم به ذکر است در صورت ارسال از طریق پیک یا پست، مبلغی جهت ارسال پستی به مبلغ فوق افزوده خواهد شد.

universitydatainfo@yahoo.com

09359529058

رمز عبور فایل فشرده : 09359529058

[1]Offline evaluation

[2](Pre-collected / historical) dataset

[3]performance

[4]Subject Headings

[5]International Serial Book Number (ISBN)

[6] Crawl

[7]Information Retrieval (IR)

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com