بهبود نتایج و عملکرد سیستم توصیه گر پالایش مشارکتی با استفاده از الگوریتم ژنتیک
چکیده
این مقاله یک متریک برای اندازه گیری شباهت بین کاربران ارائه میکند که قابل استفاده در فرآیندهای پالایش مشارکتی انجام شده در سیستمهای توصیهگراست. متریک پیشنهادی از طریق یک ترکیب خطی ساده از مقادیر و وزنها فرموله شده است. مقادیر برای هر جفت از کاربران که بین آنها شباهت به دست آمده، محاسبه شده است در حالی که وزنها فقط یک بار محاسبه می شوند، با استفاده از یک مرحله مقدمه که در آن یک الگوریتم ژنتیک وزنها را از سیستم توصیهگر استخراج میکند و به طبیعت خاص داده در هر سیستم توصیهگربستگی دارد. نتایج به دست آمده بهبود قابل توجهی در کیفیت پیش بینی، کیفیت پیشنهاد و عملکرد نشان میدهد.
کلمات کلیدی
پالایش مشارکتی، سیستمهای توصیهگر، مقیاسهای شباهت، متریکها، الگوریتمهای ژنتیک، عملکرد.
۱- مقدمه
اصل اساسی سیستمهای توصیهگر(RS) این است که گروهی از کاربران مشابه به یک کاربر داده شده، (یعنی کسانی که تعداد زیادی از عناصر را در یک روش مشابه امتیاز دادهاند) بتوانند برای پیشبینی رتبه های فردی روی محصولاتی که این کاربر دانشی از آنها ندارد مورد استفاده قرار گیرند. به این ترتیب، سفر به سنگال می تواند به فردی که مقصدهای مختلف در کارائیب را بسیار بالا رتبه داده است، بر اساس رأی مثبت در مورد مقصد تعطیلات ” سنگال” تعداد زیادی از افراد که آنها نیز رتبه مقصد در کارائیب را بسیار بالا داده اند، پیشنهاد شود. این پیشنهاد (توصیه) اغلب خدماتی با اطلاعات الهام بخش از دانش جمعی تمام کاربران دیگر از خدمات فراهم می کند.
در سال های اخیر، RS نقش مهمی در کاهش تاثیر منفی سربار اطلاعات در آن دسته از وب سایتها که در آن کاربران امکان رای دادن برای اولویتهای خود به یک سری از مقالات یا خدمات را دارند، ایفا کرده است. وب سایتهای پیشنهاد فیلم احتمالا شناخته شده ترین موارد برای کاربران هستند و بدون شک اغلب به خوبی توسط محققان مورد مطالعه بوده اند [۴,۱۹,۲]۲۳]هر چند، بسیاری از زمینه های دیگر وجود دارد که در آن RS اهمیت دارد، مانند تجارت الکترونیکی[۱۵] آموزش الکترونیکی [۵,۹] و کتابخانه های دیجیتال [۲۶,۲۷].
در حال حاضر، افزایش سریع وب ۲.۰ [۱۸,۲۳] منجر به گسترش وب سایتهای مشترک شده است که در آن تعدادی از عناصر میتوانند توصیه شوند (به عنوان مثال وبلاگ ها) و میتواند به طور قابل توجهی افزایش یابد هنگامی که توسط کاربران (و نه تنها رای دادن) معرفی شده است، که چالش های جدیدی را برای محققان در زمینه RS، در همان زمان به عنوان افزایش احتمالات و اهمیت تکنیک های بازیابی اطلاعات ایجاد کرده است.
هسته یک RS الگوریتم های فیلترینگ (پالایش) آن است: فیلترینگ جمعیت شناختی [۲۰] و فیلترینگ مبتنی بر محتوا[۲۱] اساسی ترین تکنیکها هستند؛ اولی بر اساس این فرضیه که افراد با برخی از ویژگی های شخصی مشترک (جنس، سن، کشور، و غیره) همچنین ترجیحات مشترک خواهند داشت، برقرار شده است، در حالی که فیلترینگ مبتنی بر محتوا آیتمهای مشابه به آنهایی که کاربر در گذشته ترجیح داده است را پیشنهاد میکند. در حال حاضر، پالایش مشارکتی (CF) شایع ترین تکنیک استفاده شده و مورد مطالعه بوده است [۱۲,۲۴]، این تکنیک در اصل بر اساس مجموعه ای از اصول در پاراگراف اول این بخش است، که در آن به منظور ساخت یک توصیه به کاربر داده شده، ابتدا کاربرانی از سیستم را که در روشی مشابه به این کاربر رای داده اند جستجو میکند، بعد توصیه ها با در نظر گرفتن آیتمهای ( مقصد تعطیلات در مثال ما ) بسیار ارزشمندتر توسط اکثرکاربران مشابه آنها ساخته میشود.
بخش قابل توجهی از الگوریتم های CF اشاره به گروه معیارهای مورد استفاده برای تعیین شباهت بین هر جفت از کاربران دارند [۱۴,۱,۷]، که در میان آن متریک همبستگی پیرسون به عنوان یک مرجع است.
الگوریتم های ژنتیک (GA) عمدتا در دو جنبه در RS مورد استفاده قرار گرفته است: خوشه بندی [۱۶,۱۷,۲۸] و مدلهای هیبریدی کاربر [۲,۱۳,۱۰]. یک تکنیک معمول برای بهبود ویژگیهای RS شامل ابتدا انجام یک خوشه بندی بر روی همه کاربران است، در چنین روشی که یک گروه از کلاس ها از کاربران مشابه به دست آمده است، بعد از این، تکنیک های CF مورد نظر را می توان به هر یک از خوشه ها اعمال کرد، به دست آوردن نتایج مشابه اما در زمان محاسبه بسیار کوتاه تر؛ این موارد از الگوریتم های خوشه بندی ژنتیکی معمول مانند GA مبتنی بر K-means استفاده میکنند[۱۷].
مدلهای کاربر هیبریدیRS معمولا از یک ترکیب از CF با فیلترینگ جمعیت شناختی و یاCF با فیلترینگ مبتنی بر محتوا برای بهره برداری از محاسن هر یک از این تکنیکها، استفاده میکند. در این موارد، ساختار کروموزوم به راحتی میتواند شامل مشخصات جمعیتی و/ یا مربوط به فیلترینگ مبتنی برمحتوا باشد.
روش ارائه شده در این مقاله از GA استفاده میکند، اما با این مزیت که به اطلاعات اضافی ارائه شده توسط مدل هیبریدی کاربر نیاز ندارد، و به همین دلیل، آن را می توان در همهیRS های فعلی به سادگی بر روی تکنیکهایCF مورد استفاده قرار داد. این به علت این واقعیت است که روش ما تنها از امتیازدهی کاربران استفاده میکند (که حداقل اطلاعات ممکن در هر RS است).
بخش زیر روش پیشنهادی (روشGA-) و پردازش مقدماتی مورد نیاز با استفاده ازGA را تعریف میکند، پس از این، بخش هایی را ارائه میکنیم که طراحی آزمایش انجام شده و نتایج به دست آمده را مشخص میکنند، در نهایت نتایج مربوطه از این مطالعه را لیست میکنیم.
فایل ترجمه مقاله Improving collaborative filtering recommender system results and performance using genetic algorithms
بهبود نتایج و عملکرد سیستم توصیه گر پالایش مشارکتی با استفاده از الگوریتم ژنتیک
فایل ترجمه – Wordدر قالب مقاله دو ستونه – ۸ صفحه
اصل مقاله انگلیسی
abstract
This paper presents a metric to measure similarity between users, which is applicable in collaborative filtering processes carried out in recommender systems. The proposed metric is formulated via a simple linear combination of values and weights. Values are calculated for each pair of users between which the similarity is obtained, whilst weights are only calculated once, making use of a prior stage in which a genetic algorithm extracts weightings from the recommender system which depend on the specific nature of the data from each recommender system. The results obtained present significant improvements in
prediction quality, recommendation quality and performance.
دریافت فایل اصل مقاله – فایل PDF شامل ۷ صفحه