تشخیص هرزنامه – اسپم – Spam

هرزنامه ‌ سوءاستفاده از سیستم‌های پیغام‌دهی الکترونیکی ( شامل اغلب رسانه‌های داده‌پراکنی و سیستم‌های تحویل دیجیتالی اطلاعات) برای فرستادن پیغام‌های زیاد برای افراد نامشخص می‌باشد. درحالی‌که مشهورترین نوع هرزنامه‌، هرزنامه های پست الکترونیکی می‌باشند، ولی این کلمه برای سایر سوءاستفاده‌های رسانه‌ای نیز استفاده می‌گردد. سایر انواع هرزنامه‌ عبارتند از هرزنامه‌‌های پیام الکترونیکی ، هرزنامه‌ گروه‌های خبری Usenet، هرزنامه‌‌های موتور جستجوی وب، هرزنامه‌‌ها در بلاگ‌ها، هرزنامه‌‌های ویکی‌ها ، هرزنامه‌‌های تبلیغات تجاری آنلاین، هرزنامه‌‌های پیغام در تلفن‌های موبایل، هرزنامه‌ در فروم‌ها، تبادلات بیهوده‌ی نمابر ، هرزنامه‌‌های شبکه‌های اجتماعی و هرزنامه‌ شبکه‌های اشتراک فایل. این متن بر روی هرزنامه‌‌های پست الکترونیکی یا اسپم تمرکز دارد.
امروزه پست الکترونیکی یا ایمیل یکی از سریع‌ترین و اقتصادی‌ترین راهها برای ارتباط می‌باشد. با این‌حال، افزایش کاربران پست الکترونیکی باعث افزایش بی‌سابقه‌ای در تعداد پست‌های مزاحم (Spam) در چندین سال اخیر شده است. ایمیل‌های تجاری ناخواسته (UCE ) که از آنها به عنوان هرزنامه‌ نیز یاد می‌شود، یکی از مشکلات بزرگی است که امروزه کاربران اینترنت با آن دست و پنجه نرم می‌کنند. فرستادن هرزنامه‌ – که همانا فرستادن UCE می‌باشد- شامل فرستادن ایمیل‌هایی است که تقریباً یکسان بوده و به هزاران و یا حتی میلیون‌ها شخص بدون رضایت شخصی آنها –و حتی با رد چنین ایمیل‌هایی توسط آنها- فرستاده می‌شود [FED99,SPA06,WIK09]. UBE دسته‌ی دیگری از ایمیل‌ها می ‌باشد که می‌توان آنها را به عنوان هرزنامه‌ طبقه‌بندی کرد. با توجه به گزارش‌های اخیر Spamhaus [BUR06] و Symantec [SEM06]، از هرزنامه‌ برای فرستادن و توزیع ویروس‌ها، جاسوس‌افزارها و نیز سوق‌دادن کاربران به وب‌سایتهای Phishing استفاده می‌گردد. امروزه افزایش چشمگیری در هردو نوع هرزنامه‌ یعنی UCE و UBE دیده می‌شود. برای مثال Symantec گزارش کرده است که میزان تلاشهای Phishing از نیمه‌ی اول سال 2005 تا نیمه‌ی دوم سال 2005 به میزان 44 درصد افزایش داشته است. همین طور بنابر گزارش اخیر در سال 2008، با یک تقریب محافظه‌کارانه،80 تا 85 درصد ایمیل‌ها را هرزنامه‌ها تشکیل می‌دهند [WIK09].
علاوه بر رشد کمی هرزنامه‌‌ها، روش‌های فرستادن هرزنامه‌ نیز تغییرات زیادی یافته است. بطور مثال امروزه شاهد رشد فزاینده‌ی ارسال هرزنامه‌‌ها از طریق شبکه‌های Zombie هستیم. شبکه‌های Zombie شبکه‌هایی از کامپیوترهای شخصی آلوده به ویروس یا کرم در سرتاسر دنیا هستند. بسیاری از کرم‌های جدید یک در‌ِپشتی بر روی کامپیوتر قربانی نصب می‌کنند و بدین‌وسیله فرستنده‌ی هرزنامه‌ اجازه یافته تا از کامپیوتر استفاده کرده و از آن برای اهداف خرابکارانه‌ی خود استفاده کنند. این مساله خود باعث پیچیده‌شدن کنترل گسترش هرزنامه‌ می‌گردد به‌طوری‌که در برخی موارد، هرزنامه‌ از خود فرستنده‌ی هرزنامه‌ شیوع پیدا نکرده است. در نوامبر سال 2008 یک سرویس‌دهنده‌ی اینترنت (ISP) به نام McColo که به عملگرهای بات‌نت سرویس ارائه می‌داد، از کار افتاد و به میزان 50 تا 75 درصد میزان هرزنامه‌‌ها کاهش یافت. در همان زمان مشخص شد که نویسندگان کرم، ویروس و نیز فرستندگان هرزنامه‌ از یکدیگر تکنیک‌ها را می‌آموزند و در بسیاری از اوقات شراکت‌های متعددی را ایجاد می‌کنند [WIK09]. برای جلوگیری از غرق‌شدن کاربران توسط ایمیل‌های هرزنامه‌، بسیاری از سازمان‌ها و فراهم‌کنندگان سرویس اینترنت (ISP) از فیلترهایی برای جلوگیری از هرزنامه‌ (عمدتاً در سطح سرویس‌دهنده) استفاده می‌کنند. شاید عمده‌ترین نوع فیلتر، فیلتر مبتنی بر یادگیری و از نوع کلاسه‌بندی Naïve Bayes می‌باشد [GRA02,SAH98] که در بسیاری از برنامه‌های سرویس‌گیرنده‌ی ایمیل استفاده می‌گردد. در کل می‌توان در یک دسته‌بندی کلی، فیلترها و تشخیص‌دهنده‌های هرزنامه‌ را به پنج بخش دسته‌بندی کرد: فیلترهای مبتنی بر محتوای ایمیل (کلمات و تصاویر)، فیلترهای مبتنی بر فهرست، فیلترهای مبتنی بر عملیات آغازین، فیلترهای مبتنی بر تشخیص هویت فرستنده و فیلترهای مبتنی بر روش‌های شبکه‌های اجتماعی. بسیاری از سیستم‌های تشخیص هرزنامه‌ مانند SpamAssasin از مخلوطی از این روش‌ها استفاده می‌کنند.
فیلترهای مبتنی بر محتوای ایمیل که اکثر آنها از متن ایمیل استفاده می‌کنند، به عنوان فیلترهای مبتنی بر توکن نیز شناخته می‌شوند و بزرگترین و پرکاربردترین دسته از فیلترهای هرزنامه را تشکیل می‌دهند. در اکثر روشهای مبتنی بر محتوا از روش‌های یادگیری ماشینی و داده‌کاوی ‌‌ استفاده می‌گردد. بسیاری از فیلترهای مبتنی بر توکن، در بدنه و نیز عنوان ایمیل، وجود کلمات کلیدی و گروه کلماتی را که اکثراً در هرزنامه‌‌ها بکار می‌روند، بررسی می‌کنند.
فیلترهای مبتنی بر لیست سرآیند یک ایمیل را بررسی می‌کنند تا تعلق آدرس ایمیل به یکی از دسته‌های لیست سفید، سیاه و یا خاکستری مشخص گردد. تمامی لیست‌ها به صورت پویا ساخته شده و می‌توانند رشد پیدا کنند. هر ایمیل ورودی که آدرس فرستنده‌ی آن در لیست سیاه قرار دارد، فیلتر می‌گردد. آدرس ایمیل‌هایی که مشکوک بوده ولی بطور قطع نمی‌توان آنها را جزو فرستندگان معتبر و یا غیرمعتبر دسته‌بندی کرد، در لیست خاکستری قرار می‌گیرند. به تدریج و با بررسی‌های آتی، آدرس های خاکستری به دسته‌ی سفید یا سیاه منتقل خواهند شد.
فیلترهای مبتنی بر عملیات آغازین، برای شناسایی هرزنامه‌ به یک سری پردازش از سمت شخصی که می‌خواهد به شخص مالکِ فیلتر نامه بفرستد، نیازمند است. البته شایان ذکر است که این عملیات آغازین تنها در مورد اولین ایمیل فرستنده صورت می‌گیرد. پس از اینکه پردازش‌های آغازین بطور موفقیت آمیزی پایان پذیرفت، آنگاه آدرس ایمیل فرستنده در لیست سفید طبقه‌بندی می‌گردد.
فیلترهای مبتنی بر تشخیص هویت فرستنده یک مجموعه از سرویس‌دهنده‌های معتبر ایمیل را ثبت کرده و به‌صورت پویا آنها را بروزرسانی می‌کند. هر ایمیلی از سوی این سرویس‌دهنده‌ها، به‌عنوان ایمیل معتبر دسته‌بندی می‌گردد.

مرور کارهای انجام شده پایان نامه

فایل Word

تعداد صفحات: 78 صفحه
فهرست مطالب

1- مقدمه 1
1-1- طرح مساله 3
2- مرور ادبیات 6
2-1- پدیده‌ی هرزنامه (SPAM) 6
2-1-1- تعریف ومشخصات کلی هرزنامه‌ 6
2-1-2- تلاشهای قانونگذاری برای ضد هرزنامه‌‌ها 7
2-1-3- تغییر پروتکلهای انتقال نامههای الکترونیکی 8
2-1-4- تغییرات محلی در روندِ انتقال نامههای الکترونیکی 9
2-2- روشهای مبتنی بر یادگیری به منظور فیلترکردن هرزنامه‌ 9
2-2-1- مواردی که در تشخیص ایمیل نیاز به بررسی دارند 11
2-2-2- استخراج ویژگی ها (Featare Extraction) برای فیلترکردن مبتنی بر تصویر 14
2-2-3- چگونگی آنالیز 15
2-2-4- روشهای استخراج کنندهی ویژگیها به صورت BOW 16
2-2-5- بررسی ویژگی‌های سرآیند ایمیل به منظور تشخیص هرزنامه 18
2-2-5-1- مراحل گذار یک ایمیل 18
2-2-5-2- ویژگی‌های سرآیند در ایمیل‌های هرزنامه‌ 19
2-3- فیلترهای مبتنی بر زبان 21
2-4- فیلترهای مبتنی بر ویژگی های غیر متنی 21
2-4-1- فیلترکردن هرزنامه‌ با استفاده از شبکه‌های اجتماعی 22
2-4-1-1- کارهای گذشته در مورد تشخیص هرزنامه‌ با استفاده از شبکه‌‌ی اجتماعی 22
2-5- فیلتر کردن هرزنامه‌ها از طریق همکاری بین کاربران 25
2-6- روش های ترکیبی (HYBRID) 26
2-7- مروری بر روش‌های فیلترنمودن هرزنامه‌ها 26
2-8- واکنش های متقابل از سوی فرستندگان هرزنامه‌ 27
2-9- ارزیابی و مقایسه‌ی روشها 28
2-10- آنتولوژی 34
2-10-1- انواع آنتولوژيها 34
2-11- یادگیری آنتولوژی 35
2-11-1- ابزارهای یادگیری آنتولوژی از متن 37
2-11-1-1- Text2Onto 37
2-11-1-2- OntoLT 39
2-11-1-3- OntoGen 39
2-11-1-4- مقایسه‌ی ابزارهای ساخت آنتولوژی 42
2-12- روشهای اندازه‌گیری مشابهت بین مفاهیم 43
2-12-1- روشهای مبتنی بر انبوهه‌ی بزرگ اسناد 43
2-12-1-1- PMI 43
2-12-1-2- LSA 44
2-12-2- روشهای اندازه‌گیری مشابهت معنایی مبتنی بر ساختار سلسله مراتبی آنتولوژی 45
2-12-2-1- سلسله مراتب روشهای اندازه‌گیری میزان مشابهت مفاهیم 46
2-12-2-2- مشابهت مفاهیم در یک آنتولوژی 47
2-12-2-3- تشابه بین مفاهیم آنتولوژی‌های متفاوت 50
– آنتولوژی‌ها توسط زبانهای متفاوت توصیف شده‌اند 51
2-12-3- استفاده از WordNet برای محاسبه‌ی میزان مشابهت مفاهیم آنتولوژی 51
2-12-3-1- روشهای مبتنی بر شمارش یالها 54
2-12-3-2- روشهای آماری مبتنی بر اطلاعات 56
2-12-3-3- روشهای ترکیبی 57
2-12-3-4- به‌کارگیری روشهای مشابهت معنایی مبتنی بر WordNet در فرآیند انطباق آنتولوژی 59
2-12-3-5- ارزیابی روشهای تشابه معنایی مبتنی بر WordNet 62
2-13- خلاصه 63
3- منابع 65

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com