ترجمه مقاله بررسی روش های یادگیری ماشین به فیلتر هرزنامه

در سال های اخیر افزایش استفاده از ایمیل منجر به افزایش مشکلات ناشی از حجمی از پیام های ایمیل ناخواسته ،که معمولا به آن اسپم گفته می شود ،گردیده است شامل یک آزار کوچک تا یک نگرانی بزرگ ،به دلیل حجم زیاد و توهین آمیز برخی از اسن پیام ها ، اسپم ها شروع به کاهش قابلیت اعتماد ایمیل ها کردند به همراه اسلاید و متن زبان اصلی
دسته: مقالات ترجمه شده isi
بازدید: 424 بار
فرمت فایل: docx
حجم فایل: 1548 کیلوبایت
تعداد صفحات فایل: 22

قیمت فایل: 36,000 تومان

پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.

پرداخت و دانلود

فهرست

1.چکیده 6

2.مقدمه. 6

3. پیش زمینه و مباحث ابتدایی.. 9

3.1 ساختار معمول یک فیلتر اسپم. 9

3.2 نمایش... 10

3.3 Datasets. 12

3.4 معیار های کارایی.. 14

4.naive bayes. 15

5. Support Vector Machine (SVM). 18

6.شبکه های عصبی مصنوعی.. 18

7.lazy learning. 19

8. نتیجه. 19

9. مراجع. 20

1.چکیده

در این مقاله ،ما یک بازنمایی جامع از توسعه های اخیر در روش های فیلنرینگ اسپم ها با الگوریتم های یاد گیری ماشینی ارائه کرده ایم که به هر دو جنبه متنی و روش های تصویری می پردازد .به جای اینکه فیلترینگ اسپم را به عنوان یک مسئله استاندارد طبقه بندی شده در نظر بگیریم ،اهمیت در نظر گرفتن برخی ویژگی های ان مانند مفهوم جمع شدن [1] در طراحی فیلتر های جدید نشان داده ایم .دو جنبه نسبتا مهم که کمتر در این مقوله مورد بحث قرار گرفته است عبارتند از : سختی به روز کردن کلاسیفایر بر اساس نمایش کیسه کلمات [2] و یک تفاوت بزرگ بین دو مدل اخیر بیز .در نهایت ،ما نتیجه گیری کرده ایم که با این که پیشرفت های مهمی در سال اخیر صورت گرفته است ،جنبه های بسیاری هستند که هنوز کشف نشده باقی مانده اند ،به خصوص تحت تنظیمات ارزیابی واقعی تر .

کلمات کلیدی : اسپم فیلترینگ ،یادگیری انلاین ،کیسه کلمات ،بیز ،اسپم تصویر

a b s t r a c t
In this paper, we present a comprehensive review of recent developments in the application of machine learning algorithms to Spam filtering, focusing on both textual- and image-based approaches. Instead of considering Spam filtering as a standardclassification problem, we highlight the importance of considering specific characteristics of the problem, especially concept drift, in designing new filters. Two particularly important aspects not widely recognized in the literature are discussed: the difficulties in updating aclassifier based on the bag-of-words representation and a major difference between two early naive Bayes models. Overall, we conclude that while important advancements have been made in the last years, several aspects remain to be explored, especially under more realistic evaluation settings.

2.مقدمه

کاربران شخصی و کمپانی ها ،با هدر رفتن پهنای باند به دلیل دریافت این پیام ها و زمانی که به وسیله کاربران برای تفکیک انها از پیام های نرمال یا قانونی صرف می کنند ، تحت تاثیر قرار گرفتند . یک مدل تجاری بر اساس بازار اسپم ها مفید است زیرت هزینه ها برای فرستنده کم است ، بنابراین تعداد زیادی از این پیام ها می توتنند ارسال شوند ، خروجی انها حداکثر می شود ، این رفتار متجاوزانه یکی از ویژگی های اسپمر ها را بیان می کند (کسانی که پیام های اسپم را ارسال می کنند ) (Martin-Herran ,Rubrl,& Zaccour ,2008 ) . تاثیرات اقتصای اسپم ها برخی کشور ها را به سمت وضع قوانینی بر علیه انها سوق داد ( e.g ,Carpinter & Hunt ,2006 ; Hoanca ,2006;Stern,2008 ) ، اگرچه این قوانین با به وسیله این واقعیت که این پیام ها از سایر کشودها نیز ارسال می شوند محدود می شوند .(Talbot ,2008 ) .بعلاوه ، سختی های رد گیری فرستندگان واقعی این پیام ها عملکرد این قوانین را محدود می کند .علاوه بر قانون گذاری ، برخی نویسندگان تغییرات پروتکل ها و مدل های عملیاتی را نیز پیشنهاد داده اند ( در Hoanca بحث شده است ) .

[1] Concept drift

[2] Bag-of-word

قیمت فایل: 36,000 تومان

پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.

پرداخت و دانلود