چگونه هرزنامهها را شناسایی کنیم؟
روشهای مختلفی برای این منظور وجود دارد که از مهمترین آنها به موارد زیر باید اشاره کرد:
یادگیری ماشین مبتنی بر بیز ساده (Naïve Bayes)
الگوریتمهای یادگیری ماشین از مدلهای آماری برای طبقهبندی دادهها استفاده میکنند. در صورت شناسایی هرزنامه، یک مدل یادگیری ماشین باید تشخیص دهد که آیا ترتیب کلمات موجود در ایمیل با کلمات موجود در نمونه ایمیلهای هرزنامه شباهت دارد یا هیچگونه ارتباطی در میان نیست. امروزه الگوریتمهای مختلف یادگیری ماشین میتوانند هرزنامهنامهها را تشخیص دهند، اما الگوریتم بیز ساده یکی از قدرتمندترین گزینهها در این زمینه است. همانگونه که از نام این الگوریتم مشخص است، بیز ساده مبتنی بر قضیه بیز (Bayes’ theorem) است که احتمال وقوع یک رویداد را بر اساس دانش قبلی توصیف میکند.
بررسی واژهها: مثبت کاذب (False Positives)
همه دوست داریم که سیستم تشخیص هرزنامه به درستی کار کند و به همین دلیل توازن میان ایمیلهایی که به درستی به عنوان هرزنامه شناخته میشوند، در مقایسه با ایمیلهایی که به اشتباه به عنوان هرزنامه انتخاب میشوند، بسیار حیاتی و مهم است. برخی از سیستمها به کاربران این اجازه را میدهند که در ساختار سیستم تشخیص هرزنامه دست ببرند و تنظیمات آن را تغییر بدهند. اما آنچه که مهم است آن است که در هر حالتی، این روشها دارای خطاها و مشکلات خاص خود هستند. به عنوان مثال، یک سیستم تشخیص هرزنامه ممکن است که در تشخیص تعداد زیادی از ایمیلهای هرزنامه دچار مشکل شود و در عین حال بسیاری از ایمیلهای مهم کاربر را به صورت اشتباه به عنوان هرزنامه تشخیص دهد. تشخیص هرزنامه براساس واژه کلیدی و بررسی آماری رایانامه دو روش محبوباند؛ هر چند که دارای مشکلات خودش است. در روش اول واژه کلیدی، سیستم براساس کلمات خاصی مانند خبر جعلی یک ایمیل را به عنوان هرزنامه تشخیص میدهد. به عنوان مثال اگر زمانی در داخل متن رایانامه، واژه خبر جعلی وجود داشته باشد، این سیستم به صورت خودکار آن ایمیل را به عنوان هرزنامه اعلام میکند. مشکل این سیستم آن است که اگر زمانی دوست شما ایمیلی برای شما ارسال کند، آن ایمیل بدون آن که متوجه آن شوید، به عنوان هرزنامه برچسب میخورد.
روش دوم که دارای دقت بیشتری نسبت به روش اول است، ایمیلی به صورت آماری (بر اساس محتوا و غیر از محتوا) مورد بررسی قرار میگیرد به گونهای که وضعیت آماری نسبت به محتوا و واژه کلیدی مسدود شده مورد سنجش قرار میگیرد. به همین دلیل اگر زمانی دوست شما ایمیلی به شما ارسال کرد که حاوی واژه فوق باشد، آن ایمیلی را بدون مشکل دریافت خواهید کرد.
دادهها
شناسایی هرزنامه یکی از بزرگترین چالشهای پیشروی یادگیری ماشین مبتنی بر نظارت است. به بیان دیگر، شما باید مدل یادگیری ماشین خود را با مجموعهای از نمونه پیامهای هرزنامه و هامها آموزش دهید و به مدل اجازه دهید تا الگوهای مربوطه که این دو گروه مختلف را جدا میکنند، پیدا کند. بیشتر ارائهدهندگان خدمات ایمیلی مجموعه دادههای غنی از ایمیلهای برچسبگذاری شده دارند. بهطور مثال، هر بار که ایمیلی را به عنوان هرزنامه در حساب ایمیلی خود مثل جیمیل نشانهگذاری میکنید، دادههای آموزشی را برای الگوریتمهای یادگیری ماشین گوگل ارسال میکنید. البته توجه داشته باشید که الگوریتم شناسایی هرزنامه گوگل بسیار پیچیدهتر از آن چیزی است که در این مقاله در مورد آن بحث میکنیم. بهطور مثال، گوگل مکانیسمهایی برای جلوگیری از سوء استفاده از ویژگی گزارش هرزنامه (Report Spam) در اختیار دارد. برخی از مجموعههای دادهای منبع باز نظیر مجموعه دادههای spambase متعلق به دانشگاه کالیفرنیا، ایروین و مجموعه دادههای هرزنامهای انرون نیز به شکل عمومی در اختیار شرکتها قرار دارند. با اینحال، مجموعه دادهها برای اهداف آموزشی و آزمایشی ارائه شدهاند و در زمینه ساخت مدلهای یادگیری ماشین در سطح تجاری کاربرد چندانی ندارند. شرکتهایی که سرورهای ایمیل سازمانی را میزبانی میکنند این قابلیت را در اختیار دارند تا مدلهای یادگیری ماشین خود را متناسب با مجموعه دادههای تخصصی که در اختیار دارند آموزش دهند تا بتوانند مانع دریافت هرزنامهها در صندوقهای ایمیل سازمانی شوند. با اینحال، دقت کنید که مجموعه دادههای سازمانی با یکدیگر یکسان نیستند. بهطور مثال، مجموعه دادههای موسسهای که خدمات مالی ارائه میدهد با شرکتی فعال در زمینه ساختوساز متفاوت است.
شناسایی از طریق پردازش زبان طبیعی
اگرچه پردازش زبان طبیعی در سالهای اخیر پیشرفتهای هیجانانگیز زیادی داشته، اما الگوریتمهای هوش مصنوعی هنوز زبان انسانها را به درستی درک نمیکنند. بنابراین، یکی از مراحل کلیدی ساخت مدل یادگیری ماشین ردیاب هرزنامه، آمادهسازی دادهها برای پردازش آماری است. قبل از آموزش طبقهبندی مدل مبتنی بر بیز ساده، مجموعه نامههای هرزنامه و هام باید طی مراحل خاصی در اختیار مدل قرار بگیرد. بهطور مثال، یک مجموعه داده که شامل جملات زیر است را در نظر بگیرید.
استیو میخواهد برای مهمانی ساندویچ پنیر کبابی بخرد.
سالی مقداری مرغ را برای شام کباب میکند
مقداری پنیر خامهای برای کیک خریدم
دادههای متنی باید قبل از اینکه در اختیار الگوریتمهای یادگیری ماشین قرار بگیرند نشانهگذاری (برچسبگذاری) شوند. اینکار باید در زمان آموزش مدل و زمانی که قرار است دادههای جدیدی را برای ارائه پیشبینیها دریافت کند انجام شود. در حقیقت، نشانهگذاری به معنای تقسیم دادههای متنی به بخشهای کوچکتر است. اگر مجموعه دادههای فوق را به کلمات منفرد تقسیم کنید که در اصطلاح تخصصی به آن یونیگرام (unigram) میگویند، واژگان زیر را خواهید داشت. توجه داشته باشید که من هر کلمه را فقط یک بار وارد کردهام.
استیو، میخواهد، بخرد، پنیر، ساندویچ، کبابی، برای، مهمانی، سالی، کباب میکند، برخی، مرغ، شام، من، خامه، کیک خریداری کردم.
ما میتوانیم کلماتی را که در نامههای اسپم و در ایمیل وجود دارند، حذف کنیم تا روند تشخیص سادهتر شود. با اینحال، این تکنیک به تنهایی راهگشا نیست. این واژگان، کلمات متوقفکننده (stop words) نامیده میشوند. علاوه بر این واژگان عمومی دیگری نظیر for، is، to، and و موارد این چنینی نیز وجود دارند. در مجموعه دادههای بالا، حذف کلمات توقف باعث کاهش دایره واژگانی میشود که باید روی آنها متمرکز شویم.
علاوه بر این، میتوانیم از تکنیکهای دیگری مانند بن واژهسازی (lemmatization) و ریشهیابی (stemming) استفاده کنیم تا کلمات به شکل پایه تبدیل شوند. بهطور مثال، در مجموعه دادههای نمونه ما، خرید (buy) و خریداری (bought) دارای ریشهای مشترک هستند، به همین شکل کباب و کباب کردن نیز چنین هستند. واژهسازی و ریشهیابی میتوانند به سادهسازی بیشتر مدلهای یادگیری ماشین کمک کنند.
در برخی موارد، از دو کلمه قبلی (bigrams) که نشانههای دو-کلمهای هستند، سه کلمه قبلی (trigrams) که نشانههای سه کلمهای هستند یا ان-گرامهای بزرگ استفاده میشود. بهطور مثال، علامتگذاری مجموعه دادههای فوق به صورت دو کلمهای اصطلاحاتی مانند “کیک پنیری” تولید میکند و با استفاده از تکنیک سه کلمهای “ساندویچ پنیر کبابی” را تولید میکند.
کم کردن هرزنامهها
پخش ایمیل خود تنها در بین گروههای محدودی که میشناسید یکی از راههای محدود کردن اسپمها است. این روال بر اساس صلاح دید تمام اعضای گروه است. چرا که آشکار کردن آدرس ایمیل در خارج از گروه، اعتماد داخل گروه را از بین میبرد. بنابراین باید ارسال کردن دوباره ایمیلهای دریافتی به کسانی که نمیشناسید نباید حتی الامکان صورت گیرد. اگر گاهی اوقات هم ضروری باشد به کسی که نمیشناسید ایمیل ارسال کنید، یک کار خوب این است که لیست تمامی این آدرسها را به جای to بعد از bcc بیاورید.
پیشگیری از پاسخ به اسپمها
کسانی که اسپم میفرستند غالباً به پاسخهایی که برایشان ارسال میشود توجه میکنند. حتی اگر آن پیامی باشد که در آن گفته شود لطفاً برای من ایمیل ارسال نکنید. به علاوه بسیاری از پیامهای اسپم حاوی لینکها و آدرسهایی است که کاربر خودش تصمیم میگیرد آن آدرس را از لیست اسپمها خارج کند. در برخی از موارد حملهکنندههای اسپم این لینکها را امتحان میکنند که حاوی اطلاعاتی باشند که امکان حذف آن توسط کاربر کم شود. درخواست شکایت ممکن است باعث اصلاح لیست آدرسها شود. کاهش شکایتها منجر به این میشود که ارسالکننده اسپم بتواند قبل از نیاز به به دست آوردن حسابهای کاربری جدید و فراهم کنندگان خدمات اینترنت، فعال باقی بماند. آدرسهای ارسالکننده در پیامهای اسپم اغلب جعل میشوند. به عنوان مثال از آدرس دریافتکننده به عنوان آدرس جعلی ارسالکننده استفاده میشود؛ بنابراین پاسخ به اسپم ممکن است منجر به عدم دریافت شود یا به کاربرانی بیگناه که آدرسهای آنها مورد سوءاستفاده قرار گرفته، برسد.
عدم اشتراک گذاری سراسری
اشتراکگذاری یک آدرس ایمیل تنها در میان یک گروه محدود از مکاتبهکنندگان یک راه برای محدود کردن شانس این خواهد بود که آدرس به صورت هدفمند توسط هرزنامه برداشته شود. بهطور مشابه، هنگام ارسال پیام به تعدادی از دریافت کنندگان که یکدیگر را نمیشناسند، آدرس گیرنده را میتوان در "bcc: field" قرار داد بهطوریکه هر دریافتکننده یک لیست از آدرسهای ایمیل دریافت کنندگان دیگر را دریافت نکند.
Address munging
آدرس ایمیل ارسال شده در صفحههای وب، دانلود مستقیم اتاقهای گفتگو در برابر برداشت آدرس ایمیل آسیبپذیرند. آدرس munging عمل پنهان است که یک آدرس ایمیل برای جلوگیری از جمعآوری خودکار در این راه انجام داده است. اما هنوز هم به خواننده اجازه میدهد آن را بخواند و منبع آن را بداند. یک آدرس ایمیل مثل "no-one at example.com" ممکن است به صورت "no-one at example dot com" نوشته شده باشد. به عنوان مثال یکی از تکنیکهای مرتبط برای نمایش تمام یا بخشی از آدرس ایمیل به عنوان یک تصویر، یا به صورت متن مخلوط با کاراکترهای سفارشی ذخیره گردد.
عدم پاسخ گویی به اسپم
رعایت این نکته که به اسپمها پاسخ داده نشود، بسیار حائز اهمیت است. زیرا به عنوان یک نمونه رایج، اسپمها میتوانند به سادگی با توجه به پاسخ بفهمند که آدرس ایمیل معتبر است. بهطور مشابه، بسیاری از پیامهای اسپم حاوی لینکهای وب یا آدرسهایی است که کاربر دستور به حذف آن از فهرست اسپمها داده است و این کار میتواند خطرناک باشد. در هر صورت، آدرسهای فرستنده اغلب در پیامهای اسپم جعلی هستند. بنابراین در پاسخ به اسپم ممکن است تحویل ناموفق باشد یا ممکن است به شخص ثالث کاملاً بیگناهی برسد.
غیرفعال کردن html در ایمیل
بسیاری از برنامههای پست الکترونیکی مدرن دارای قابلیتهای مرورگر وب، مانند نمایش HTML، آدرسها و تصاویر هستند. جلوگیری یا غیرفعال کردن این ویژگی به جلوگیری از اسپمها کمکی نمیکند. با این حال ممکن است برای جلوگیری از برخی از مشکلها استفاده شود. اگر یک کاربر یک پیام هرزنامه را باز کند، تصاویر مهاجم که توسط جاوا اسکریپت یا حملههای آسیبپذیریهای امنیتی در اجرای html، باگهای وب را ردیابی میکند.
آدرسهای ایمیل یک بار مصرف
یک کاربر ایمیل ممکن است گاهی اوقات نیاز به دادن آدرس به یک سایت بدون اطمینان کامل به این که صاحب سایت برای کاربر هرزنامه ارسال نمیکند، داشته باشد. یکی از راههای کاهش خطر ارائه یک آدرس ایمیل یکبار مصرف است. (آدرسی که کاربر میتواند پس از فرستادن ایمیل با اکانت واقعی آن را غیرفعال یا رها کند.) شماری از سرویسها ایمیلهای یکبار مصرف عرضه میکنند. آدرسهایی که میتوان آن را به صورت دستی غیرفعال کرد، میتوانند پس از یک فاصله زمانی معین منقضی شوند یا پس از فرستادن تعداد معینی پیام منقضی شوند.
رمزهای Ham
سیستمهایی که از پسورد Ham استفاده میکنند، میخواهند فرستنده ناشناس باشند و ایمیل دارای یک رمز است که نشان دهد که یک پیام Ham است و هرزنامه نیست. بهطور معمول آدرس ایمیل و رمز عبور ژامبون در یک صفحه وب شرح داده شده و رمز عبور Ham در خط موضوع پیام ایمیل یا اضافه کردن به «نام کاربری» بخشی از آدرس ایمیل با استفاده از روش اضافه کردن آدرس استفاده میشود.
فیلتر بر اساس بررسی
فیلتر بر اساس بررسی، سوء استفاده از این واقعیت است که پیامها به صورت تودهای ارسال میشوند و آنها یکسان و با تغییرهای کوچک خواهند بود. فیلتر بر اساس بررسی کامل از هر چیزی که ممکن است بین پیام متفاوت باشد صورت میگیرد. کاهش مواردی که برای بررسی پایگاه دادهای که پیامها با ایمیل دریافت کنندگان جمعآوری شده و در نظر گرفتن آنها به عنوان هرزنامه. برخی افراد یک دکمه در ایمیل دریافتکننده قرار میدهند تا بتواند با کلیک بر روی آن، پیام را به عنوان هرزنامه معرفی کند. اگر بررسی در پایگاه داده انجام شود پیام به احتمال زیاد هرزنامه است. مزیت استفاده از این نوع فیلتر این است که اجازه میدهد تا کاربران عادی در شناسایی هرزنامهها کمک کنند و تنها برای ادمینها نیست. در نتیجه جلوگیری از هرزنامهها بسیار افزایش یافت. اشکال این روش این است که فرستنده هرزنامه میتواند هرزنامه به صورت نامرئی و عجیب در بین هر یک از پیامها درج کند. (که به آن هش باستر میگویند.) در نتیجه هر پیام باید به صورت منحصر به فرد بررسی شود.
فهرست غیرمجاز بر اساس DNS
از فهرست غیرمجاز بر اساس DNS یا DNSBLs برای اکتشاف یا مسدود کردن استفاده میشدهاست. یک سایت فهرستی (عموما آدرس آی پی) را از طریق دی ان اس منتشر میکند. سرویس دهندههای ایمیل میتوانند در زمان این منابع را قبول یا رد کنند. امتیاز DNSBLs این است که میتواند سیاستهای مختلفی را اتخاذ کند. برخی از سایتهای شناخته شده هم هرزنامه نیز منتشر میکنند. همچنین لیستی از پروکسیها و لیستی از آی اس پیهای شناختهای که هرزنامه منتشر میکنند. سیستمهای تولید فهرست غیرمجاز بر اساس DNS دامنه یا آدرسهای سایت را به دو دسته خوب (سفید) وبد (سیاه) تقسیم میکنند از جمله: RHSBLs و URIBLs
فیلترینگ آدرس اینترنتی
بیشتر پیامهای اسپم یا فیشینگ حاوی یک یو ار ال اند که با کلیک کردن بر روی آنها قربانیان را به خود جلب میکنند. بنابراین یک روش محبوب از اوایل سال ۲۰۰۰ شامل استخراج یو ار الها از پیامها و نگاه به آنها را در پایگاه داده مانند لیست دامنههای بلوک هرزنامهها SURBL, URIBL,(DBL)است.
اجرای دقیق استانداردهای RFC
تجزیه و تحلیل ایمیلهای سازمان با استاندارد آر اف سی برای پروتکل ساده انتقال ایمیل (SMTP) را میتوان برای قضاوت درباره احتمال هرزنامه بودن آن مورد استفاده قرار داد. بسیاری از هرزنامه نویسان از ضعفهای نرمافزاری و عدم تطابق با استانداردها استفاده میکنند. چرا که آنها به صورت قانونی کنترل نمیشوند و از آن کامپیوترها برای ارسال هرزنامه استفاده میکنند(کامپیوتر زامبی). با تنظیم محدودیتهای بیشتری برای انحراف از استانداردهای انر اف سی که توسط ام تی سی پذیرفته شده، یک ادمین ایمیلی میتواند بهطور قابل توجهی هرزنامهها را کاهش دهد. اما همه این روشها نیز خطر نپذیرفتن ایمیل از سرورهای قدیمیتر یا دارای نرمافزار ضعیف و پیکربندی شده را دارند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟