تشخیص کلاه برداری در کارت اعتباری توسط الگوریتم ژنتیک و جستجوی پراکنده
تشخیص کلاه برداری در کارت اعتباری توسط الگوریتم ژنتیک و جستجوی پراکنده
Detecting credit card fraud by genetic algorithm and scatter searchچ
دانلود مقاله
http://isiarticles.com/ad/article/17742/2650
فهرست مطالب
مقدمه
تعریف مساله
الگوریتم GASS
بحث و نتایج
خلاصه و نتیجه گیری
ترجمه چکیده
در این مطالعه، روشی را که موجب بهبود راهکار تشخیص تقلب در کارت اعتباری که در حال حاضر در یک بانک استفاده می شود، توسعه دادیم. با این راهکاربه هر معامله عددی داده می شود و بر اساس این اعداد معاملات بصورت جعلی یا قانونی طبقه بندی می شوند. هدف معمول راهکارهای تشخیص تقلب، کمینه کردن تعدداد طبقه بندی غلط معاملات است. به هرحال، در واقعیت، طبقه بندی غلط هر معماله اثر مشابهی در آن ندارد اگر یک کارت در دست کلاهبرداران باشد همه محدودیت های موجود بر آن، تماما مصرف می شود. این چیزی است که در این مطالعه می خواهیم به حداقل برسانیم. به همین دلیل برای روش حل، ترکیبی از دو روش فراابتکاری معروف، به نام های الگوریتم های ژنتیک و جستجوی پراکنده، را پیشنهاد دادیم. این روش بر روی داده های حقیقی اعمال شده و نتایج بسیار موفقی در مقایسه با عملکرد فعلی به دست آمده است.
ترجمه مقدمه
انگیزه این مطالعه از یک پروژه مشاوره صنعتی گرفته شده است. شریک صنعتی ما (یک بانک بزرگ در ترکیه) چندین سال است که از راهکار تشخیص تقلب کارت اعتباری که بصورت داخلی توسعه یافته، استفاده می کند. هرچند این راهکار موفق بوده است، مقامات بانک به این فکر کردند که به دو دلیل می تواند در آینده بهبود یابد. اول، وزن از پارامترهای مورد استفاده می تواندبا استفاده از روش های اخیر استفاده از کارت ها و تقلابات رخ داده، بهتر تنظیم شود. دوم، فهمیده شده که یک راه حل خوب روشی نیست که لزوما تعداد زیادی تقلب را اشکار سازد بلکه ممکن است تعداد کمتری تقلب اما با ریسک بزرگتری را تشخیص دهد. تقلب می تواند به عنوان مصرف غیرقانی هر سیستم یا کالایی تعریف شود. به همین صورت، فعالیت های قانونی را می توان یک عمل قانونی نام گذاری کرد. ممکن است با تقلب در یک نوع از دامنه های متفاوت شامل بانک داری، بیمه، مخابرات، مراقبت های بهداشتی و خدمات عمومی روبرو شویم. در بانک داری، تقلب می تواند در استفاده از کارت های اعتباری، کارت های بدهی، حساب های بانکی اینترنتی و مرکز تماس (تلفن بانک) رویت شود. پول شویی و تقلب پرسنل از دیگر انواع تقلب بانکی هستند. این ضررهای ناشی از تقلب در مجموع مقادیر زیادی می شود وتهدید بزرگی برای اقتصاد مشروع به حساب می آید. این موضوع به دلیل اهمیتش، علاقه بسیاری از دانشمندان را به خود جلب کرده است. بر طبق داده های ISI Web of Knowledge، در طول ده سال گذشته (1999-2009)، 1361 مقاله چاپ شده که با یک جستجوی کلمه "fraud" ساخته شده است. دراین مقاله، فقط تقلب کارت اعتباری را بررسی کردیم. زماینکه داده های شریک صنعتیمان و چند بانک دیگر را آنالیز کردیم، فقط بالغ بر 100000 معامله تقلبی را رویت کردیم. باقی قانونی هستند. این عدم تعادل بسیار بالا بین دو کلاس باعث می شود که تشخیص تقلب یک کار چالش برانگیز شود. تشخیص تقلب معمولا به عنوان یک مساله داده کاوی مطرح می شود که هدف طبقه بندی صحیح معاملات در دو دسته مشروع و جعلی است. برای مسائل طبقه بندی، اندازه های عملکرد زیادی تعریف شده که اغلب آنها به تعداد درست موارد طبقه بندی صحیح مربوط است. در این میان نسبت دقت، سرعت جذب، نرخ ضربه، ضریب جینی و لیفت معروفترین ها هستند (Gadi, Wang, & Lago, 2008; Kim & Han, 2003). به موازات این معروفیت، در مقالات تعداد مطالعات زیادی بر روی تشخیص تقلب با استفاده از الگوریتم های مختلف داده کاوی شامل درخت های تصمیم گیری، رگرسیون و شبکه عصبی مصنوعی، وجود دارد. Quah و Srinagesh (2008) چارچوبی پیشنهاد داند که می توانست بلادرنگ اعمال شود که در آن برای اولین بار از آنالیز پرت برای هر مشتری بطور جداگانه توسط نقشه های خود سازمان یافته ساخته شد و سپس از یک الگوریتم پیش بین برای طبقه بندی معاملات درظاهر غیرطبیعی استفاده شده است. Panigrahi, Kundu, Sural, and Majumdar (2009) راه حل تشخیص تقلب چهار بخشی را که به یک روش سریالی متصل شده، پیشنهاد دادند. ایده اصلی اولا تعیین یک مجموعه از معاملات مشکوک و سپس اجرای الگوریتم یادگیری Bayesian بر روی این لیست به منظور پیش بینی تقلب هاست. Sanchez, Vila, Cerda, and Serrano (2009) روشی متفاوت ارائه کردند و از استخراج قانون وابستگی برای تعریف نقشه هایی برای استفاده معمولی از کارت و نشان دادن آنهایی که با این الگو تطابق ندارند به عنوان موارد مشکوک، استفاده کردند. مطالعات Bolton و Hand (2002) خلاصه ای بسیار خوب از مقالات مسائل تشخیص تقلب را ارائه می دهد. در این مطالعات، عملکرد الگوریتم ها اغلب توسط اندازه های بالا اندازه گیری شده اند. زمانیکه کلاهبرداران کارتی را به دست آورند، معمولا از کل موجودی (استفاده نشده) آن کارت استفاده (مصرف) می کنند. طبق آمار، به طور متوسط این کار را در چهار یا پنج معامله انجام می دهند؛ بنابراین، برای مساله تشخیص تقلب، اگر چه اقدامات ذکر شده در بالا کاملا مرتبط است، همانگونه که توسط مقامات بانک نشان داده شده، یک معیار برجسته، اندازه گیری میزان ضرری است که می توان بر روی کارت¬هایی که معاملاتشان به عنوان تقلب شناخته شده، ذخیره کرد؛ به عبارت دیگر یک تقلب بر روی کارت دارای محدودیت در دسترس زیاد معتبرتر از تشخیص تقلبی بر روی کارت دارای محدودیت در دسترس کم است. در نتیجه، آنچه که با آن مواجه می شویم مساله طبقه بندی با هزینه های بدرده بندی متغیر است. از آنجا که الگوریتم های DM کلاسیک برای چنین ساختار هزینه بدرده بندی طراحی نشده اند، برای مورد ما مستقیما کاربردی نیستند (اینها زمانی که هدف کمینه کردن تعداد موارد که نادرست رده بندی شده اند باشد به خوبی کار می کنند). یا برخی اصلاحات باید بر روی اینها صورت گیرد و یا الگوریتم های جدید باید بویژه برای این منظور، توسعه بایند (در واقع در برخی از پکیج های نرم افزاری DM مثل SAS Enterprise Miner یا SPSS PASW Modeler، معرفی هزینه های بدرده بندی های مختلف برای دو کلاس امکانپذیر است اما باید نسبت بین آنها ثابت باشد و بنابراین اینها برای انجام مورد ما کافی نیستند). از آنجا که الگوریتم های DM کلاسیک مستقیما قابل استفاده نیستند، به روش های جایگزین برای مساله رده بندی نیاز داریم. در این راستا، ما فکر کردیم که الگوریتم های فرا ابتکاری که برای بسیاری از حوزه های مختلف مساله کاربردی هستند را می توان بکار برد. پس از تجزیه و تحلیل ویژگی های اصلی الگوریتم های فراابتکاری، تصمیم گرفتیم که برای این مساله از الگوریتم ژنتیک (genetic algo rithm (GA)) و جستجوی پراکنده (scatter search (SS) ) بصورت ترکیبی استفاده کنیم. ما این روش حل ترکیبی را GASS نامیدیم. الگوریتم های ژنتیک الگوریتم های تکاملی هستند که هدفشان دستیابی به راه حل های بهتر با گذشت زمان است (Mitchell, 1998). پس از اولین معرفی این الگوریتم ها توسط Holland (1975)، این الگوریتم ها به بسیاری از حوزه ها از ستاره شناسی (Charbonneau, 1995) تا ورزش (Charbonneau, 1995)، از بهینه¬سازی (Levi, Burrows, Fleming, & Hopkins, 2007; Krzysztof & Peter, 2004) تا علوم کامپیوتر (Kaya, 2010) وغیره با موفقیت اعمال شدند. همچنین این الگوریتم ها در داده کاوی بخصوص برای انتخاب متغیر (Bidgoli, Kashy, Kortemeyer, & Punch, 2003) استفاده شده اند و به طورعمده با دیگر الگوریتم های DM پیوند داده شده اند. جستجوی پراکنده نوع دیگری از الگوریتم های تکاملی است که اولین بار توسط Glover (1977) معرفی شد. پس از آن، برای حدود 20 سال تقریبا فراموش شده بود تا اینکه در 1997 (Glover, 1997) دوباره معرفی شد و به بسیاری از مسائل مختلف اعمال شده است. به هرحال، طبق اطلاعات ما تا کنون هیچ کس این روش را در مسائل DM بکار نبرده است. سهم این مطالعه برای مقالات دوگانه است. اولا یک رده بندی جدید تابع هزینه برای مساله تشخیص تقلب معرفی شده است. دوما، یک اجرای جدید از دو الگوریتم فراابتکاری معروف ساخته شده است. باقی این مقاله به صورت زیر سازماندهی شده ایت. در بخش بعدی مساله تشخیص تقلبی که با آن مواجهیم با جزییات به همراه سیستم تشخیص جاری که توسط شریک تجاری ما استفاده می شود، تشریح شده است. بخش 3 مختصرا اصول اولیه الگوریتم های ژنتیک و جستجوی پراکنده و سپس جزییات اعمال GASS را بیان می کند. نتایج حاصله بر روی پایگاه داده های نمونه و انتخاب بهترین پارامترهای راه حل در بخش 4 توصیف می شوند. تجزیه و تحلیل حساسیت با توجه به مقادیر پارامتر نیز در این بخش ساخته شده و ارائه می شوند. این مقاله در بخش 5 با ارائه خلاصه ای از مطالعات و نتایج بدست آمده، پایان می پذیرد.
- ۹۴/۰۳/۰۱