مزیت داده کاوی با استفاده از هوش مصنوعی در مقایسه با روش های آماری

 نویسنده : سعید فرخی ، عضو گروه کوانتس دانشگاه تهران

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین[1] بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند. به عنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود. 

 

به عنوان مثال در برخی موارد فرض نرمال بودن داده ها در براورد همبستگی بین پارامترها در مطالعات آماری بررسی نشده و نتایج مخدوش می باشد. این در حالی است که برای یافتن نوع توزیع داده ها، به تعداد زیادی از آن ها احتیاج است که مثلا در تحقیقاتی که با روش پرشنامه ای انجام می شود، به دست آوردن این مقدار از داده میسر نمی باشد. بنابراین همواره در این تحقیقات فروض و ساده سازی هایی در نظر گرفته شده است که نتایج را با تردید مواجه می کند.

مزیت دوم )

روش های مبتنی بر هوش مصنوعی در جاهایی که داده ها ناقص باشند، و یا با یکدیگر متناقض باشند بسیار بهتر عمل می کنند. چرا که در این موارد به نحوی داده ی فقود شده بر اساس الگوی موجود در داده ها بازیابی می شود. این در حالی است که در روش های آماری، مشکل نبود برخی پارامترها در برخی داده ها، منجر به بلااستفاده شدن آن داده می شود. با وضعیت نامشخص بسیاری از پایگاه های داده در زمینه اجتماع در ایران، استفاده از روش هایی مقاوم نسبت به این نقیصه منتچ به نتایج بهتری می گردد.

مزیت سوم)

تقریبا در تمامی تحقیقات آماری انجام شده بر روی داده های اجتماعی، هنوان موضوع به این صورت می باشد: بررسی رابطه بین پارامتر x و پارامتر y به عنوان مثال در مقوله اعتیاد. در این پژوهش ها به بررسی همبستگی بین این پارامترها در پایگاه داده موجود پرداخته می شود. اما در عالم واقعیت ممکن است چندین پدیده به صورت همزمان بر پارامتری اثر کنند و الگویی را به وجود بیاورند. بنابریان بررسی رابطه دو دویی پارامترها گاهی بسیار دور از واقعیت و ابتدایی می باشد. این در حالی است که با افزایش تعداد پارامترها، روش های آماری توانایی یافتن الگوها  را از دست می دهند و به علت ماهیت، اغلب خطی خو د از کشف روابط غیر خطی و پیچیده بین متغیر ها عاجز هستند. اما روش های هوش مصنوعی طوری طراحی شده اند که می توانند روابط مرکب و پیچیده بین چندین پارامتر را در پایگاه داده کشف کنند. این مهم به دلیل امکاناتی است که این ابزارها در مواجهه با این مسئله دارند، اغلب روش های هوش مصنوعی از نگاشت پایگاه داده بر یک سری نماد های خود اقدام به کشف قوانین چند بعدی در پایگاه داده می کنند.

مزیت چهارم)

روش های اماری توانایی به تصویر کشیدن[2]  داده هایی با ابعاد بالا را ندارند. یعنی نمی توان داده های مثلا مربوط به طلاق را که شامل ده ها پارامتر می باشد را رسم کند و نقشه و اطلس داده ها را مشاهده کنند. در حالی که ابزاهایی در هوش مصنوعی موجود است که می توانند این داده ها را در ساختار های معادل دو بعدی و سه بعدی نمایش دهند، با آشکار سازی تصویری داده ها بسیاری از قوانین و الگوهای موجود در داده آشکار می شود و می توان نتایج تحقیقات را به افرادی با اطلاعات کم اماری نظیر مدیران بلند پایه نمایش داده و تحلیل نمود. این ساختار های دو بعدی و سه بعدی به نحوی آرایش می یابند که تمام پارامترهای موجود در این داده ها در حرکت از یک سوی توپولوژی به سوی دیگر به تدریج  تغییر می کنند و در اصطلاح داده ها در این توپولوژی ها به نحوی آرایش می یابند که بر اساس تمامی پارامترها طیف های پیوسته و تدریجی را ایجاد می کنند. این طیف های پیوسته و تدریجی می توانند، روابط چند بعدی و چند پارامتری را در پایگاه داده کشف کرده و از آن مهمتر به تصویر بکشند.

مزیت پنجم)

روش های آماری، توانایی کشف الگوهای پیچیده و غیر خطی را ندارند، در حالی که روش های مبتنی بر هوش مصنوعی به علت خاصیت اکتشافی که دارند، بدون هیچ فرض اولیه ای شروع به مدل سازی رفتار داده ها می نمایند و به مرور زمان و با جلو رفتن الگوریتم، الگو پر رنگ تر و پر رنگ تر خواهد گردید، ساختار غیر خطی و مقاوم این مدل ها، توانایی شبیه سازی رفتار محیط های اجتماعی و واقعی را به روش های هوش مصنوعی می دهد.

مزیت ششم)

ساختار روش های هوش مصنوعی به گونه ای است که می توانند از نتایج تحلیل های اماری در مدل سازی خود استفاده نمایند، به این معنی که همبستگی دو پارامتر با یکدیگر را به عنوان یک اطلاعات اضافه وارد مسئله نمایند و در مدل سازی خود به آن توجه نمایند. این مهم به این معنی است که می توان داده های خام را با استفاده از تحلیل های آماری، و تبدیلات آماری تغییر داده و به صورت یک ورودی فراوری شده به روش های هوش مصنوعی وارد نمود. روش های هوش مصنوعی هیچ فرض اولیه و یا قضاوتی در مورد داده ها نداشته و تنها بر مبنای یک الگوریتم تکاملی و تکراری اقدام به تنظیم پارامترهای مدل های خود می کنند. ورود این داده های اماری به یک مدل هوش مصنوعی مثل قرار دادن لقمه جویده شده در دهان الگوریتم هوش مصنوعی به مدل سازی آن ها کمک می کنند.

مزیت هفتم)

منظور از روش های هوش مصنوعی طیف الگوریتم هایی است که در زمینه های طبقه بندی خوشه بندی، پیش بینی و بهینه سازی و تصمیم گیری عمل می نمایند. این مدل های هوش مصنوعی قابلیت تلفیق با یکدیگر را دارا می باشند. به عنوان مثال الگوریتم های هیورستیک که به صورت جمعیت محور و اکتشافی بهینه سازی می نمایند از روش های کلاسیک بهینه سازی بسیار بتر عمل کرده و تقریبا هر مسئله بهینه سازی را حل می کنند. و رد می نیمم های محلی گرفتار نمی شوند. این الگوریتم ها در تنظیم پارامترهای مدل هایی که برای تقلید رفتار داده و تحلیل پارامترها در نظر گرفته شده اند می توانند نقش تنظیم کننده و یابنده را بازی کنند. و بهترین تنظیمات ممکن با ساتار موجود را برای تطبیق با پایگاه داده بر روی مدل انجام دهند.

مزیت هشتم )

سیستم های هوش مصنوعی معمولا نسبت به تنظیم پارامترها حساسیت کمتری نسبت به روش های آماری دارند و ساخار انعطاف پذیر تری دارند، به عنوان مثال در الگوریتم kmeans که برای خوشه بندی استفاده می شود و روش کلاسیک به حساب می آید، باید تعداد خوشه ها انتخاب شود و انتخاب نادرست تعداد خوشه ها توسط پژوهشگر، نتایج تحقیق را با نقص مواجه می کند. در حالی که رقیب این الگوریتم یعنی som  کهبر پایه هوش مصنوعی و با تقلید از نرون های عصبی مغز انسان ابداع شده اند، دارای این قابلیت هستند که می توانند رزولوشن و یا تعداد بخش های موجود در داده ها را متناسب با داده ها تغییر داده و الگوی واقعی در داده ها مستقل از تنظیمات پیچیده نمایش دهد.

مزیت نهم)

تابع زیان[3] در روش های مبتنی بر هوش مصنوعی قابل تعریف در باند های ویژه می باشد به این معنی که می توان الگویتم ها را به نحوی تنظیم کرد که خطای از حدی کمتر را جزو خطا به حساب نیاورد و صفر در نظر بگیرد و تمام تلاش خود را مصروف کاهش خطاهای بزرگ و خارج از باند معرفی شده نماید. [4]

در روش های آماری چنین امکانی وجود نداشته و ترم های خطا به سختی قابل تغییر و سفارشی سازی هستند. بنابریان مدل ها بیش از اندازه کلی و غیر حساس یه تغییرات می باشند.



[1] Machine learning

[2] Data Visualization

[3] Loss function

[4]  مانند ماشین های بردار پشتیبان یا supported vector machines  که از همین ایده تابع زیان های اصلاح شده استفاده یم نماید. 

آخرین ویرایش در دوشنبه, 12 اسفند 1392 22:04