مقدمه اي بر داده کاوی:
دادهکاوی پايگاه ها و مجموعه هاي حجیم دادهها را در پی کشف واستخراج دانش مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و تعلّم را طلب مینماید.
اصلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص میشود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از دادهها به یک یا چند بانک اطلاعاتی بزرگ است.
بسیاری از شرکتها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیکهای دادهکاوی به طور تاریخی به گونهای گسترش یافتهاند که به سادگی میتوان آنها را با ابزارهای نرمافزاری امروزی و موجود در این موسسات تطبیق داده و از اطلاعات جمع آوری شده فعلی بهترین بهره را برد. در صورتی که سیستمهای Data Mining بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانکهای اطلاعاتی بزرگ فراهم باشد، به کمک چنین سیستمهایی میتوان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشد «چراًدر کدام مقطع زمانی»و بسیاری از موارد مشابه پاسخ داد.
ویژگیها
یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تامین امنیت ملی داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار میرود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست.داده کاوی غالبا در زمینه تامین امنیت ملی به منزله ابزاری برای شناسایی فعالیتهای افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین شناسایی و ردگیری خود آنها با برسی سوابق مربوط به مهاجرت و مسافرت هاست. داده کاوی پیشرفت قابل ملاحظهای را در نوع ابزارهای تحلیل موجود نشان میدهد اما محدودیتهایی نیز دارد. یکی از این محدودیتها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک میکند اما اطلاعاتی را در باره ارزش یا میزان اهمیت آنها به دست نمیدهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها و یا متغیرها لزوما قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی را نباید در گرو بهره گیری از کارشناسان فنی و تحلیل گران کار آزمودهای است که از توانایی کافی برای طبقه بندی تحلیلها و تغییر آنها برخور دار هستند. بهره برداری از داده کاوی رو بر دو بخش دولتی و خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازار یابی آنرا عموما برای کاهش هزینهها، ارتقاء کیفی پژوهشها و بالاتر بردن میزان فروش به کار میبرند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بودهاست اما امروزه دامنه بهره برداری از آن گسترش روز افزونی یافته و سنجش و بهینه سازی برنامهها ربا نیز در بر میگیرد. برسی برخی از برنامههای کاربردی مربوط به داده کاوی که برای تامین امنیت ملی به کار میروند نشان دهنده رشد قابل ملاحظهای در رابطه با کمیت و دامنه دادههایی است که باید تجزیه و تحلیل شوند. تواناییهای فنی در داده کاوی از اهمیت ویژهای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده سازی و نظارت ممکن است نتیجه کار را تحت تاپیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرمافزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکتهای متفاوتی عرضه میشوند عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره برداری از دادهها به منظوری است که در ابتدا با این نیت گرد آوری نشدهاند حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت اصولا به پرسشهای زیر در زمینه داده کاوی باید پاسخ داده شود:
سازمانهای دولتی تا چه حدی مجاز به بهره برداری از دادهها هستند؟
آیا از دادهها در چارچوبی غیر متعارف بهره برداری میشود؟
کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟
کاوش در دادهها بخشی بزرگ از سامانههای هوشمند است. سامانههای هوشمند زیر شاخهایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینهایست در هوش مصنوعی.
فرایند گروه گروه کردن مجموعهای از اشیاء فیزیکی یا مجرد به صورت طبقههایی از اشیاء مشابه هم را خوشهبندی مینامیم.
با توجه به اندازههای گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعههای دادهها مقیاسپذیری الگوریتمهای به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در دادهها است.
کاوشهای ماشینی در متون حالتی خاص از زمینهٔ عمومیتر کاوش در دادهها بوده، و به آن دسته از کاوشها اطلاق میشود که در آنها دادههای مورد مطالعه از جنس متون نوشته شده به زبانهای طبیعی انسانی باشد.
چیستی
داده کاوی به بهره گیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بودهاند اطلاق میشود. این ابزارها ممکن است مدلهای آماری الگوریتمهای ریاضی و روشهای یاد گیرنده (Machine Laming Method) باشند که کار این خود را به صورت خودکار و بر اساس تجربهای که بر اساس تجربهای که از طریق شبکههای عصبی (Networks Several) یا درختهای تصمیم گیری (Decision Tree) به دست میآورند بهبود میبخشد. داده کاوی منحصر به گردآوری و مدریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بنی را نیز شامل میشود برنامههای کاربردی که با برسی فایلهای متن یا چند رسانهای به کاوش دادههای پردازنده پارامترهای گوناگونی را در نظر میگیرد که عبارت اند از: *رابطه (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود مثلا خرید قلم به خرید کاغذ.
ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد رویدادهای دیگری را در پی دارد مثلا تولد یک نوزاد و خرید پوشک.
دسته بندی(Classification): شناسایی الگوهای جدید مثلا همزمانی خرید چسب و پوشه
خوشه بندی(Clustering): کشف و مستند سازسی مجموعهای از حقایق ناشناخته مثلا موقعیت جغرافیایی خرید محصولی با مارک خاص
پیش بینی(Forecasting):کشف الگوهایی که بر اساس آنها پیش بینی قابل قبولی از رویدادهای آتی ارایه میشود، مثلا رابطه عضویت در یک باشگاه ورزشی با شرکت ذر کلاسهای ورزشی.
برنامههای کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانکهای اطلاعاتی یافت میشود و در ابزارهای تجزیه و تحلیل آماری برخوردار اند اما برنامههای مربوط به داده کاوی در عین برخورداری از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی (verifi action)را به کار میبرند که در آن فریضهای بسط داده شده آنگاه دادهها برای تایید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای اریه فریضههای متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده میشوند و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سختافزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهای برقرار شود.
در نتیجه قابلیتهای پیچیده اش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحلهای در روند کشف د انش در پایگاه دادهها میدانند (KDD). مراحل دیگری در روند KDD به صورت تساعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش میباشد. بسیاری از پیشرفتها در تکنولوژی و فرآیندهای تجاری بر رشد علاقه مندی به داده کاوی در بخشهای خصوصی و عمومی سهمی داشتهاند. بعضی از این تغییرات شامل:
رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار میگیرند.
توسعه افزایش تکنیکهایی بر پایه جستجومثل شبکههای عصبی و الگوریتمهای پیشرفته.
گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز شده را از روی دسک تاپ میدهد.
و افزایش توانایی به تلفیق داده از منابع غیر متناجس به یک منبع قابل جستجو میباشد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال کذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاو به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد.همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.
محدودیتهای داده کاوی
در حالیکه محصولات داده کاوی ابزارهای قدرتمندی میباشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک میکند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند.تصمیماتی از این قبیل بر عهده خود کاربر است.برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.
تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی میباشد که لزوماًروابط اتفاقی را تشخیص نمیدهد.برای مثال برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد.در حقیقت رفتارهای شخصی شامل شغل(نیاز به سفر در زمانی محدود)وضع خانوادگی(نیاز به مراقبت پزشکی برای مریض)یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.
به کارگيري تکنيک هاي داده کاوي در پزشکي:
پيشرفت هاي بشر در چند دهه اخير در زمينه جمع آوري و ذخيره نتايج و داده ها باعث شده است که ابعاد
پايگاه داده ها به طور چشم گيري افزايش پيدا کند. صنعت پزشکي جزء معدود صنايعي است که با پايگاه داده
هاي بسيار بزرگ همراه با داده هاي زياد مواجه است. نکته مهم در اين پايگاه داده هاي بزرگ اطلاعات و دانشي
است که از آن استخراج مي شود و نياز به استفاده از روش هاي هوشمند و ساختارمند وجود دارد. داده کاوي يک
رشته علمي جديد در زمينه بازيابي اطلاعات از پايگاه داده ها مي باشد. تکنيک هاي مختلفي به لحاظ خطي و غير
خطي براي کاهش ابعاد و رسيدن به ويژگي هاي مفيد از يک پايگاه داده ها وجود دارد.
در اين مقاله سه الگوريتم
Principal و Non-negative Matrix Factorization ،Random Projection
Component analysis
جهت کاهش ابعاد پايگاه داده ها بر روي سه مجموعه داده با ساختار خطي، غير خطي
گسسته متني پياده سازي شده است. در انتها مشخص مي شود که الگوريتم Principal Component Analysis
با توجه به سه ماهيت مختلف مجموعه داده ها بهترين نتيجه را نسبت به دو الگوريتم ديگر در کاهش ابعاد و نمايش ويژگي هاي داده ها ارائه مي کند.
تكنيك هاي داده كاوی در پایگاه داده های بزرگ:
تكنیك های مختلف داده كاوی را می توان بر اساس نوع عملیاتی كه انجام می دهند به دو دسته « پیش بینی كننده » و « تشریح كننده » تقسیم كرد . تكنیك های پیش بینی كننده با ساخت مدلی برای پیگاه داده ، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند.
امروزه به دلیل وجود ابزار های مختلف برای جمع آوری داده ها و پیشرفت قابل قبول تكنولوژی پایگاه داده ، حجم انبوهی از اطلاعات در انبار داده های مختلف ذخیره شده است . این رشد انفجاری داده ها ، احتیاج به یك سری تكنیك ها و ابزار های جدید كه توانایی پردازش هوشمندانه اطلاعات را دارا باشند ، نمایان می سازد .
داده كاوی با پیدا كردن مجموعه ای از الگوهای جالب از دل داده های موجود در انباره ها ، می تواند چنین نیازی را مرتفع كند .
در حال حاضر داده كاوی در پایگاه داده های بزرگ ، توسط بسیاری از محققان به عنوان یك موضوع تحقیقاتی مهم به شمار می آید .
محققان در بسیاری از رشته ها نظیر پایگاه داده ها ، یادگیری ماشین و آمار ، این موضوع را پیگیری كرده و تكنیك های مختلفی را برای داده كاوی ، تكنیك ها و روش های مختلف ارائه شده در این زمینه را معرفی كرده و آنها را طبقه بندی كند .
داده كاوی یكی از مهم ترن مراحل فرایند استخراج دانش در پایگاه داده به حساب می آید . مراحل مختلف استخراج دانش در پایگاه داده ها به شرح ذیل است :
۱. درك دامنه مسئله : شامل دانش های موجود و اهداف مسئله .
۲. استخراج یك مجموعه داده : شامل انتخاب یك مجموعه داده ای و تمركز ر روی قسمتی از داده ها .
۳. آماده سازی و پاكسازی داده ها : شامل عملیات پایه ای نظیر حذف و تغییر داده های دارای اشكال .
۴. یكپارچه سازی داده ها : شامل یكپارچه كردن منابع داده ای ناهمگون .
۵. كاهش و تغییر شكل داده ها : شامل روش هایی برای تغییر شكل و كاهش ابعاد داده ها .
۶. انتخاب نوع كاوش داده ها : شامل تعمیم و تقلیل ، طبقه بندی ، رگرسیون ، گروه بندی ، وب كاوی ، بازیابی تصویر ، كشف قوانین پیوندی و وابستگی های تابعی ، استخراج قوانین و یا تركیبی از اینها .
۷. انتخاب الگوریتم كاوش داده ها : شامل انتخاب متدهایی برای جست و جوی الگوها .
۸. كاوش داده ها : شامل جست و جوی الگوهای جالب .
۹. تفسیر : شامل تفسیر ، بازنمایی و آنالیز الگوی كشف شده .
۱۰. استفاده از دانش كشف شده : شامل پیاده سازی دانش كشف شده در سیستم های اجرایی و اتخاذ تصمیماتی برپایه دانش مراحل مختلف كشف دانش .
● تكنیك های مختلف داده كاوی
تكنیك های مختلف داده كاوی را می توان بر اساس نوع عملیاتی كه انجام می دهند به دو دسته « پیش بینی كننده » و « تشریح كننده » تقسیم كرد . تكنیك های پیش بینی كننده با ساخت مدلی برای پیگاه داده ، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند . در حالی كه تكنیك های تشریح كننده ، الگوهایی قابل فهم از داده ها را برای انسان كشف می كنند
.
● طبقه بندی
هدف از طبقه بندی ، مشخص كردن ویژگی هایی است كه بتوان توسط آن ، كلاس های مختلف را از یكدیگر متمایز كرد طبقه بندی در داده كاوی طی دو مرحله انجام می گیرد .
ابتدا از روی داده های قدیمی ، كلاس های مختلف تشخیص داده شده و سپس تعلق داشتن داده های جدید به كلاس های موجود ، پیش بینی می شود . طبقه بندی جزو تكنیك های یادگیری با ناظر است زیرا با در اختیار داشتن یك مجموعهداده آموزشی ( به عنوان راهنما ) ، داده های جدید را طبقه بندی می كند .
این روش جزو روش های پیش بینی كننده نیز به شمار می آید .
در ادامه به روش های مختلف طبقه بندی داده ها می پردازیم
.
● درخت تصمیم .
متد طبقه بندی بر اساس تولید درخت تصمیم ، یكی از روش های یادگیری ماشین به حساب می آید كه به دلیل استفاده از یك مجموعه آموزشی اولیه ، جزو روش های یادگیری با ناظر است .
برای تولید درخت تصمیم ، ابتدا یك مجموعه اولیه در نظر گرفته می شود و درخت تصمیم آن ساخته می شود . چنانچه این درخت پاسخگوی همه حالات نبود ، با انتخاب مجموعه ای دیگر ، درخت توسعه داده می شود . این فرایند تا تكمیل درخت برای پاسخگویی به همه حالات ادامه می یابد . درخت تصمیم تولید شده ، درختی است كه برگ های آن كلاس های مختلف و گره های میانی ، ویژگی ها و حالات مختلف آنها را نشان می دهد
.
● شبكه های عصبی .
شبكه عصبی نیز از جمله روش های یادگیری ماشین برای انجام طبقه بندی است . در این روش یك نگاشت از ورودی به خروجی به صورت غیر خطی انجام می گیرد . هدف اصلی در این روش ، پیدا كردن مجموعه وزن های مناسب برای شبكه به نحوی است كه كلیه داده های آموزشی اولیه را به صورت صحیح طبقه بندی كند .
از مزایای این روش می توان به دقت پیش بینی بالا و توان مقاومت در بابر خطاهای داده های آموزشی اشاره كرد . زمان یادگیری طولانی و مشكل بودن فهم تابع یاد گرفته شده توسط شبكه نیز از معایب این روش به حساب می آید
.
● تئوری بیز .
تئوری بیز یكی از روش های آماری برای طبقه بندی به شمار می آید . در این روش كلاس های مختلف ، هر كدام به شكل یك فرضیه دارای احتمال در نظر گرفته می شوند .
هر ركورد آموزشی جدید ، احتمال درست بودن فرضیه های پیشین را افزایش و یا كاهش می دهد و در نهایت ، فرضیاتی كه دارای بالاترین احتمال شوند ، به عنوان یك كلاس در نظر گرفته شده و برچسبی بر آنها زده می شود . این تكنیك با تركیب تئوری بیز و رابطه سببی بین داده ها ، به طبقه بندی می پردازد
.
● رگرسیون .
رگرسیون نیز یكی از روش های آماری برای طبقه بندی به شمار می آید . هدف از رگرسیون ، پیش بینی مقدار یك متغیر پیوسته بر اساس مقادیر متغیر های دیگر است . رگرسیون به دو دسته خطی و غیر خطی تقسیم می شود .
برای مثال می توان پیش بینی میزان فروش یك محصول جدید را بر اساس میزان تبلیغات صورت گرفته بر روی آن ، از روش رگرسیون انجام داد .
به جز روش های ذكر شده ، روش های دیگری نیز برای طبقه بندی موجود است كه می توان به K_ Nearest Neighborhood ، Case_ Based Reasoning و الگوریتم ژنتیك اشاره كرد
.
● گروه بندی داده ها .
به فرایند دسته بندی اشیای فیزیكی یا انتزاعی به كلاس هایی از اشیاء متشابه ، گروه بندی ( طبقه بندی بدون ناظر ) می گویند .
گروه بندی جزو روش های تشریح كننده به حساب می آید . این روش با تفكر تقسیم و حل ، به دسته بندی داده های موجود در یك سیستم بزرگ پرداخته و آنها را به مولفه های كوچك تر تقسیم می كند .
یك گروه بندی را زمانی مناسب گویند كه اشیای داده ای درون هر گروه بسیار به یكدیگر شبیه بوده و با اشیای گروه های دیگر تفاوت بسیار داشته باشند . معیار شباهت و تفاوت بین اشیای داده ای توسط یك تابع فاصله مشخص می شود . بسته به نوع داده ، توابع فاصله متفاوتی موجود است كه از آن جمله می توان به تابع فاصله Minkowski ، تابع فاصله اقلیدسی ضریب Jaccark اشاره كرد . در ادامه به روش های مختلف برای گروه بندی داده ها پرداخته می شود
.
● بخش بندی
در این تكنیك یك بخش بندی از پایگاه داده D با n شیء به k گروه انجام می گیرد . این كار توسط معیاری كه برای گروه بندی در نظر گرفته شده ، انجام می شود . روش های مختلفی از جمله K_ means ، K_ medoids ، PAM ، CLARA و CLARANS برای دسته بندی موجود است
.
● سلسله مراتبی .
این تكنیك از فاصله ماتریسی به عنوان شرط گروه گروه بندی استفاده می كند . این روش به جای مشخص كردن تعداد گروه ها در ابتدای كار ، احتیاج به یك شرط خاتمه برای پایان دادن به عملیات گروه بندی دارد .
روش های مختلفی نیز برای این تكنیك مطرح شده است كه از آن جمله می توان به روش AGNES ، DLANA ، BLRCH ، CURE و CHAMELEON اشاره كرد
.
● گروه بندی بر اساس تراكم .
در این تكنیك ، گروه بندی بر اساس میزان تراكم نقاط به هم پیوسته مشخص می شود . دو پارامتر Eps و MinPts در این تكنیك در نظر گرفته می شود كه Eps مشخص كننده ماكزیمم شعاع همسایگی و MinPts مشخص كننده مینمم تعداد نقاط درون همسایگی Eps است .
روش های مختلفی نظیر DBSCAN ، OPTLCS ، DENCLUE و CLlQUE نیز در این تكنیك مورد مطالعه قرار گرفته است.