خوشه بندی به طور گسترده در مرحله اولیه تجزیه و تحلیل داده های بزرگ برای تقسیم مجموعه داده های بزرگ به بخش های کوچکتر اعمال می شود ، بنابراین داده ها را می توان به راحتی با عملیات تحلیلی پی در پی درک و تسلط کرد [1-3]. پردازش داده های عظیم به انتخاب یک الگوریتم خوشه بندی مناسب متکی است ، و مسئله ارزیابی الگوریتم های خوشه بندی در بسیاری از موضوعات مانند مجموعه فازی ، ژنومیک ، داده استخراج ، علوم کامپیوتر ، یادگیری ماشین ، یک مسئله فعال و مهم استهوش تجاری و تجزیه و تحلیل مالی [1 ، 4-6]. دانشمندان رایانه ، اقتصاددانان ، دانشمندان سیاسی ، متخصصان بیوانفورماتیک ، جامعه شناسان و بسیاری از گروه های دیگر معمولاً با تجزیه و تحلیل این داده ها برای حمایت از تصمیم گیری ، در مورد هزینه ها و مزایای احتمالی بحث می کنند [7]. با این حال ، فرایند تصمیم گیری به دلیل منافع رقابتی ذینفعان متعدد و پیچیدگی سیستم ها بسیار پیچیده است [8-10].
الگوریتم های خوشه بندی ، که الگوریتم های یادگیری الگوی بدون نظارت و بدون اطلاعات قبلی هستند ، فضای داده اصلی را به بخش های کوچکتر با تفاوت های بین گروهی بالا و شباهت های داخل گروه تقسیم می کنند. از خوشه بندی می توان برای پردازش انواع مختلف داده های عظیم برای کشف همبستگی های ناشناخته ، الگوهای پنهان و سایر اطلاعات بالقوه مفید استفاده کرد. با این حال ، Naldi و همکاران.[11] به الگوریتم های مختلف خوشه بندی اشاره کرد که گاهی اوقات پارتیشن های داده های مختلفی تولید می کنند. در برخی شرایط ، الگوریتم های مختلف نتایج متفاوتی یا حتی متناقضی را به همراه می آورند. بنابراین ، ارزیابی الگوریتم های خوشه بندی یک کار مهم و یک مشکل چالش برانگیز است.
چندین اقدام اعتبار برای ارزیابی الگوریتم های خوشه بندی به صورت متوالی ارائه می شود ، مانند شاخص Xie-Beni (XB) [12] ، I-Index [13] ، شاخص CS [14 ، 15] ، شاخص Dunn [16 ، 17] ،و شاخص دیوی س-کودین (DB) [18 ، 19]. این اقدامات اعتبار اغلب به سه دسته از اقدامات خارجی ، نسبی و داخلی تقسیم می شود [20-22]. اقدامات خارجی پارتیشن های تولید شده توسط الگوریتم های خوشه بندی را با یک پارتیشن داده داده شده مقایسه می کند [20 ، 22]. اقدامات نسبی پارتیشن های تولید شده توسط همان الگوریتم خوشه بندی را با زیر مجموعه های داده متناقض یا پارامترهای متنوع مقایسه می کنند [22]. اقدامات داخلی به محاسبه خاصیت خوشه های حاصل بستگی دارد [22]. برن و همکاران.[20] اظهار داشت که اقدامات نسبی و داخلی در پیش بینی و مکان یابی خطای تولید شده توسط الگوریتم های خوشه بندی ناکام هستند و اقدامات خارجی برای ارزیابی نتایج خوشه بندی به طور مؤثرتری انجام می شود. بنابراین ، در تحقیقات تجربی ما ، ما اقدامات خارجی را برای ارزیابی و اندازه گیری عملکرد الگوریتم های خوشه بندی انتخاب خواهیم کرد.
قضیه بدون ناهار رایگان (NFL) بیان می کند که هیچ مدل یا الگوریتم واحدی وجود ندارد که بتواند بهترین عملکرد را برای یک مشکل دامنه معین بدست آورد [23-25]. این نشان می دهد که ارزیابی الگوریتم های خوشه بندی بسیار پیچیده و چالش برانگیز است. علاوه بر این ، الگوریتم های مختلف خوشه بندی ممکن است پارتیشن های مختلف یا متناقض تولید کنند. انگیزه این مقاله در ارزیابی الگوریتم های خوشه بندی برای آشتی دادن عملکرد ارزیابی متفاوت یا حتی متناقض برطرف می شود. علاوه بر این ، آشتی این اختلافات یا درگیری ها یک مشکل مهم است که به طور کامل مورد بررسی قرار نگرفته است. علاوه بر این ، ارزیابی الگوریتم های خوشه بندی معمولاً شامل معیارهای مختلفی است که به عنوان یک مشکل MCDM مدل می شوند. بنابراین ، بر اساس MCDM ، این مقاله مدلی را به نام جمع آوری تصمیم گیری برای ارزیابی الگوریتم های خوشه بندی (DMSECA) ، برای ارزیابی و اندازه گیری عملکرد الگوریتم های خوشه بندی و اندازه گیری بیشتر اختلافات یا حتی تضاد در بین ارزیابی عملکرد ارزیابی ارائه می دهد. الگوریتم های خوشه بندی در طی یک فرآیند تصمیم گیری پیچیده.
مدل پیشنهادی از سه مرحله تشکیل شده است. اول ، ما شش الگوریتم تأثیرگذار خوشه بندی را برای مدل سازی کار در 20 مجموعه داده UCI با کل 18،310 نمونه و 313 ویژگی اعمال می کنیم. دوم ، بر اساس نه اقدامات خارجی ، ما از چهار روش متداول MCDM استفاده می کنیم تا عملکرد الگوریتم های خوشه بندی را در 20 مجموعه داده UCI رتبه بندی کنیم. سوم ، بر اساس قانون هشتاد و بیست ، ما یک مدل پشتیبانی تصمیم گیری را برای تولید لیستی از اولویت های الگوریتم برای شناسایی بهترین الگوریتم خوشه بندی در بین 20 مجموعه داده UCI برای استخراج ثانویه و کشف دانش پیشنهاد می کنیم. هر روش MCDM به طور تصادفی به پنج مجموعه داده UCI اختصاص می یابد.
سهم این مقاله سه گانه است: اول ، مدل DMSECA پیشنهادی ما می تواند بهترین الگوریتم های خوشه بندی را برای مجموعه داده های داده شده توسط یک لیست تولید شده از اولویت های الگوریتم در طی یک فرآیند تصمیم گیری پیچیده شناسایی کند. دوم ، مدل پیشنهادی می تواند این اختلافات یا حتی درگیری ها را برای دستیابی به توافق از نظر ارزیابی الگوریتم خوشه بندی آشتی دهد. سوم ، بر اساس قانون هشتاد و بیست و بیست ، این خرد متخصص برای پیشنهاد یک مدل پشتیبانی تصمیم گیری برای انجام کشف دانش ثانویه برای همجوشی اطلاعات در یک محیط تصمیم گیری پیچیده ادغام شده است.
بقیه این مقاله به شرح زیر است. بخش 2 کار مربوطه را بررسی می کند. بخش 3 برخی از مقدمات ، مانند الگوریتم های خوشه بندی ، روش های MCDM و اقدامات خارجی را توصیف می کند. بخش 4 مدل ما را با ادغام خرد متخصص برای آشتی دادن اختلافات بین الگوریتم های خوشه بندی پیشنهاد می کند. بخش 5 مجموعه داده ها را ارائه می دهد ، طرح تجربی را ارائه می دهد ، نتایج تجربی را نشان می دهد و در مورد اهمیت این کار بحث می کند. بخش 6 این مقاله را خلاصه می کند.
2. کار مرتبط
تجزیه و تحلیل خوشه ای با هدف طبقه بندی عناصر به دسته ها بر اساس شباهت آنها [26]. در سالهای اخیر ، بسیاری از الگوریتم های خوشه بندی ارائه شده است [26-29]. خوشه بندی اوج چگالی توسط رودریگز و لایو در علم منتشر شده است [26]. با توجه به عینیت و دقت کم به دلیل فاکتور ساخته شده توسط انسان ، یک خوشه بندی قطعه چگالی بدون قله بر اساس خوشه بندی اوج چگالی پیشنهاد می شود [30]. جیانگ و همکاران.[28] الگوریتم تولید ناخالص داخلی را با یک نمودار تصمیم گیری جایگزین بر اساس تئوری گرانش و فاصله در نزدیکی برای شناسایی دقیق سانتروئیدها و ناهنجاری ها ایجاد کرد. به منظور غلبه بر نقص DPC اصلی در تشخیص ناهنجاری ها و گره های توپی ، جیانگ و همکاران.[29] یک روش تشخیص بهبود یافته در گره هاله برای الگوریتم خوشه بندی اوج چگالی (Halo DPC) پیشنهاد کرد [29]. Halo DPC پیشنهادی می تواند توانایی مقابله با تراکم های مختلف ، اشکال نامنظم ، تعداد خوشه ها ، دورتر و تشخیص گره توپی را بهبود بخشد [29]. تجزیه و تحلیل خوشه ای با هدف طبقه بندی عناصر به دسته ها بر اساس شباهت آنها [26]. در سالهای اخیر ، بسیاری از الگوریتم های خوشه بندی ارائه شده است [26-29]. خوشه بندی اوج چگالی توسط رودریگز و لایو در علم منتشر شده است [26]. با توجه به عینیت و دقت کم به دلیل فاکتور ساخته شده توسط انسان ، یک خوشه بندی قطعه چگالی بدون قله بر اساس خوشه بندی اوج چگالی پیشنهاد می شود [30]. جیانگ و همکاران.[28] الگوریتم تولید ناخالص داخلی را با یک نمودار تصمیم گیری جایگزین بر اساس تئوری گرانش و فاصله در نزدیکی برای شناسایی دقیق سانتروئیدها و ناهنجاری ها ایجاد کرد. به منظور غلبه بر نقص DPC اصلی در تشخیص ناهنجاری ها و گره های توپی ، جیانگ و همکاران.[29] یک روش تشخیص بهبود یافته در گره هاله برای الگوریتم خوشه بندی اوج چگالی (Halo DPC) پیشنهاد کرد [29]. Halo DPC پیشنهادی می تواند توانایی مقابله با تراکم های مختلف ، اشکال نامنظم ، تعداد خوشه ها ، دورتر و تشخیص گره توپی را بهبود بخشد [29]. تجزیه و تحلیل خوشه ای با هدف طبقه بندی عناصر به دسته ها بر اساس شباهت آنها [26]. در سالهای اخیر ، بسیاری از الگوریتم های خوشه بندی ارائه شده است [26-29]. خوشه بندی اوج چگالی توسط رودریگز و لایو در علم منتشر شده است [26]. با توجه به عینیت و دقت کم به دلیل فاکتور ساخته شده توسط انسان ، یک خوشه بندی قطعه چگالی بدون قله بر اساس خوشه بندی اوج چگالی پیشنهاد می شود [30]. جیانگ و همکاران.[28] الگوریتم تولید ناخالص داخلی را با یک نمودار تصمیم گیری جایگزین بر اساس تئوری گرانش و فاصله در نزدیکی برای شناسایی دقیق سانتروئیدها و ناهنجاری ها ایجاد کرد. به منظور غلبه بر نقص DPC اصلی در تشخیص ناهنجاری ها و گره های توپی ، جیانگ و همکاران.[29] یک روش تشخیص بهبود یافته در گره هاله برای الگوریتم خوشه بندی اوج چگالی (Halo DPC) پیشنهاد کرد [29]. Halo DPC پیشنهادی می تواند توانایی مقابله با تراکم های مختلف ، اشکال نامنظم ، تعداد خوشه ها ، دورتر و تشخیص گره توپی را بهبود بخشد [29].
مجموعه خوشهبندی در سالهای اخیر با ادغام چندین روش خوشهبندی پایه به روشی احتمالا بهتر و قویتر، محبوبیت فزایندهای پیدا کرده است. علیزاده و همکاران[31] یک روش مبتنی بر بهینهسازی جدید برای ترکیب مجموعههای خوشهای ارائه کرد. پروین و مینایی بیدگلی [32] یک الگوریتم خوشهبندی سازگار محلی وزنی (WLAC) را پیشنهاد کردند که بر اساس الگوریتم LAC است. با توجه به اینکه برخی از ویژگیها اطلاعات بیشتری نسبت به سایرین در یک مجموعه داده دارند، پروین و مینایی بیدگلی [27] یک الگوریتم خوشهبندی سازگار محلی با وزن فازی (FWLAC) را پیشنهاد کردند که قادر به مدیریت خوشهبندی نامتعادل است. عباسی و همکاران[33] معیاری را برای ارزیابی ارتباط بین یک خوشه و یک پارتیشن پیشنهاد کرد که اطلاعات متقابل نرمال شده ویرایش شده، معیار ENMI نامیده می شود. مجرد و همکاران[34] یک روش مجموعه خوشهبندی به نام RCEIFBC را با یک تابع تجمیع جدید ارائه کرد که دو معیار شباهت را در نظر میگیرد: (الف) یکی از آنها شباهت خوشه-خوشه و (ب) دیگری شیء است. شباهت خوشه ایمجرد و همکاران[35] به منظور دستیابی به نتایج خوشهبندی بهتر، یک مجموعهای از تجمعدهنده یا یک تابع توافقی را پیشنهاد کرد که به عنوان مجموعه خوشهبندی قوی بر اساس الگوریتم نمونهبرداری و خوشهبندی (RCESCC) نامیده میشود. رشیدی و همکاران[36] یک رویکرد مجموعه خوشهبندی جدید با استفاده از استراتژی وزندهی برای انجام خوشهبندی اجماع با بهرهبرداری از مفهوم عدم قطعیت خوشهای پیشنهاد کرد. باقری نیا و همکاران[37] یک چارچوب جدید مجموعه خوشهبندی فازی را بر اساس معیار تنوع فازی جدید و معیار کیفیت فازی برای یافتن خوشهبندیهای پایه با بهترین عملکرد پیشنهاد کرد. در مجموعه خوشهبندی، خروجیهای خوشهبندی چندگانه را میتوان ترکیب کرد تا نتایج بهتری از نظر ثبات، استحکام و عملکرد نسبت به روشهای اصلی خوشهبندی فردی ایجاد کند.
ارزیابی الگوریتمهای خوشهبندی یک موضوع فعال در زمینههایی مانند یادگیری ماشین، دادهکاوی، هوش مصنوعی، پایگاههای داده و تشخیص الگو است [11]. در یک سناریوی خوشه بندی معمولی، سه سوال اساسی باید مطرح شود: (1) شناسایی یک الگوریتم خوشه بندی موثر مناسب برای یک مجموعه داده معین.(ب) تعیین تعداد خوشههایی که در دادهها ارائه شدهاند. و (iii) ارزیابی خوشه بندی [38]. این مقاله بر روی مشکل اول تمرکز دارد.
چندین اقدامات اعتبار برای ارزیابی الگوریتم های خوشه بندی ارائه شده است. یونگ و همکاران.[39] خاطرنشان كرد كه از رقم شایستگی (FOM) در داده های ریزآرایی استفاده می شود ، و گروه های مختلف بیولوژیکی نشان دهنده خوشه ها هستند. هالکیدی و همکاران.[40] آمار RAND را برای اندازه گیری نسبت جفت بردارها ارائه داد. راث و همکاران.[41] یک اندازه گیری پایداری برای ارزیابی اعتبار پارتیشن بندی و انتخاب تعداد خوشه ها ارائه داد. چو و همکاران.[14] یک اندازه گیری نسبی خوشه CS برای ارزیابی خوشه ها با اندازه و تراکم مختلف ارائه داد. žalik [42] یک اندازه گیری اعتبار خوشه ای را بر اساس فشردگی و اقدامات همپوشانی برای برآورد کیفیت پارتیشن ها ارائه داد. چو و همکاران.[43] یک منطقه برای ارزیابی شماره خوشه اولیه بر اساس اطلاعات مناطق خوشه ای ارائه داد. Wani و Riyaz [44] با استفاده از یک عملکرد مجازات جدید ، یک اندازه گیری فشرده سازی جدید را برای توصیف رفتار معمولی یک خوشه ارائه دادند. Azhagiri و Rajesh [45] یک رویکرد جدید برای اندازه گیری کیفیت خوشه پیشنهاد کردند و می توانند با استفاده از الگوریتم CLOMP و احتمال ابتلا به نفوذ ، نفوذی پیدا کنند.
اقدامات اعتبار اغلب به انواع اقدامات داخلی ، نسبی و خارجی تقسیم می شود [20 ، 21 ، 24 ، 25 ، 46]. اقدامات داخلی مبتنی بر خصوصیات محاسباتی خوشه های حاصل است و این اقدامات شامل اطلاعات اضافی در مورد داده ها نمی شود [20 ، 25 ، 47]. اقدامات نسبی بر اساس مقایسه پارتیشن های تولید شده توسط همان الگوریتم خوشه بندی با زیر مجموعه های داده های مختلف یا پارامترهای مختلف استوار است و آنها نیاز به اطلاعات اضافی ندارند [20 ، 25 ، 39]. اقدامات خارجی پارتیشن های تولید شده توسط الگوریتم های خوشه بندی را با یک پارتیشن داده داده شده مقایسه می کند [20 ، 25 ، 48]. اینها با نوعی اندازه گیری خطا مطابقت دارد ، بنابراین می توان آنها همبستگی بهبود یافته با خطای واقعی ارائه داد [20]. نتایج برنز و همکاران.[20] نشان می دهد که اقدامات خارجی برای ارزیابی نتایج خوشه بندی دقیق تر از اقدامات داخلی یا نسبی است. بنابراین ، اقدامات خارجی برای ارزیابی عملکرد الگوریتم های خوشه بندی انتخاب شده است.
علاوه بر این ، ارزیابی الگوریتم های خوشه بندی بیش از یک معیار را شامل می شود. بنابراین ، می توان آن را با روش های MCDM حل کرد. این با رویکردهای قبلی متفاوت است. به عنوان مثال ، Dudoit و Fridlyand [49] یک روش تغییر شکل مجدد مبتنی بر پیش بینی را برای ارزیابی تعداد خوشه ها ارائه دادند و شکر و جیمز [50] تعداد خوشه ها را با یک رویکرد تفکیک اطلاعاتی انتخاب کردند. پنگ و همکاران.[51] یک روش مبتنی بر MCDM برای انتخاب تعداد خوشه ها ایجاد کرد. پنگ و همکاران.[52] همچنین چارچوبی را برای انتخاب الگوریتم خوشه بندی مناسب و انتخاب بیشتر تعداد خوشه ها ایجاد کرد. مایر و اولتیانو [53] نشان دادند که خوشه بندی در زمینه کمک تصمیم گیری چند معیار (MCDA) چند سازگاری از روش ها را از تجزیه و تحلیل داده ها مشاهده کرده است ، اما بیشتر آنها با استفاده از مفاهیم بومی در آن زمینه ، مانند مفاهیم شباهت و اقدامات از راه دور. علاوه بر این ، چن و همکاران.[54] خاطرنشان كرد كه مسئله خوشه بندی یكی از مشكلات مشهور MCDA است ، و نسخه های موجود الگوریتم خوشه بندی K- معنی فقط برای تقسیم داده ها به چندین خوشه استفاده می شود كه روابط اولویت ندارند. بنابراین ، چن و همکاران.[54] یک الگوریتم خوشه بندی کامل سفارش داده شده به نام الگوریتم خوشه بندی K-Mean سفارش داده شده را پیشنهاد کرد ، که درجه اولویت را بین هر دو گزینه در نظر می گیرد. مهدیجی و همکاران.[55] ارزیابی استراتژی های بازاریابی را بر اساس تجزیه و تحلیل داده های بزرگ با یک رویکرد خوشه ای-MCDM ارائه داد. در این مقاله با ارائه یک مدل DMSECA بر اساس روش MCDM ، ادغام خرد متخصص با استفاده از قانون هشتاد و بیست و بیست برای انتخاب بهترین الگوریتم های خوشه بندی برای مجموعه داده های داده شده در طی یک فرآیند تصمیم گیری پیچیده ، چشم انداز جدیدی را به خود می گیرد. علاوه بر این ، مدل DMSECA پیشنهادی ما می تواند عملکرد ارزیابی متفاوت یا حتی متناقض را برای دستیابی به توافق گروهی برای همجوشی اطلاعات در یک محیط تصمیم گیری پیچیده آشتی دهد.
قانون هشتاد و بیست توسط پارتو [56] پیشنهاد شده است که در مورد توزیع ثروت در کشورهای مختلف تحقیق می کند. قانون هشتاد و بیست مبتنی بر این مشاهدات است که در بیشتر کشورها، حدود 80 درصد از ثروت توسط حدود 20 درصد از مردم کنترل می شود، که توسط پارتو «عدم تعادل قابل پیش بینی» نامیده می شود [57]. قانون هشتاد و بیست به بسیاری از زمینه ها مانند جامعه شناسی و کنترل کیفیت گسترش یافته است [58]. در این کار، از قانون هشتاد و بیست برای تمرکز بر تحلیل مهمترین موقعیتهای رتبهبندی در رابطه با تعداد مشاهدات برای عدم تعادل قابل پیشبینی استفاده میشود. حقیقت اغلب در دست چند نفر است: نظرات حدود 20٪ از مردم رتبه های رضایت بخش تری را از نظر همه شرکت کنندگان نشان می دهد.
فرآیند تصمیم گیری به دلیل منافع رقابتی ذینفعان متعدد و پیچیدگی سیستم ها بسیار پیچیده است [8-10]. در این مقاله، مدل پیشنهادی DMSECA، بر اساس روشهای MCDM و قانون هشتاد و بیست، دیدگاه جدیدی را با ادغام خرد متخصص برای ارزیابی مناسبترین الگوریتم خوشهبندی برای مجموعه دادههای داده شده ارائه میکند و مدل پیشنهادی میتواند تفاوتها یا تضادهای فردی را تطبیق دهد. برای دستیابی به توافقات گروهی بین ارزیابی های الگوریتم خوشه بندی در یک محیط تصمیم گیری پیچیده.
3. مقدمات
این بخش برخی از دانش مقدماتی و مقدماتی را ارائه می دهد. ابتدا چندین رویکرد ارزیابی را در بخش 3. 1 معرفی می کند، و سپس، روش های کلاسیک MCDM در بخش 3. 2 ارائه شده است. در نهایت، معیارهای عملکرد الگوریتم های خوشه بندی در بخش 3. 3 توضیح داده شده است.
3. 1. الگوریتم های خوشه بندی
خوشه بندی یک تکنیک یادگیری بدون نظارت رایج است. هدف آن تقسیم مجموعه دادههای بزرگ به بخشهای کوچکتر است، به طوری که اشیاء در یک خوشه بسیار متمایز هستند، در حالی که اشیاء در خوشههای مختلف بسیار شبیه به هم هستند [21]. الگوریتم های خوشه بندی، بر اساس معیارهای شباهت، می توانند الگوها را گروه بندی کنند، جایی که گروه ها مجموعه ای از الگوهای مشابه هستند [54، 59، 60]. الگوریتمهای خوشهبندی بهطور گسترده در بسیاری از زمینههای تحقیقاتی مانند ژنومیک، تقسیمبندی تصویر، بازیابی اسناد، جامعهشناسی، بیوانفورماتیک، روانشناسی، هوش تجاری و تحلیل مالی استفاده میشوند [61-64].
الگوریتم های خوشه بندی معمولاً به عنوان چهار کلاس روش های پارتیشن بندی، روش های سلسله مراتبی، روش های مبتنی بر چگالی و روش های مبتنی بر مدل شناخته می شوند [65]. چندین الگوریتم کلاسیک خوشه بندی پیشنهاد و گزارش شده است، مانند الگوریتم K-means [66]، الگوریتم k-medoid [67]، حداکثر سازی انتظارات (EM) [68]، و خوشه بندی مکرر مبتنی بر الگو [65]. در این مقاله، شش الگوریتم خوشهبندی تاثیرگذار برای مطالعه تجربی انتخاب شدهاند. اینها الگوریتم KM، الگوریتم EM، خوشهبندی فیلتر شده (FC)، الگوریتم دورترین (FF)، خوشهبندی مبتنی بر چگالی (MD) و خوشهبندی سلسله مراتبی (HC) هستند. این الگوریتم های خوشه بندی را می توان توسط WEKA [69] پیاده سازی کرد.
الگوریتم KM، یک روش پارتیشن بندی، پارامتر ورودی k را می گیرد و مجموعه ای از n شی را به k خوشه تقسیم می کند تا شباهت درون خوشه ای حاصل زیاد و شباهت بین خوشه ای کم باشد. و شباهت خوشه را می توان با مقدار متوسط اشیاء در یک خوشه اندازه گیری کرد که می تواند به عنوان مرکز یا مرکز ثقل خوشه مشاهده شود [65].
الگوریتم EM که به عنوان بسط الگوریتم KM در نظر گرفته میشود، یک روش تکراری برای یافتن حداکثر احتمال یا حداکثر تخمینهای پسینی پارامترها در مدلهای آماری است که در آن مدل به متغیرهای پنهان مشاهده نشده وابسته است [70]. الگوریتم KM هر شی را به یک خوشه اختصاص می دهد.
در الگوریتم EM، هر شی به هر خوشه با توجه به وزنی که احتمال عضویت آن را نشان می دهد، اختصاص می یابد. به عبارت دیگر، هیچ مرز دقیقی بین خوشه ها وجود ندارد. بنابراین، میانگین های جدید را می توان بر اساس معیارهای وزنی محاسبه کرد [68].
FC اعمال شده در این کار می تواند توسط WEKA [69] پیاده سازی شود. مانند خوشه، ساختار فیلتر منحصراً بر اساس داده های آموزشی است و نمونه های آزمایشی بدون تغییر ساختار آنها توسط فیلتر مورد بررسی قرار می گیرند.
الگوریتم FF یک الگوریتم تقریبی سریع، حریصانه و ساده برای مسئله مرکز k است [67]، که در آن k نقاط ابتدا به عنوان مرکز خوشه انتخاب می شوند و مرکز دوم به صورت حریصانه به عنوان دورترین نقطه از نقطه اول انتخاب می شود. هر مرکز باقیمانده با انتخاب حریصانه دورترین نقطه از مجموعه مراکز انتخابی تعیین میشود و نقاط باقیمانده به خوشهای که مرکز آن نزدیکترین است اضافه میشود [66، 71].
الگوریتم MD یک روش مبتنی بر چگالی است. ایده کلی این است که تا زمانی که چگالی (تعداد اشیاء یا نقاط داده) در محله از آستانه ای فراتر رود ، رشد خوشه داده شده را ادامه دهید. یعنی برای هر نقطه داده در یک خوشه معین ، همسایگی یک شعاع معین باید دارای حداقل تعداد امتیاز باشد [65]. الگوریتم HC روشی برای تجزیه و تحلیل خوشه ای است که به دنبال ایجاد سلسله مراتب خوشه ها است ، که می تواند تجزیه سلسله مراتبی از مجموعه داده های داده شده را ایجاد کند [66 ، 72].
3. 2روشهای MCDM
روشهای MCDM ، که در دهه 1970 توسعه یافته است ، مجموعه کاملی از فناوری های تجزیه و تحلیل تصمیم گیری است که به عنوان یک زمینه تحقیقاتی مهم تحقیقات عملیات تکامل یافته است [73 ، 74]. انجمن بین المللی MCDM MCDM را به عنوان تحقیق روشها و رویه های مربوط به معیارهای متناقض متعدد تعریف می کند ، که می تواند به طور رسمی در فرایند برنامه ریزی مدیریت گنجانیده شود [73]. در یک مشکل MCDM ، معیارهای ارزیابی مستقل فرض می شود [75 ، 76]. روشهای MCDM با هدف کمک به تصمیم گیرندگان (DMS) برای شناسایی یک راه حل بهینه از تعدادی از گزینه های دیگر با سنتز اندازه گیری های عینی و داوری های ارزش [77 ، 78]. در این بخش ، چهار روش کلاسیک MCDM: روش SUM وزنه دار (WSM) ، تجزیه و تحلیل رابطه خاکستری (GRA) ، TOPSIS و PROMETHEE II به شرح زیر معرفی شده اند.
3. 2. 1. WSM
WSM [79] یک روش شناخته شده MCDM برای ارزیابی گزینه های محدود از نظر معیارهای تصمیم محدود است که تمام داده ها در همان واحد بیان می شوند [80 ، 81]. رویکردهای سود و سود و سود-سود-سود [82] را می توان برای مشکل درگیر کردن معیارهای سود و هزینه اعمال کرد. در این مقاله ، معیارهای هزینه برای اولین بار به معیارهای سود تبدیل می شوند. علاوه بر این ، اسمی باتری (NB) وجود دارد ، هنگامی که مقدار به مقدار عینی نزدیکتر است ، اسمی باتری (NB) بهتر است.