Садржај
Кластерска анализа је метода организовања података у репрезентативне групе заснована на сличним карактеристикама. Сваки члан кластера има више заједничког са осталим члановима истог кластера него са члановима других група. Најрепрезентативнија тачка у групи зове се центроид. Обично је то средња вредност вредности тачака података у кластеру.
Организујте податке. Ако се подаци састоје од једне варијабле, можда ће бити прикладан хистограм. Ако су укључене две варијабле, графицирајте податке на координатној равнини. На пример, ако сте гледали висину и тежину школске деце у учионици, цртајте тачке података за свако дете на графикону, при чему је тежина водоравна ос, а висина вертикална. Ако су укључене више од две променљиве, можда ће бити потребне матрице за приказ података.
Групирајте податке у кластере. Сваки кластер треба да се састоји од тачака података које су му најближе. У примјеру висине и тежине, групирајте све тачке података за које се чини да су близу. Број кластера и мора ли свака тачка података бити у кластеру може зависити од сврхе студије.
За сваки кластер додајте вредности свих чланова.На пример, ако се група података састоји од тачака (80, 56), (75, 53), (60, 50) и (68,54), зброј вредности био би (283, 213).
Поделите укупни број по броју чланова кластера. У горњем примеру, 283 подељено са четири је 70,75, а 213 подељено са четири је 53,25, тако да је средина кластера (70,75, 53,25).
Нацртајте центроиде кластера и утврдите да ли су неке тачке ближе центроиду другог кластера него што су оне центроиду њиховог кластера. Ако су неке тачке ближе другом центроиду, редистрибуирајте их у кластер који садржи ближи центроид.
Понављајте кораке 3, 4 и 5 док се све тачке података не налазе у кластеру који садржи центроид који им је најближи.