MENGENAL LEBIH DEKAT K-MEANS CLUSTERING

Algoritma K-Means merupakan algoritma klasterisasi yang mengelompokkan data berdasarkan titik pusat klaster (centroid) terdekat dengan data. Tujuan dari K-Means adalah pengelompokan data dengan memaksimalkan kemiripan data dalam satu klaster dan meminimalkan kemiripan data antar klaster (Yazid dan Affandes, 2017). 

Algoritma K-Means dimulai dengan pemilihan secara acak k, yang merupakan banyaknya klaster yang ingin dibentuk (Suprawoto, 2016). K-Means merupakan salah satu metode pengelompokan data non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk dua kelompok atau lebih. Algoritma K-Means merupakan metode analisis kelompok yang mengarah pada partisian n objek pengamatan ke dalam k kelompok, di mana setiap objek pengamatan sebuah kelompok data dengan mean (rata-rata) terdekat (Nur dkk, 2017).


Download Jurnal K-Means di sini
https://jurnal.stmikroyal.ac.id/index.php/jurteksi/article/view/352

Algoritma K-Means  merupakan algoritma pengelompokan iteratif yang melakukan partisi set data ke dalam sejumlah k cluster yang sudah ditetapkan di awal (Nur dkk, 2017). Algoritma K-Means memiliki ketelitian yang cukup tinggi terhadap ukuran objek, sehingga algoritma ini relatif lebih terukur dan efisien untuk pengolahan objek dalam jumlah besar. Selain itu, algoritma K-Means ini tidak terpengaruh terhadap urutan objek. 

Salah satu tahapan penting dalam menerapkan K-Means Cluster adalah menentukan centroid, banyaknya cluster dan jarak centroid (Aranda dan Natasya, 2016). Sari, dkk (2018) pada penelitiannya memaparkan tahapan melakukan clustering atau pengelompokan dengan metode K-Means sebagai berikut:

1. Menentukan berapa banyak cluster yang ingin dibentuk, di mana nilai K adalah banyaknya cluster / jumlah cluster.

2. Menentukan pusat cluster (centroid) awal. Centroid awal ditentukan secara acak dari data yang ada dan jumlah cenroid awal sama dengan jumlah cluster.
3. Setelah menentukan centroid awal, maka setiap data akan menemukan centroid terdekatnya yaitu dengan menghitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua obyek yaitu Euclidean Distance.

Di mana:
d(x,y) = Jarak data ke x ke pusat cluster y
xi = Data ke-i pada atribut data ke n
yi = Data ke-j pada atribut data ke n

4. Setelah menghitung jarak data ke centroid-nya, maka langkah berikutnya adalah mengelompokkan data berdasarkan jarak minimumnya. Suatu data akan menjadi anggota dari suatu cluster yang memiliki jarak terdekat (terkecil) dari pusat cluster-nya. 

5. Berdasarkan pengelompokan tersebut, selanjutnya adalah mencari centroid baru berdasarkan membership dari masing-masing cluster yaitu dengan menghitung rata-rata dari data masing-masing cluster.

6. Kembali ke tahap 3.

7. Perulangan berhenti apabila tidak ada data lagi yang berpindah.
     Alur implementasi Algoritma K-Means dapat digambarkan seperti gambar di bawah ini :