APA BEDA HIERARCHICAL DENGAN NON-HIERARCHICAL CLUSTERING ?

Clustering merupakan proses membagi data dalam suatu himpunan ke dalam beberapa kelompok yang kesamaan datanya dalam suatu kelompok lebih besar daripada kesamaan data tersebut dengan data dalam kelompok lain (Sadewo dkk, 2017). Pada dasarnya clustering merupakan metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similiarity) antara satu data dengan data yang lain (Sari, 2018). 


Download Jurnal K-Means di sini
https://jurnal.stmikroyal.ac.id/index.php/jurteksi/article/view/352
Data-data yang memiliki kemiripan karakteristik akan berkumpul dalam kelompok atau cluster yang sama. Data-data yang memiliki perbedaan karakteristik, akan berkumpul dalam kelompok atau cluster yang berbeda. Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin (Siyamto, 2017).

Ciri khas dari metode Clustering adalah mempunyai sifat tanpa arahan (unsupervised), yang dimaksud adalah teknik ini diterapkan tanpa perlu data training dan tanpa teacher serta tidak memerlukan target output. Clustering merupakan teknik Data Mining yang digunakan untuk menganalisis data untuk memecahkan permasalahan dalam pengelompokan data atau lebih tepatnya mempartisi dari dataset ke dalam subset (Wardhani, 2016). 

Pada metode clustering konsep utama yang ditekankan adalah pencarian pusat cluster secara iteratif, di mana pusat cluster ditentukan berdasarkan jarak minimum setiap data pada pusat cluster (Sadewo dkk, 2017).

Dalam Data Mining ada dua jenis metode Clustering yang digunakan dalam pengelompokan data, yaitu: 
  1. Hierarchical Clustering
  2. Non-Hierarchical Clustering. 


Hierarchical Clustering merupakan suatu metode pengelompokan data yang cara kerjanya dengan mengelompokkan dua data atau lebih yang mempunyai kesamaan atau kemiripan, kemudian proses dilanjutkan ke objek lain yang memiliki kedekatan dua, proses ini terus berlangsung hingga cluster membentuk semacam tree di mana ada hirarki atau tingkatan yang jelas antar objek dari yang paling mirip hingga yang paling tidak mirip. Namun secara logika semua objek pada akhirnya hanya akan membentuk sebuah cluster. 

Sedangkan Non-Hierarchical Clustering pada teknik ini dimulai dengan menentukan jumlah cluster yang diinginkan (dua cluster, tiga cluster, empat cluster atau lebih), setelah jumlah yang cluster yang diinginkan maka proses cluster dimulai tanpa mengikuti proses hirarki, metode ini juga sering disebut sebagai metode K-Means Clustering (Bastian, dkk, 2018).
Pada proses analisis cluster metode yang digunakan untuk membagi data menjadi subset data berdasarkan kesamaan atau kemiripan yang telah ditentukan sebelumnya. Jadi, analisis cluster secara umum dapat dikatakan bahwa (Wardhani, 2016):
  • Data yang terdapat dalam satu cluster memiliki tingkat kesamaan yang tinggi, dan
  • Data yang terdapat dalam suatu cluster yang berbeda memiliki tingkat kesamaan yang rendah, sebagai contoh dapat dilihat pada di bawah ini:



Dapat dilihat data konsumen sederhana yang terdapat dua atribut di dalamnya, yaitu umur dan penghasilan. Pada data yang berdasarkan dua atribut tersebut kemudian dibagi menjadi tiga cluster yaitu cluster C1 yang terdiri dari konsumen usia muda dan berpenghasilan rendah, cluster C2 terdiri dari konsumen usia muda dan tua berpenghasilan tinggi, dan cluster C3 terdiri dari konsumen usia tua dan berpenghasilan relatif rendah.