ALGORITMA METODE K-MEANS CLUSTERING - BAGIAN 2

Pengumpulan Data

Pada tahap ini data yang dikumpulkan adalah data jamaah umroh pada tahun 2017 dari kantor Layanan Jasa Tour & Travel. Data yang diberikan masih dalam bentuk spreadsheet. Data yang telah dikumpulkan akan diseleksi terlebih dahulu guna mengetahui variabel apa saja yang akan mempengaruhi proses pengelompokan. Adapun hasil pengumpulan data pada penelitian ini lebih dari 200 record dan terdiri dari 11 kolom, yaitu: 
  1. Nama, 
  2. Jenis Kelamin, 
  3. Tanggal Lahir, 
  4. Tempat Lahir, 
  5. Nomor Pasport, 
  6. Tanggal Berlaku, 
  7. Tanggal Kadaluarsa, 
  8. Alamat, 
  9. Nama Mahram dan 
  10. Manifest berdasarkan Paket. 

Download Jurnal K-Means di sini
https://jurnal.stmikroyal.ac.id/index.php/jurteksi/article/view/352

Penyeleksian Data

Data Selection atau Penyeleksian data bertujuan untuk memilih data mana saja yang akan dipakai pada penelitian. Penyeleksian data atau pemilihan data yang akan dipakai pada penelitian ini terdiri dari empat kolom, yaitu:
  1. Nama, 
  2. Jenis Kelamin, 
  3. Tanggal Lahir, dan 
  4. Paket. (yang dipilih oleh jamaah)

Pada kasus kali ini hanya menampilkan data sampel sebanyak 26 record, di mana data tersebut belum dilakukan transformasi data dan sampel data tersebut dapat dilihat pada Tabel berikut:

Hasil Penyeleksian Data
NO.
NAMA
JENIS KELAMIN
TANGGAL LAHIR
PAKET
1
ABDUL HALIM MUHAMMAD NUH
M
10/12/1956
10 HARI
2
ARMIYANTI ANSARI ITAM
F
7/17/1979
10 HARI
3
ENNY HALAWATI
F
11/13/1974
10 HARI
4
ERFINA LEGIMIN YOSO
F
6/4/1974
10 HARI
5
HENNY SYARIF MUHAMMAD
F
5/24/1968
12 HARI
6
LOKOT UDIN PANJAITAN
M
1/5/1952
10 HARI
7
MAIMUNAH ABDUL MUNIR SAINAL
F
12/11/1959
13 HARI
8
MARTINI DARMAJI SENGUT
F
6/4/1958
10 HARI
9
MASNUN MUSA HASIBUAN
F
1/6/1967
10 HARI
10
MISRAN RASUL HASAN
M
2/25/1979
12 HARI
11
MUHAMMAD JUNAIDI SADINO
M
10/21/1960
10 HARI
12
NANING WINARSIH SUTARNO
F
11/9/1983
13 HARI
13
NEZA APRIDILLA
F
4/2/2006
12 HARI
14
PONI WIRYO SUMARTO
F
12/31/1953
13 HARI
15
RITAWATI NASIB GURUSINGA
F
7/30/1966
12 HARI
16
ROSDIANA MUCHTARAM NASUTION
F
8/15/1957
10 HARI
17
ROSLAINI ISMAIL FIRMAN
F
6/9/1953
10 HARI
18
SUHARTINI LASIMIN KROMO
F
3/20/1957
10 HARI
19
SUMARNI SUMARTO ABDULLAH
F
12/31/1959
12 HARI
20
SUNARMI OSERI ABDULLAH
F
4/3/1967
13 HARI
21
SUSILAWATI HUSIN TUMAN
F
7/1/1981
12 HARI
22
TAING MUHAMMAD SARI SITOMPUL
F
12/28/1968
10 HARI
23
TODUH KETEK ABDULLAH
F
12/19/1966
12 HARI
24
ZAHIR NAUFAL AR RAZAQ
M
3/17/2009
10 HARI
25
ZULIJAWATI NGATIMAN MIKAR
F
1/21/1972
12 HARI
26
ZULISMAR SRI HARTATI
F
9/20/1980
10 HARI
Transformasi Data

Pada tahap ini terdapat tiga parameter yang akan digunakan dalam pengelompokan data yaitu:
  1. Jenis kelamin, 
  2. Usia  dan 
  3. Paket yang dipilih jamaah. 

Sebelum masuk pada tahapan Data Mining, data yang dikumpulkan mengalami proses transformasi. Proses transformasi dari data yang telah diseleksi pada kolom jenis kelamin diubah dari karakter menjadi angka dapat dilihat pada Tabel di bawah ini:

Proses Transformasi Data Kolom Jenis Kelamin
DATA REAL
(JENIS KELAMIN)
TRANSFORMASI DATA (JENIS KELAMIN)
KETERANGAN
M
1
Laki-laki
F
0
Perempuan
Sedangkan pada kolom tanggal lahir masih format date sehingga dilakukan pengurangan dari tahun keberangkatan dengan tahun kelahiran untuk mendapatkan usia. Setelah hasil usia diperoleh maka dilakukan proses transformasi data usia dengan ketentuan nilai berikut:

Ketentuan Nilai Untuk Transformasi Data Usia
KATEGORI UMUR
UMUR / USIA
NILAI
TRANSFORMASI DATA
Balita
0 – 5 tahun
1
Kanak-kanak
5 – 11 tahun
2
Remaja Awal
12 – 16 tahun
3
Remaja Akhir
17 – 25 tahun
4
Dewasa Awal
26- 35 tahun
5
Dewasa Akhir
36- 45 tahun
6
Lansia Awal
46- 55 tahun
7
Lansia Akhir
56 – 65 tahun
8
Manula
65 – sampai atas
9

Sumber: Kategori umur menurut Depkes. RI (2009)

Proses Transformasi Data Kolom Usia
DATA REAL
TRANSFORMASI DATA (USIA)
TANGGAL LAHIR
TAHUN LAHIR
(TAHUN LAHIR) – (TAHUN KEBERANGKATAN)
USIA
10/12/1956
1956
2017 -1956
61
8
7/17/1979
1979
2017 -1979
38
6
11/13/1974
1974
2017 -1974
43
6
6/4/1974
1974
2017 -1974
43
6
5/24/1968
1968
2017 -1968
49
7
1/5/1952
1952
2017 -1952
65
8
12/11/1959
1959
2017 -1959
58
8
6/4/1958
1958
2017 -1958
59
8
1/6/1967
1967
2017 -1967
50
7
2/25/1979
1979
2017 -1979
38
6
10/21/1960
1960
2017 -1960
57
8
11/9/1983
1983
2017 -1983
34
5
4/2/2006
2006
2017 -2006
11
2
12/31/1953
1953
2017 -1953
64
8
7/30/1966
1966
2017 -1966
51
7
8/15/1957
1957
2017 -1957
60
8
6/9/1953
1953
2017 -1953
64
8
3/20/1957
1957
2017 -1957
60
8
12/31/1959
1959
2017 -1959
58
8
4/3/1967
1967
2017 -1967
50
7
7/1/1981
1981
2017 -1981
36
6
12/28/1968
1968
2017 -1968
49
7
12/19/1966
1966
2017 -1966
51
7
3/17/2009
2009
2017 -2009
8
2
1/21/1972
1972
2017 -1972
45
6
9/20/1980
1980
2017 -1980
37
6

Pada kolom Paket, proses transformasi dilakukan dengan mengubah nilai pada tiap jenis paket berdasarkan besaran jumlah hari, semakin besar nilai hari pada paket semakin tinggi nilai transformasi data seperti pada Tabel berikut ini:

Proses Transformasi Data Kolom Paket
DATA REAL
(PAKET)
TRANSFORMASI DATA (PAKET)
10 HARI
1
12 HARI
2
13 HARI
3
Ketiga atribut tersebut sudah melalui proses transformasi data dan hasil transformasi tersebut dikumpulkan menjadi dataset yang siap untuk diolah dengan metode K-Means Clustering. Dataset tersebut dapat dilihat pada tabel bawah ini:

Data Sampel Hasil Transformasi (Dataset yang siap diolah)
NO
NAMA
JENIS KELAMIN
USIA
PAKET
1
ABDUL HALIM MUHAMMAD NUH
1
8
1
2
ARMIYANTI ANSARI ITAM
0
6
1
3
ENNY HALAWATI
0
6
1
4
ERFINA LEGIMIN YOSO
0
6
1
5
HENNY SYARIF MUHAMMAD
0
7
2
6
LOKOT UDIN PANJAITAN
1
8
1
7
MAIMUNAH ABDUL MUNIR SAINAL
0
8
3
8
MARTINI DARMAJI SENGUT
0
8
1
9
MASNUN MUSA HASIBUAN
0
7
2
10
MISRAN RASUL HASAN
1
6
2
11
MUHAMMAD JUNAIDI SADINO
1
8
1
12
NANING WINARSIH SUTARNO
0
5
3
13
NEZA APRIDILLA
0
2
2
14
PONI WIRYO SUMARTO
0
8
3
15
RITAWATI NASIB GURUSINGA
0
7
2
16
ROSDIANA MUCHTARAM NASUTION
0
8
2
17
ROSLAINI ISMAIL FIRMAN
0
8
1
18
SUHARTINI LASIMIN KROMO
0
8
1
19
SUMARNI SUMARTO ABDULLAH
0
8
2
20
SUNARMI OSERI ABDULLAH
0
7
3
21
SUSILAWATI HUSIN TUMAN
0
6
2
22
TAING MUHAMMAD SARI SITOMPUL
0
7
1
23
TODUH KETEK ABDULLAH
0
7
2
24
ZAHIR NAUFAL AR RAZAQ
1
2
1
25
ZULIJAWATI NGATIMAN MIKAR
0
6
2
26
ZULISMAR SRI HARTATI
0
6
1

Tabel di atas akan dilakukan proses Data Mining dengan membagi data menjadi tiga kelompok yaitu Sangat Diminati, Diminati dan Kurang Diminati dengan algoritma K-Means Clustering.