Pada tahap ini data yang dikumpulkan adalah data jamaah umroh pada tahun 2017 dari kantor Layanan Jasa Tour & Travel. Data yang diberikan masih dalam bentuk spreadsheet. Data yang telah dikumpulkan akan diseleksi terlebih dahulu guna mengetahui variabel apa saja yang akan mempengaruhi proses pengelompokan. Adapun hasil pengumpulan data pada penelitian ini lebih dari 200 record dan terdiri dari 11 kolom, yaitu:
- Nama,
- Jenis Kelamin,
- Tanggal Lahir,
- Tempat Lahir,
- Nomor Pasport,
- Tanggal Berlaku,
- Tanggal Kadaluarsa,
- Alamat,
- Nama Mahram dan
- Manifest berdasarkan Paket.
https://jurnal.stmikroyal.ac.id/index.php/jurteksi/article/view/352
Penyeleksian Data
Data Selection atau Penyeleksian data bertujuan untuk memilih data mana saja yang akan dipakai pada penelitian. Penyeleksian data atau pemilihan data yang akan dipakai pada penelitian ini terdiri dari empat kolom, yaitu:
- Nama,
- Jenis Kelamin,
- Tanggal Lahir, dan
- Paket. (yang dipilih oleh jamaah)
Pada kasus kali ini hanya menampilkan data sampel sebanyak 26 record, di mana data tersebut belum dilakukan transformasi data dan sampel data tersebut dapat dilihat pada Tabel berikut:
Hasil Penyeleksian Data
NO.
|
NAMA
|
JENIS KELAMIN
|
TANGGAL LAHIR
|
PAKET
|
1
|
ABDUL
HALIM MUHAMMAD NUH
|
M
|
10/12/1956
|
10 HARI
|
2
|
ARMIYANTI
ANSARI ITAM
|
F
|
7/17/1979
|
10 HARI
|
3
|
ENNY
HALAWATI
|
F
|
11/13/1974
|
10 HARI
|
4
|
ERFINA
LEGIMIN YOSO
|
F
|
6/4/1974
|
10 HARI
|
5
|
HENNY
SYARIF MUHAMMAD
|
F
|
5/24/1968
|
12 HARI
|
6
|
LOKOT
UDIN PANJAITAN
|
M
|
1/5/1952
|
10 HARI
|
7
|
MAIMUNAH
ABDUL MUNIR SAINAL
|
F
|
12/11/1959
|
13 HARI
|
8
|
MARTINI
DARMAJI SENGUT
|
F
|
6/4/1958
|
10 HARI
|
9
|
MASNUN
MUSA HASIBUAN
|
F
|
1/6/1967
|
10 HARI
|
10
|
MISRAN
RASUL HASAN
|
M
|
2/25/1979
|
12 HARI
|
11
|
MUHAMMAD
JUNAIDI SADINO
|
M
|
10/21/1960
|
10 HARI
|
12
|
NANING
WINARSIH SUTARNO
|
F
|
11/9/1983
|
13 HARI
|
13
|
NEZA
APRIDILLA
|
F
|
4/2/2006
|
12 HARI
|
14
|
PONI
WIRYO SUMARTO
|
F
|
12/31/1953
|
13 HARI
|
15
|
RITAWATI
NASIB GURUSINGA
|
F
|
7/30/1966
|
12 HARI
|
16
|
ROSDIANA
MUCHTARAM NASUTION
|
F
|
8/15/1957
|
10 HARI
|
17
|
ROSLAINI
ISMAIL FIRMAN
|
F
|
6/9/1953
|
10 HARI
|
18
|
SUHARTINI
LASIMIN KROMO
|
F
|
3/20/1957
|
10 HARI
|
19
|
SUMARNI
SUMARTO ABDULLAH
|
F
|
12/31/1959
|
12 HARI
|
20
|
SUNARMI
OSERI ABDULLAH
|
F
|
4/3/1967
|
13 HARI
|
21
|
SUSILAWATI
HUSIN TUMAN
|
F
|
7/1/1981
|
12 HARI
|
22
|
TAING
MUHAMMAD SARI SITOMPUL
|
F
|
12/28/1968
|
10 HARI
|
23
|
TODUH
KETEK ABDULLAH
|
F
|
12/19/1966
|
12 HARI
|
24
|
ZAHIR
NAUFAL AR RAZAQ
|
M
|
3/17/2009
|
10 HARI
|
25
|
ZULIJAWATI
NGATIMAN MIKAR
|
F
|
1/21/1972
|
12 HARI
|
26
|
ZULISMAR
SRI HARTATI
|
F
|
9/20/1980
|
10 HARI
|
Transformasi Data
Pada tahap ini terdapat tiga parameter yang akan digunakan dalam pengelompokan data yaitu:
- Jenis kelamin,
- Usia dan
- Paket yang dipilih jamaah.
Sebelum masuk pada tahapan Data Mining, data yang dikumpulkan mengalami proses transformasi. Proses transformasi dari data yang telah diseleksi pada kolom jenis kelamin diubah dari karakter menjadi angka dapat dilihat pada Tabel di bawah ini:
Proses Transformasi Data Kolom
Jenis Kelamin
DATA REAL
(JENIS KELAMIN)
|
TRANSFORMASI DATA (JENIS KELAMIN)
|
KETERANGAN
|
M
|
1
|
Laki-laki
|
F
|
0
|
Perempuan
|
Sedangkan pada kolom tanggal lahir masih format date sehingga dilakukan pengurangan dari tahun keberangkatan dengan tahun kelahiran untuk mendapatkan usia. Setelah hasil usia diperoleh maka dilakukan proses transformasi data usia dengan ketentuan nilai berikut:
Ketentuan Nilai Untuk Transformasi
Data Usia
KATEGORI UMUR
|
UMUR / USIA
|
NILAI
TRANSFORMASI DATA
|
Balita
|
0 – 5 tahun
|
1
|
Kanak-kanak
|
5 – 11 tahun
|
2
|
Remaja Awal
|
12 – 16 tahun
|
3
|
Remaja Akhir
|
17 – 25 tahun
|
4
|
Dewasa Awal
|
26- 35 tahun
|
5
|
Dewasa Akhir
|
36- 45 tahun
|
6
|
Lansia Awal
|
46- 55 tahun
|
7
|
Lansia Akhir
|
56 – 65 tahun
|
8
|
Manula
|
65 – sampai
atas
|
9
|
Sumber: Kategori umur menurut Depkes. RI (2009)
Proses Transformasi Data Kolom Usia
DATA REAL
|
TRANSFORMASI DATA (USIA)
|
|||
TANGGAL LAHIR
|
TAHUN LAHIR
|
(TAHUN LAHIR) – (TAHUN KEBERANGKATAN)
|
USIA
|
|
10/12/1956
|
1956
|
2017 -1956
|
61
|
8
|
7/17/1979
|
1979
|
2017 -1979
|
38
|
6
|
11/13/1974
|
1974
|
2017 -1974
|
43
|
6
|
6/4/1974
|
1974
|
2017 -1974
|
43
|
6
|
5/24/1968
|
1968
|
2017 -1968
|
49
|
7
|
1/5/1952
|
1952
|
2017 -1952
|
65
|
8
|
12/11/1959
|
1959
|
2017 -1959
|
58
|
8
|
6/4/1958
|
1958
|
2017 -1958
|
59
|
8
|
1/6/1967
|
1967
|
2017 -1967
|
50
|
7
|
2/25/1979
|
1979
|
2017 -1979
|
38
|
6
|
10/21/1960
|
1960
|
2017 -1960
|
57
|
8
|
11/9/1983
|
1983
|
2017 -1983
|
34
|
5
|
4/2/2006
|
2006
|
2017 -2006
|
11
|
2
|
12/31/1953
|
1953
|
2017 -1953
|
64
|
8
|
7/30/1966
|
1966
|
2017 -1966
|
51
|
7
|
8/15/1957
|
1957
|
2017 -1957
|
60
|
8
|
6/9/1953
|
1953
|
2017 -1953
|
64
|
8
|
3/20/1957
|
1957
|
2017 -1957
|
60
|
8
|
12/31/1959
|
1959
|
2017 -1959
|
58
|
8
|
4/3/1967
|
1967
|
2017 -1967
|
50
|
7
|
7/1/1981
|
1981
|
2017 -1981
|
36
|
6
|
12/28/1968
|
1968
|
2017 -1968
|
49
|
7
|
12/19/1966
|
1966
|
2017 -1966
|
51
|
7
|
3/17/2009
|
2009
|
2017 -2009
|
8
|
2
|
1/21/1972
|
1972
|
2017 -1972
|
45
|
6
|
9/20/1980
|
1980
|
2017 -1980
|
37
|
6
|
Pada kolom Paket, proses transformasi dilakukan dengan mengubah nilai pada tiap jenis paket berdasarkan besaran jumlah hari, semakin besar nilai hari pada paket semakin tinggi nilai transformasi data seperti pada Tabel berikut ini:
Proses
Transformasi Data Kolom Paket
DATA REAL
(PAKET)
|
TRANSFORMASI DATA (PAKET)
|
10 HARI
|
1
|
12 HARI
|
2
|
13 HARI
|
3
|
Ketiga atribut tersebut sudah melalui proses transformasi data dan hasil transformasi tersebut dikumpulkan menjadi dataset yang siap untuk diolah dengan metode K-Means Clustering. Dataset tersebut dapat dilihat pada tabel bawah ini:
Data
Sampel Hasil Transformasi (Dataset yang siap diolah)
NO
|
NAMA
|
JENIS
KELAMIN
|
USIA
|
PAKET
|
1
|
ABDUL HALIM MUHAMMAD NUH
|
1
|
8
|
1
|
2
|
ARMIYANTI ANSARI ITAM
|
0
|
6
|
1
|
3
|
ENNY HALAWATI
|
0
|
6
|
1
|
4
|
ERFINA LEGIMIN YOSO
|
0
|
6
|
1
|
5
|
HENNY SYARIF MUHAMMAD
|
0
|
7
|
2
|
6
|
LOKOT UDIN PANJAITAN
|
1
|
8
|
1
|
7
|
MAIMUNAH ABDUL MUNIR SAINAL
|
0
|
8
|
3
|
8
|
MARTINI DARMAJI SENGUT
|
0
|
8
|
1
|
9
|
MASNUN MUSA HASIBUAN
|
0
|
7
|
2
|
10
|
MISRAN RASUL HASAN
|
1
|
6
|
2
|
11
|
MUHAMMAD JUNAIDI SADINO
|
1
|
8
|
1
|
12
|
NANING WINARSIH SUTARNO
|
0
|
5
|
3
|
13
|
NEZA APRIDILLA
|
0
|
2
|
2
|
14
|
PONI WIRYO SUMARTO
|
0
|
8
|
3
|
15
|
RITAWATI NASIB GURUSINGA
|
0
|
7
|
2
|
16
|
ROSDIANA MUCHTARAM NASUTION
|
0
|
8
|
2
|
17
|
ROSLAINI ISMAIL FIRMAN
|
0
|
8
|
1
|
18
|
SUHARTINI LASIMIN KROMO
|
0
|
8
|
1
|
19
|
SUMARNI SUMARTO ABDULLAH
|
0
|
8
|
2
|
20
|
SUNARMI OSERI ABDULLAH
|
0
|
7
|
3
|
21
|
SUSILAWATI HUSIN TUMAN
|
0
|
6
|
2
|
22
|
TAING MUHAMMAD SARI SITOMPUL
|
0
|
7
|
1
|
23
|
TODUH KETEK ABDULLAH
|
0
|
7
|
2
|
24
|
ZAHIR NAUFAL AR RAZAQ
|
1
|
2
|
1
|
25
|
ZULIJAWATI NGATIMAN MIKAR
|
0
|
6
|
2
|
26
|
ZULISMAR SRI HARTATI
|
0
|
6
|
1
|