Istilah Data Mining mulai dikenal pada tahun 1990, munculnya Data Mining didasari pada jumlah data yang tersimpan dalam basis data semakin besar (Nur dkk, 2017). Data Mining merupakan proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database yang besar (Anggara dkk, 2016).
Data Mining sebagai metode penggalian informasi dari sejumlah data yang besar memiliki peranan penting di berbagai bidang (Siska, 2016), seperti bidang Industri, Kesehatan, Pengolahan Citra, Keuangan, Kesehatan dan Pendidikan. Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas dan pekerjaan yang dapat dilakukan, yaitu: Deskripsi, Estimasi, Prediksi, Klasifikasi, Pengklasteran, dan Asosiasi (Sari, 2018).
Berdasarkan tugas dan pekerjaan tersebut Data Mining dibagi menjadi dua fungsi, yaitu fungsi Mayor dan fungsi Minor. Fungsi Mayor atau fungsi utama meliputi Klasifikasi, Pengelompokan, dan Asosiasi. Sedangkan pada fungsi Deskripsi, Estimasi dan Prediksi tergolong pada fungsi Minor atau fungsi tambahan (Bastian dkk, 2018). Data Mining juga dikenal dengan istilah pattern recognition sebagai metode pengolahan data guna menemukan pola yang tersembunyi dari data yang diolah (Wardhani, 2016).
Rerung (2018) pada penelitiannya memaparkan bahwa Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas/pekerjaan yang dapat dilakukan, yaitu:
1. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambangkan pola dan kecenderungan yang terdapat dalam data. Deskripsi dari pola kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi
Hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan baris data (record) lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.
3. Prediksi
Hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi
Terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
5. Pengklasteran
Merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas obyek-obyek yang memiliki kemiripan. Klaster adalah kumpulan record yang memiliki kemiripan satu dengan lainnya dan memiliki ketidakmiripan record dalam klaster yang lain. Berbeda dengan klasifikasi, pada pengklasteran tidak ada variabel target. Pengklasteran tidak melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target, akan tetapi algoritma pengklasteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.
6. Asosiasi
Tugas asosiasi dalam Data Mining adalah untuk menemukan atribut yang muncul dalam satu waktu. Salah satu implementasi dari asosiasi adalah market basket analysis.