Devy Ferdiansyah, M. Kom

Kumpulan BLOG dan VLOG Pribadi Koe

Formula excel untuk menghitung Entrophy dan Gain Pada Algoritma C4.5

4 min read

Algoritma C4.5 merupakan salah satu solusi pemecahan kasus yang sering digunakan dalam pemecahan masalah pada teknik klasifikasi. Keluaran dari algoritma C4.5 itu berupa sebuah decision tree layaknya teknik klasifikasi lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry & Linoff, 2004).

Algoritma C4.5 merupakan generasi baru dari algoritma ID3 yang dikembangkan oleh J.Ross Quinlan pada tahun 1983 (Windy. et al, 2014). Algoritma C4.5 diperkenalkan oleh Quinlan (1996) sebagai versi perbaikan dari ID3 (Eko, 2014). Sebelum membahas algoritma C4.5 perlu dijelaskan terlebih dahulu algoritma ID3 karena C4.5 adalah ekstensi dari algoritma decision tree ID3 (Sunjana, 2010).

Elemen-elemen yang terdapat di dalam algoritma C4.5 adalah

  • Entrophy
  • Gain

Entropy(S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sampel S. Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. semakin kecil nilai Entropy maka akan semakin Entropy digunakan dalam mengekstrak suatu kelas. Entropi digunakan untuk mengukur ketidakaslian S. Adapun rumus untuk mencari nilai Entropi.

 

Dimana:

  • S : ruang (data) sampel yang digunakan untuk pelatihan
  • P(-) : jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu
  • P(+) : jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu.
  • Entropi(S) = 0, jika semua contoh pada S berada dalam kelas yang sama.
  • Entropi(S) = 1, jika jumlah contoh positif dan negative dalam S adalah sama.
  • 0 > Entropi(S) > 1, jika jumlah contoh positif dan negative dalam S tidak sama.

Gain (S,A) merupakan Perolehan informasi dari atribut A relative terhadap output data S. Perolehan informasi didapat dari output data atau variabel dependent S yang dikelompokkan berdasarkan atributA, dinotasikan dengan gain (S,A). Adapun rumus untuk mencari nilai Gain yaitu:

Dimana:

  • A : Atribut
  • S : Sampel
  • n : Jumlah partisis himpunan atribut A |Si| : Jumlah sampel pada pertisi ke –i
  • |S| : Jumlah sampel dalam S

Dari Rumus Gain dan Entrophy diatas jika dilakukan perhitungan dengan dengan rumus Ms. Excel dan diambil suatu sampel perhitungan terhadap data sampel juga, maka rumus nya adalah

  • Entrophy :

Jika dilihat dari sampel diatas, dapat kita lihat terdapat 4 buah atribut dengan nilai yang  berbeda-beda yaitu:

  • Outlook
  • Temperature
  • Humadity
  • Windy

Jika kita melihat dari rumus entrophy diatas, maka jika di implementasikan dengan atribut serta nilai yang terdapat pada Sel B2-E15 di sebelah kiri atas pada Ms. Excel, maka kita dapat membagi data tersebut berdasar kelompok atributnya serta nilanya seperti pada gambar dikanan atas, lalu menjumlahkan tiap-tiap nilai pada masing-masing atributnya. Jika dilakukan secara manual per baris maka akan ribet dan banyak pekerjaan yang harus dilakukan, yang harus kita lakukan hanya memberikan rumus pasa sel-sel yang ingin kita isikan berdasar pada data master di sebelah kiri atas.

  • Total Jumlah Kasus (K2 / Sel pada excel)
  • =COUNT($A$2:$F$15)
  • Jumlah Kasus Yes (L2)
  • =COUNTIF($F$2:$F$15,”Yes”)
  • Jumlah Kasus No (M2)
  • =COUNTIF($F$2:$F$15,”No”)
  • Entrophy (N2)
  • =IFERROR((-(L2/K2)*LOG((L2/K2),2))+(-(M2/K2)*LOG((M2/K2),2)),0)

Untuk rumus sampel saya ambil untuk Atribut OUTLOOK Dengan Nilai SUNNY

  • Total Jumlah Kasus (K4 / Sel pada excel)
  • =COUNTIF($B$2:$B$15,J4)
  • Jumlah Kasus Yes (L4)
  • =COUNTIFS($F$2:$F$15,”Yes”,$B$2:$B$15,J4)
  • Jumlah Kasus No (M4)
  • =COUNTIFS($F$2:$F$15,”No”,$B$2:$B$15,J4)
  • Entrophy (N2)
  • =IFERROR((-(L4/K4)*LOG((L4/K4),2))+(-(M4/K4)*LOG((M4/K4),2)),0)

Penjelasan dari rumus excel diatas adalah seperti ini,

  • Fungsi COUNTIF adalah fungsi yang digunakan dalam formula excel untuk menghitung dengan menggunakan kondisi tertentu, jika dilihat dari rumus jumlah kasus K4 diatas berarti membacanya nya adalah hitung jika atau hanya jumlah data dari sample area yang dipilih ($B$2:$B$15) yang mengandung kata pada sel J4 yaitu “Sunny”, karena rumus COUNTIF dari excel adalah =COUNTIF(Range;Criteria), jadi range disini adalah area yang dijadikan sebagai data sorotan sedangakan simbol $ adalah merupakan fungsi absolut pada range yang disorot, caranya adalah dengan tombol F4 pada keyboard setelah mem blok area yang di sorot yaa.
  • Fungsi COUNTIFS adalah fungsi yang hampir sama dengan COUNTIF, bedanya fungsi ini bisa melakukan multiple kondisi atau criteria. Rumusnya adalah =COUNTIFS(Criteria_Range1;Criteria1,….), jika kita lihat dari rumus mencari jumlah Kasus Yes pada Sel L4 diatas, maka cara membacanya adalah mencari nilai YES pada area F2-F15 pada sampel data pada area Atribut Outlook B2-B15 yang mengandung kata J4 atau “Sunny”. Sama seperti penjelasan sebelumnya, fungsi simbol $ adalah absolut yaitu dengan menekan tombol F4 pada keyboard setelah melakukan blok area yang disorot.

Untuk pembuktian jika menghitung Entrophy dengan menggunakan Kalkulator adalah sebagai berikut

Untuk mencari nilai P(-) : jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu pada Kalkulator seperti pada gambar sebelah kiri adalah seperti berikut langkahnya

  • Jadi kalau kita ambil sample nilai Entrophy pada atribut Outlook dengan nilai Sunny dengan jumlah kasus adalah 5, jumlah Yes adalah 2 dan jumlah No adalah 3 maka sesuai rumus untuk mencari nilai P(-) adalah
    • Tekan tombol minus (-)
    • Tekan 0.4 (didapat dari yes/total = 2/5)
    • Tekan tombol kali (*)
    • Tekan angka 0.4 (didapat dari yes/total = 2/5)
    • Tekan tombol LOG
    • Tekan tombol Bagi (÷)
    • Tekan angka 2
    • Tekan tombol LOG
    • Tekan tombol sama dengan (=)
    • Selesai
  • Dan untuk rumus untuk mencari nilai P(+) adalah
    • Tekan tombol minus (-)
    • Tekan 0.6 (didapat dari No/total = 3/5)
    • Tekan tombol kali (*)
    • Tekan angka 0.6 (didapat dari yes/total = 3/5)
    • Tekan tombol LOG
    • Tekan tombol Bagi (÷)
    • Tekan angka 2
    • Tekan tombol LOG
    • Tekan tombol sama dengan (=)
    • Selesai
  • Gain

Nilai gain merupakan hasil dari pengurangan Total Entrophy (N2) dengan total jumlah dari (jumlah kasus pernilai dibagi total nilai kasus dikalikan dengan nilai entrophy pernilai)

Rumus excelnya adalah:

=$N$2-(((K6/$K$2)*N6)+((K5/$K$2)*N5)+((K4/$K$2)*N4))

Jadi untuk mendapatkan nilai GAIN, kita harus terlebih dahulu mendapatkan nilai ENTROPHY dari masing-masing NILAI terhadap ATRIBUT masing-masing, karena jika dilihat dari gambar diatas Untuk Atribut OUTLOOK sudah didapatkan nilai ENTROPHY nya untuk masing-masing nilai “Sunny”, “Cloudy”, “Rainy”

Lakukan juga untuk seluruh ATRIBUT yaaaa, Selamat mencoba.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *