Belajar Supervised : Classification
Supervised
Supervised learning dapat dilihat sebagai sebuah robot yang belajar menjawab pertanyaan sesuai dengan jawaban yang telah disediakan manusia. Unsupervised, dapat dilihat sebagai robot yang berusaha belajar menjawab pertanyaan secara mandiri tanpa ada jawaban yang disediakan manusia.
Supervised : Classification
Klasifikasi, adalah teknik untuk menentukan kelas atau kategori berdasarkan atribut yang diberikan. Klasifikasi masuk dalam kategori supervised learning. Untuk lebih mudah dalam memahami klasifikasi kita akan menggunakan contoh dataset Iris. Dataset iris merupakan salah satu dataset populer untuk belajar bagaimana ML dipakai dalam klasifikasi. Dataset ini berisi 150 sampel dari 3 spesies bunga iris.
Pada dataset Iris terdapat 4 kolom atribut yaitu panjang sepal, lebar sepal, panjang petal, dan lebar petal. Untuk label terdapat 3 kelas yaitu Setosa, Versicolor dan Virginica. Kelas adalah kategori atau jenis yang terdapat pada dataset. Dalam hal ini pada dataset terdapat 3 kelas yaitu Setosa, Versicolor, dan Virginica.
Sebuah model classification bertujuan untuk menentukan kelas berdasarkan atribut tertentu. Pada kasus klasifikasi Iris, sebuah model bertugas untuk memprediksi spesies dari sebuah bunga iris berdasarkan atributnya yaitu panjang sepal, lebar sepal, panjang petal, dan lebar petalnya.
Contohnya panjang petal dari Iris Setosa lebih pendek dari spesies versicolor dan virginica. Maka jika panjang petal pendek maka kemungkinan spesies Iris tersebut adalah Setosa.
Klasifikasi terbagi lagi menjadi dua yaitu klasifikasi biner dan klasifikasi multi-kelas. Pada klasifikasi biner, terdapat hanya 2 kelas pada dataset misalnya dataset diabetes suku Indian Pima di mana kelas yang akan diprediksi hanya ada 2 yaitu positif diabetes dan negatif diabetes. Pada klasifikasi multi-kelas terdapat lebih dari 2 kelas pada label. Contoh dari klasifikasi multi kelas adalah klasifikasi bagian-bagian dari wajah. Sebuah wajah memiliki beberapa bagian yaitu hidung, telinga, mulut, dan sebagainya. Pada contoh dataset Iris seperti di atas karena terdapat 3 kelas maka dataset tersebut adalah kasus klasifikasi multi kelas.
Decision Tree
Decision tree atau pohon keputusan adalah salah satu algoritma machine learning supervised, yang dapat dipakai untuk masalah klasifikasi dan regresi. Decision tree merupakan algoritma yang powerful alias mampu dipakai dalam masalah yang kompleks. Decision tree juga merupakan komponen pembangun utama algoritma Random Forest, yang merupakan salah satu algoritma paling powerful saat ini.
Decision tree memprediksi sebuah kelas(klasifikasi) atau nilai(regresi) berdasarkan aturan-aturan yang dibentuk setelah mempelajari data.
Misalnya kita memiliki data seperti di bawah. Data berisi informasi mengenai kondisi cuaca pada hari tertentu dan apakah cocok untuk bermain golf di kondisi cuaca tersebut.
Sebuah pohon keputusan dapat dibuat dari data sebelumnya. Pada pohon keputusan di bawah menggunakan hanya 2 atribut yaitu kondisi langit dan kecepatan angin untuk menentukan bermain golf atau tidak