Cystitis in Hollywood? Excruciating Plot Twists

While there is still a long way for cinema to go in its quest for gender equality, it’s not all bad news. Compared to times past, an increasing number of movies are passing the Bechdel test*…

Smartphone

独家优惠奖金 100% 高达 1 BTC + 180 免费旋转




Prediksi Niatan Membeli Pembeli Online dengan Platform Orange

Keputusan pembeli untuk membeli atau tidak sangat penting bagi penjual sehingga model prediksi dapat meningkatkan penjualan.

Platform jual beli online di tahun 2020 semakin menjamur di Indonesia. Keputusan pelanggan menjadi hal yang sangat krusial bagi penjualan. Machine learning memungkinkan prediksi niatan pelanggan tersebut sehingga penjual dapat meningkatkan penjualan. Di artikel ini akan dijelaskan tentang bagaimana membangun model untuk memprediksi niatan membayar oleh calon pembeli. Orange sebagai platform ML dengan pemrograman visual dipilih karena mudah dipakai.

Dataset dengan beberapa fitur

Tujuan akhirnya adalah untuk memprediksi nilai Revenue pada dataset testing apakah 0 — yang berarti tidak membeli atau 1 — yang berarti membeli.

Dataset tadi masih dalam keadaan ‘kotor’. Banyak permasalahan yang dapat mempengaruhi proses learning seperti:

Pertama, fitur-fitur kategorikal berbentuk numerik perlu di-discretize terlebih dahulu. Dengan begitu didapat bentuk kategorikal dari fitur yang nilainya memang kategorikal.

Fitur setelah di-discretize

Kedua, outlier-outlier akan dideteksi. Untuk mendeteksi digunakan boxplot untuk melihat nilai yang sangat jauh dari nilai-nilai lainnya. Kemudian dipilih batasan nilai yang dipilih berdasarkan persebaran data yang dilihat dari histogram.

Boxplot untuk fitur PageValues
Histogram untuk PageValues

Setelah itu, digunakan widget Outlier pada Orange dengan One Class SVM untuk mendeteksi outlier lainnya untuk kemudian dihapus. Lalu impute data keluaran untuk mengisi data yang hilang.

Fitur target untuk model ini adalah Revenue. Akan tetapi, nilai-nilai pada fitur tersebut pada dataset training bersifat tidak seimbang dengan jumlah nilai False sebanyak 7308 dan nilai True sebanyak 1323.

Ketidakseimbangan nilai pada Revenue

Untuk itu pengukuran melalui Classification Accuracy (CA) tidak mungkin dipakai karena jika model memprediksi semua Revenue sebagai False maka CA sudah akan mencapai 83,4% sedangkan hasilnya bukan yang diinginkan.

Pengukuran melalui Recall, Precision, ataupun F1 juga kurang tepat karena sedikitnya nilai True Positive (TP) dari dataset training. Selain itu penggunaan pengukuran ini sangat bergantung pada threshold data.

Sehingga, yang paling tepat dipilih sebagai pengukuran adalah Area Under ROC Curve (AUC) karena dapat digunakan pada semua threshold.

Untuk pemodelan prediksi digunakan algoritma Naive Bayes, kNN, dan Random Forest. Naive Baiyes dipilih karena data yang tidak terdistribusi normal dan kontinyu serta cocok untuk memprediksi nilai biner kategorikal.

Setelah model diujikan pada dataset testing didapat nilai AUC pada model kNN, Random Forest, dan Naive Bayes masing-masing sebesar 0.769, 0.891, dan 0.879.

Untuk memvisualkan hasil prediksi digunakan ROC Analysis karena AUC dipilih sebagai pengukuran dan Confusion Matrix untuk melihat bagaimana hasil prediksi sebenarnya pada model.

ROC Analysis
Rank fitur terkait pengaruh pada Revenue

Referensi

Add a comment

Related posts:

What Is The Most Reliable Dropshipping Supplier For Dark Kitchens?

Dropshipping allows you to partner with a supplier to display their products in your store. When the demand for online ordering increases, so does the need for restaurant owners to find solutions…

These are the Best Burger Restaurants in Arizona

There is no more traditional American dinner than the burger. We can get it almost everywhere, with a side of french fries and a refreshing drink. It’s not exactly the healthiest option, but all that…

Algo parecido com uma alegria esquecida.

Como dizia Clarice Lispector, felicidade clandestina, menina. Algo similar a um guilty pleasure, algo que te faz muito feliz e só você saber o significado dessa felicidade. Clandestina. É difícil…