Explorasi Data Secara Otomatis Dengan Pandas-Profiling

Stevanus Setiawan
3 min readSep 4, 2020

--

Photo by chuttersnap on Unsplash

Saat kita melakukan eksplorasi data secara manual menggunakan Python, seringkali kita menghabiskan waktu untuk menulis berbaris-baris kode. Terkadang itu memakan banyak waktu. Dan di tulisan ini, saya ingin menunjukkan bagaimana mengeksplorasi data secara otomatis menggunakan Pandas Profiling dan ini hanya butuh beberapa baris.

Dalam tulisan ini, kita akan menggunakan dataset mpg:

import seaborn as snsmpg = sns.load_dataset('mpg')
mpg.head()

Mengeksplorasi data secara manual

Pertama-tama saya akan menunjukkan beberapa standar yang dilakukan, kalau semisalnya, kita mengeksplorasi data secara manual:

Informasi data:

mpg.info()

Deskripstif statistik data:

mpg.describe()

Atau yang lainnya. Misalnya lagi, matriks korelasi:

sns.heatmap(mpg.corr(), annot=True)

Dan masih banyak lainnya, mengingat masih banyak methods lainnya yang tersedia di Pandas DataFrame.

Pandas-Profiling

Untuk melakukan eksplorasi data secara otomatis, kita memerlukan library pandas_profiling, setelah itu import ProfileReport

from pandas_profiling import ProfileReport 
# pip install pandas_profiling

Dan setelah itu, kita tidak perlu repot-repot menulis banyak kode. Kita hanya perlu satu baris kode:

mpg.profile_report()

Dan inilah pekerjaan terbesarnya. Menunggu. Setelah selesai,

Dan inilah beberapa hasil-hasil yang akan saya tunjukkan:

Menunjukkan data secara ringkas
Memperlihatkan fitur-fitur yang punya korelasi, kardinalitas yang tinggi dan data-data yang hilang
Scatterplot antara dua fitur yang bisa dipilih sendiri, dalam kasus ini antara mpg dan horsepower
Matriks korelasi dengan berbagai macam pilihan dan di gambar ini yang diperlihatkan adalah korelasi Pearson untuk fitur-fitur numerik

Dan untuk lengkapnya lagi, dapat dilihat dengan mengikuti kode-kode di atas. Terima kasih telah membacanya sampai selesai…

--

--

Stevanus Setiawan

Pada Medium ini, saya menulis tentang Data Science, Machine Learning, Statistik, Filosofi, dan Penulisan.