Hierarchical vs Partitional Clustering

Clustering adalah teknik pembelajaran mesin untuk menganalisis data dan membaginya menjadi kelompok-kelompok data yang serupa. Kelompok atau rangkaian data yang serupa ini dikenal sebagai kelompok. Analisis cluster melihat algoritma clustering yang dapat mengidentifikasi cluster secara otomatis. Hierarchical dan Partitional adalah dua kelas algoritma pengelompokan seperti itu. Algoritme hierarki hierarki memecah data ke dalam hierarki cluster. Algoritma parsial membagi data yang ditetapkan menjadi partisi yang saling terpisah.

Apa itu Hierarchical Clustering?

Algoritme hierarki hierarki mengulangi siklus penggabungan kelompok yang lebih kecil ke kelompok yang lebih besar atau membagi kelompok yang lebih besar ke kelompok yang lebih kecil. Either way, itu menghasilkan hierarki cluster yang disebut dendogram. Strategi pengelompokan aglomeratif menggunakan pendekatan bottom-up dari penggabungan kluster ke kluster yang lebih besar, sementara strategi klaster memecah belah menggunakan pendekatan top-down untuk membagi menjadi yang lebih kecil. Biasanya, pendekatan rakus digunakan dalam memutuskan kelompok mana yang lebih besar / lebih kecil digunakan untuk menggabungkan / membagi. Jarak Euclidean, jarak Manhattan dan kesamaan cosinus adalah beberapa metrik kesamaan yang paling umum digunakan untuk data numerik. Untuk data non-numerik, metrik seperti jarak Hamming digunakan. Penting untuk dicatat bahwa pengamatan aktual (contoh) tidak diperlukan untuk pengelompokan hierarkis, karena hanya matriks jarak yang cukup. Dendogram adalah representasi visual dari cluster, yang menampilkan hierarki dengan sangat jelas. Pengguna dapat memperoleh pengelompokan berbeda tergantung pada tingkat di mana dendogram dipotong.

Apa itu Partisi Clustering?

Algoritma pengelompokan parsial menghasilkan berbagai partisi dan kemudian mengevaluasinya dengan beberapa kriteria. Mereka juga disebut sebagai nonhierarkis karena setiap contoh ditempatkan tepat di salah satu dari k cluster yang saling eksklusif. Karena hanya satu set cluster adalah output dari algoritma pengelompokan partikular yang khas, pengguna diharuskan untuk memasukkan jumlah cluster yang diinginkan (biasanya disebut k). Salah satu algoritma pengelompokan partisi yang paling umum digunakan adalah algoritma pengelompokan k-means. Pengguna diharuskan untuk memberikan jumlah cluster (k) sebelum memulai dan algoritma pertama-tama menginisiasi pusat (atau centroid) dari partisi k. Singkatnya, algoritma klaster k-means kemudian menetapkan anggota berdasarkan pusat saat ini dan pusat perkiraan ulang berdasarkan anggota saat ini. Kedua langkah ini diulang sampai fungsi obyektifitas kesamaan intra-klaster dan fungsi obyektifitas antar-klaster dioptimalkan. Oleh karena itu, inisialisasi yang masuk akal dari pusat adalah faktor yang sangat penting dalam memperoleh hasil yang berkualitas dari algoritma pengelompokan parsial.

Apa perbedaan antara Hierarchical dan Partitional Clustering?

Hierarchical dan Partitional Clustering memiliki perbedaan utama dalam waktu berjalan, asumsi, parameter input dan cluster yang dihasilkan. Biasanya, pengelompokan parsial lebih cepat daripada pengelompokan hierarkis. Pengelompokan hierarkis hanya membutuhkan ukuran kesamaan, sedangkan pengelompokan sebagian membutuhkan asumsi yang lebih kuat seperti jumlah cluster dan pusat awal. Hierarchical clustering tidak memerlukan parameter input apa pun, sementara algoritma pengelompokan partisial membutuhkan jumlah cluster untuk mulai berjalan. Pengelompokan hierarkis menghasilkan pembagian klaster yang jauh lebih bermakna dan subyektif, tetapi pengelompokan parsial menghasilkan kluster k yang tepat. Algoritme hierarki hierarki lebih cocok untuk data kategorikal selama ukuran kesamaan dapat didefinisikan sesuai.