Data Mining: Mengimpor Batch vs. Akuisisi Berbasis Kait

Apakah impor batch atau akuisisi berbasis kait terbaik untuk strategi penambangan data Anda?

Saat menambang data dari sumber eksternal, metodologi dapat diidentifikasi sebagai berbasis "batch" atau "hook". Ini sangat berbeda, dan memiliki kelebihan mereka sendiri. Mari kita gunakan contoh untuk menyederhanakan ini sedikit. Sebagai contoh kami, informasinya adalah data penerbangan yang berkaitan dengan lokasi pesawat kapan saja. Karena itu, kita harus memiliki informasi kunci berikut:

  1. Status gerakan (diam atau bergerak)
  2. Lintang
  3. Garis bujur
  4. Ketinggian
  5. Asal (penerbangan saat ini atau selanjutnya)
  6. Tujuan (penerbangan saat ini atau selanjutnya)
  7. Waktu (akurasi milidetik)

Dalam contoh ini, kita harus mampu mengekstrapolasi sebagian besar informasi yang berkaitan dengan pesawat dengan menggunakan data yang disebutkan di atas. Mari kita analisis dua metode mengimpor data.

Impor Batch

Impor batch didasarkan pada jadwal, dan akan “menarik” informasi dari sumber pada interval yang berulang. Dengan menggunakan contoh data penerbangan di atas, ini dapat diterapkan sebagai berikut:

  1. Setiap jam, kami mengimpor semua catatan penerbangan yang berkaitan dengan pesawat ini sejak kejadian terakhir. Kami akan menyebutnya waktu batch, yang bisa 10: 00: 00.000 (10:00, dengan akurasi milidetik).
  2. Server ini memproses data ini (berhasil diimpor).
  3. Kami memperbarui waktu batch ke waktu catatan terbaru. Oleh karena itu, meskipun waktu batch dalam langkah 1 adalah 10: 00.000, jika catatan terakhir adalah 9: 59: 52.915, ini akan menjadi waktu batch baru.

Mengapa kita menerapkan pengaturan waktu batch dengan cara ini?

  1. Kami memperbarui waktu batch, karena batch per jam mungkin gagal. Ini memberi kami keyakinan bahwa meskipun suatu batch gagal, pada contoh berikutnya kami akan mengimpor semua informasi sejak batch terakhir.
  2. Kami juga menghemat waktu batch ke waktu catatan penerbangan terbaru, karena perbedaan waktu yang sangat kecil antara server dapat menyebabkan beberapa data tidak dapat diimpor dalam contoh berikutnya. Untuk menjelaskan hal ini secara berbeda; jika server kami 5 detik lebih cepat dari yang menyediakan data penerbangan, dan kami harus menghemat waktu batch terakhir sebagai waktu server kami, selama impor berikutnya kami akan kehilangan 5 detik data tersebut. Alih-alih, kami menggunakan waktu rekaman terakhir data penerbangan untuk memastikan batch menangkap semua data.

Impor Berbasis Kait

Impor berbasis kait adalah metode waktu nyata murni untuk memperoleh data. "Pengait" dalam komputasi mengacu pada proses di mana sistem eksternal (seperti solusi data penerbangan) mengirim pesan (berisi data) ke server Anda ketika suatu peristiwa terjadi. Contoh impor berbasis kait dapat dijalankan sebagai berikut:

  1. Catatan baru disimpan di server data penerbangan dengan semua informasi (status pergerakan, lintang, bujur, ketinggian, dll).
  2. Penghasut "hook", yang mengirimkan data ke server Anda secara otomatis.
  3. Server Anda memproses data ini (berhasil diimpor).

Kesimpulan

Sementara metode impor berbasis kait lebih disukai dari perspektif "waktu nyata", mereka menawarkan dua risiko utama:

  1. Anda perlu membuka akses ke server Anda dari lokasi eksternal. Ini menciptakan risiko keamanan siber, bahkan ketika dilakukan dengan benar.
  2. Jika data kail tidak terkirim (misalnya, jika server Anda tidak dapat dijangkau), akan sangat merepotkan untuk mengambil data itu tanpa bergantung pada integritas platform eksternal.

Kami cenderung menggunakan pengimporan batch sedapat mungkin untuk menghindari hal ini, dengan “interval” yang lebih pendek jika diperlukan untuk informasi terbaru.