Binar Academy - Saat ini, data menjadi salah satu elemen paling penting dalam sebuah perusahaan. Untuk mendukung integrasi data dibutuhkan data pipeline. Tujuannya adalah meningkatkan daya saing perusahaan dan mempermudah dalam pengambilan keputusan bisnis.
Tapi apa yang dimaksud dengan data pipeline? Supaya kamu mengerti dan tidak bertanya-tanya lagi, sebaiknya simak penjelasan tentang data pipe line yang akan disampaikan di bawah ini.
Apa Itu Data Pipeline?
Pipe line digunakan untuk membawa sumber daya yang besar dari satu lokasi ke lokasi lain yang jaraknya berjauhan dengan lebih efisien. Biasanya, pipe line dipakai untuk distribusi gas alam dan minyak.
Istilah pipe line dalam konteks data sangat mirip dengan penjelasan di atas. Data pipe line bisa didefinisikan sebagai langkah atau urutan pemrosesan data yang dilakukan menggunakan software khusus.
Pipeline akan membantu menentukan apa, bagaimana, dan di mana data-data akan dikumpulkan. Proses ekstraksi, transformasi, validasi, dan kombinasi data dilakukan secara otomatis menggunakan pipe line. Nantinya akan dilakukan visualisasi dan analisis lebih lanjut.
Kesalahan dan hambatan atau latensi dari ujung satu ke ujung lainnya akan dihilangkan oleh pipeline sehingga mampu memberikan kecepatan maksimal saat memindahkan data.
Baca Juga: IoT Adalah Internet of Things, Simak Penjelasan Selengkapnya
Arsitektur Data Pipe Line
Ada beberapa komponen yang terdapat pada arsitektur data pipe line. Setidaknya ada 6 komponen berikut ini.
1. Source
Source atau sumber data terdiri atas relational database serta data yang berasal dari aplikasi SAAS. Umumnya, pipeline akan mengolah raw data menggunakan mekanisme push, API call, maupun webhook. Sumber data tersebut disinkronisasi pada interval terjadwal atau secara realtime.
2. Destination
Destination dalam bahasa Indonesia bermakna tujuan yang menjadi muara bagi data dari pipeline. Ada berbagai bentuk destination yang dikenal saat ini. Contohnya antara lain data warehouse, data mart, dan data lake yang berbasis cloud.
Tidak menutup kemungkinan data yang melewati pipe line diarahkan ke destination seperti aplikasi BI atau analitik.
3. Transformation
Transformation merupakan proses atau operasi yang dilakukan untuk mengubah data. Hal ini bisa mencakup beberapa hal berikut ini.
- Standardisasi data
- Pengurutan data
- Deduplikasi Data
- Validasi
- Verifikasi.
Sumber data terkadang tidak bisa dianalisis. Oleh karena itu, butuh proses transformation untuk memungkinkan diadakannya analisis.
4. Processing
Pemrosesan data terdiri dari dua model berbeda. Pertama ada stream processing di mana data diperoleh, dimanipulasi, serta dimuat sesegera mungkin setelah dibuat.
Sedangkan model yang kedua adalah batch processing. Pada model ini, data dikumpulkan secara berkala, baru kemudian dikirimkan ke sistem yang menjadi tujuannya.
5. Workflow
Dalam work flow terlibat manajemen ketergantungan terhadap proses dan sequencing. Ketergantungan di sini bisa berorientasi pada bisnis maupun teknis.
Contoh ketergantungan bisnis adalah saat data perlu diverifikasi silang dari sumber satu dengan lainnya untuk menjaga data tetap akurat sebelum dikonsolidasi.
Sedangkan ketergantungan teknis contohnya ketika data telah diasimilasi dari sumbernya, kemudian dimasukkan ke dalam antrean terpusat, sebelum akhirnya dilakukan validasi lebih lanjut untuk dikirim ke titik tujuan.
6. Monitoring
Komponen yang terakhir adalah monitoring yang bertujuan untuk memeriksa kinerja data pipeline dan stagesnya.
Monitoring perlu kamu lakukan untuk memahami apakah datanya tetap akurat, efisien, dan konsisten ketika bebannya bertambah dalam proses pemrosesan. Monitoring juga dilakukan untuk memeriksa apakah ada data yang hilang atau tidak.
Jenis Data Pipe Line
Data pipe line terbagi menjadi beberapa jenis. Pengelompokan ini berdasarkan jumlah modifikasi yang dilakukan terhadap data tersebut. Berikut ini detail tentang jenis data pipe line.
1. Raw Data
Raw data atau data mentah merupakan sebutan untuk pelacakan data tanpa tahap pemrosesan apa pun. Jenis data ini umumnya disimpan dalam format encoding dan dimanfaatkan untuk mengirimkan tracking event. Contohnya ada JSON.
Belum ada skema yang diterapkan untuk raw data. Biasanya, seluruh tracking event akan dikirim dalam bentuk raw data. Pasalnya, event bisa dikirim ke single end point serta skema khusus bisa diimplementasikan dalam pipeline nantinya.
2. Processed Data
Processed data merupakan raw data yang sudah diterjemahkan menjadi format event khusus dengan menerapkan skema tertentu.
Contoh dari processed data adalah JSSON tracking events yang diterjemahkan menjadi session start event menggunakan skema yang pasti. Dengan begitu, bisa dianggap bahwa data telah melalui langkah pemrosesan.
Event yang sudah diproses tersebut akan disimpan pada sebuah tabel event atau tujuan berbeda dalam data pipe line.
3. Cooked Data
Jenis data yang terakhir adalah cooked data. Berupa processed data yang sudah diringkas atau dikumpulkan.
Contohnya yaitu daya yang sudah diproses meliputi session start dan session end event sebagai input dalam cooked data yang meringkas aktivitas harian user. Seperti total waktu dan jumlah sesi yang dihabiskan user saat mengunjungi satu laman web.
Data pipeline dibutuhkan perusahaan untuk meningkatkan keamanan data. Selain itu, juga berguna untuk kebutuhan integrasi data serta meningkatkan business intelligence dan analytic.
Baca Juga: Intip Cara Mempelajari Phyton Data Science dengan Mudah
Binar Academy - Saat ini, data menjadi salah satu elemen paling penting dalam sebuah perusahaan. Untuk mendukung integrasi data dibutuhkan data pipeline. Tujuannya adalah meningkatkan daya saing perusahaan dan mempermudah dalam pengambilan keputusan bisnis.
Tapi apa yang dimaksud dengan data pipeline? Supaya kamu mengerti dan tidak bertanya-tanya lagi, sebaiknya simak penjelasan tentang data pipe line yang akan disampaikan di bawah ini.
Apa Itu Data Pipeline?
Pipe line digunakan untuk membawa sumber daya yang besar dari satu lokasi ke lokasi lain yang jaraknya berjauhan dengan lebih efisien. Biasanya, pipe line dipakai untuk distribusi gas alam dan minyak.
Istilah pipe line dalam konteks data sangat mirip dengan penjelasan di atas. Data pipe line bisa didefinisikan sebagai langkah atau urutan pemrosesan data yang dilakukan menggunakan software khusus.
Pipeline akan membantu menentukan apa, bagaimana, dan di mana data-data akan dikumpulkan. Proses ekstraksi, transformasi, validasi, dan kombinasi data dilakukan secara otomatis menggunakan pipe line. Nantinya akan dilakukan visualisasi dan analisis lebih lanjut.
Kesalahan dan hambatan atau latensi dari ujung satu ke ujung lainnya akan dihilangkan oleh pipeline sehingga mampu memberikan kecepatan maksimal saat memindahkan data.
Baca Juga: IoT Adalah Internet of Things, Simak Penjelasan Selengkapnya
Arsitektur Data Pipe Line
Ada beberapa komponen yang terdapat pada arsitektur data pipe line. Setidaknya ada 6 komponen berikut ini.
1. Source
Source atau sumber data terdiri atas relational database serta data yang berasal dari aplikasi SAAS. Umumnya, pipeline akan mengolah raw data menggunakan mekanisme push, API call, maupun webhook. Sumber data tersebut disinkronisasi pada interval terjadwal atau secara realtime.
2. Destination
Destination dalam bahasa Indonesia bermakna tujuan yang menjadi muara bagi data dari pipeline. Ada berbagai bentuk destination yang dikenal saat ini. Contohnya antara lain data warehouse, data mart, dan data lake yang berbasis cloud.
Tidak menutup kemungkinan data yang melewati pipe line diarahkan ke destination seperti aplikasi BI atau analitik.
3. Transformation
Transformation merupakan proses atau operasi yang dilakukan untuk mengubah data. Hal ini bisa mencakup beberapa hal berikut ini.
- Standardisasi data
- Pengurutan data
- Deduplikasi Data
- Validasi
- Verifikasi.
Sumber data terkadang tidak bisa dianalisis. Oleh karena itu, butuh proses transformation untuk memungkinkan diadakannya analisis.
4. Processing
Pemrosesan data terdiri dari dua model berbeda. Pertama ada stream processing di mana data diperoleh, dimanipulasi, serta dimuat sesegera mungkin setelah dibuat.
Sedangkan model yang kedua adalah batch processing. Pada model ini, data dikumpulkan secara berkala, baru kemudian dikirimkan ke sistem yang menjadi tujuannya.
5. Workflow
Dalam work flow terlibat manajemen ketergantungan terhadap proses dan sequencing. Ketergantungan di sini bisa berorientasi pada bisnis maupun teknis.
Contoh ketergantungan bisnis adalah saat data perlu diverifikasi silang dari sumber satu dengan lainnya untuk menjaga data tetap akurat sebelum dikonsolidasi.
Sedangkan ketergantungan teknis contohnya ketika data telah diasimilasi dari sumbernya, kemudian dimasukkan ke dalam antrean terpusat, sebelum akhirnya dilakukan validasi lebih lanjut untuk dikirim ke titik tujuan.
6. Monitoring
Komponen yang terakhir adalah monitoring yang bertujuan untuk memeriksa kinerja data pipeline dan stagesnya.
Monitoring perlu kamu lakukan untuk memahami apakah datanya tetap akurat, efisien, dan konsisten ketika bebannya bertambah dalam proses pemrosesan. Monitoring juga dilakukan untuk memeriksa apakah ada data yang hilang atau tidak.
Jenis Data Pipe Line
Data pipe line terbagi menjadi beberapa jenis. Pengelompokan ini berdasarkan jumlah modifikasi yang dilakukan terhadap data tersebut. Berikut ini detail tentang jenis data pipe line.
1. Raw Data
Raw data atau data mentah merupakan sebutan untuk pelacakan data tanpa tahap pemrosesan apa pun. Jenis data ini umumnya disimpan dalam format encoding dan dimanfaatkan untuk mengirimkan tracking event. Contohnya ada JSON.
Belum ada skema yang diterapkan untuk raw data. Biasanya, seluruh tracking event akan dikirim dalam bentuk raw data. Pasalnya, event bisa dikirim ke single end point serta skema khusus bisa diimplementasikan dalam pipeline nantinya.
2. Processed Data
Processed data merupakan raw data yang sudah diterjemahkan menjadi format event khusus dengan menerapkan skema tertentu.
Contoh dari processed data adalah JSSON tracking events yang diterjemahkan menjadi session start event menggunakan skema yang pasti. Dengan begitu, bisa dianggap bahwa data telah melalui langkah pemrosesan.
Event yang sudah diproses tersebut akan disimpan pada sebuah tabel event atau tujuan berbeda dalam data pipe line.
3. Cooked Data
Jenis data yang terakhir adalah cooked data. Berupa processed data yang sudah diringkas atau dikumpulkan.
Contohnya yaitu daya yang sudah diproses meliputi session start dan session end event sebagai input dalam cooked data yang meringkas aktivitas harian user. Seperti total waktu dan jumlah sesi yang dihabiskan user saat mengunjungi satu laman web.
Data pipeline dibutuhkan perusahaan untuk meningkatkan keamanan data. Selain itu, juga berguna untuk kebutuhan integrasi data serta meningkatkan business intelligence dan analytic.