Digital Insights • Data
Scroll to Read More

Data Pipeline: Pengertian, Proses, dan Jenisnya

Table of Content :

Binar Academy - Saat ini, data menjadi salah satu elemen paling penting dalam sebuah perusahaan. Untuk mendukung integrasi data dibutuhkan data pipeline. Tujuannya adalah meningkatkan daya saing perusahaan dan mempermudah dalam pengambilan keputusan bisnis.

Tapi apa yang dimaksud dengan data pipeline? Supaya kamu mengerti dan tidak bertanya-tanya lagi, sebaiknya simak penjelasan tentang data pipe line yang akan disampaikan di bawah ini.

Apa Itu Data Pipeline?

apa itu data pipeline
Sumber: ClicData

Pipe line digunakan untuk membawa sumber daya yang besar dari satu lokasi ke lokasi lain yang jaraknya berjauhan dengan lebih efisien. Biasanya, pipe line dipakai untuk distribusi gas alam dan minyak. 

Istilah pipe line dalam konteks data sangat mirip dengan penjelasan di atas. Data pipe line bisa didefinisikan sebagai langkah atau urutan pemrosesan data yang dilakukan menggunakan software khusus.

Pipeline akan membantu menentukan apa, bagaimana, dan di mana data-data akan dikumpulkan. Proses ekstraksi, transformasi, validasi, dan kombinasi data dilakukan secara otomatis menggunakan pipe line. Nantinya akan dilakukan visualisasi dan analisis lebih lanjut.

Kesalahan dan hambatan atau latensi dari ujung satu ke ujung lainnya akan dihilangkan oleh pipeline sehingga mampu memberikan kecepatan maksimal saat memindahkan data.

Baca Juga: IoT Adalah Internet of Things, Simak Penjelasan Selengkapnya

Arsitektur Data Pipe Line

arsitektur data pipeline
Sumber: Frost & Sullivan

Ada beberapa komponen yang terdapat pada arsitektur data pipe line. Setidaknya ada 6 komponen berikut ini.

1. Source 

Source atau sumber data terdiri atas relational database serta data yang berasal dari aplikasi SAAS. Umumnya, pipeline akan mengolah raw data menggunakan mekanisme push, API call, maupun webhook. Sumber data tersebut disinkronisasi pada interval terjadwal atau secara realtime.

2. Destination

Destination dalam bahasa Indonesia bermakna tujuan yang menjadi muara bagi data dari pipeline. Ada berbagai bentuk destination yang dikenal saat ini. Contohnya antara lain data warehouse, data mart, dan data lake yang berbasis cloud.

Tidak menutup kemungkinan data yang melewati pipe line diarahkan ke destination seperti aplikasi BI atau analitik.

3. Transformation

Transformation merupakan proses atau operasi yang dilakukan untuk mengubah data. Hal ini bisa mencakup beberapa hal berikut ini.

  • Standardisasi data
  • Pengurutan data
  • Deduplikasi Data
  • Validasi
  • Verifikasi.

Sumber data terkadang tidak bisa dianalisis. Oleh karena itu, butuh proses transformation untuk memungkinkan diadakannya analisis.

4. Processing

Pemrosesan data terdiri dari dua model berbeda. Pertama ada stream processing di mana data diperoleh, dimanipulasi, serta dimuat sesegera mungkin setelah dibuat.

Sedangkan model yang kedua adalah batch processing. Pada model ini, data dikumpulkan secara berkala, baru kemudian dikirimkan ke sistem yang menjadi tujuannya.

5. Workflow

Dalam work flow terlibat manajemen ketergantungan terhadap proses dan sequencing. Ketergantungan di sini bisa berorientasi pada bisnis maupun teknis.

Contoh ketergantungan bisnis adalah saat data perlu diverifikasi silang dari sumber satu dengan lainnya untuk menjaga data tetap akurat sebelum dikonsolidasi.

Sedangkan ketergantungan teknis contohnya ketika data telah diasimilasi dari sumbernya, kemudian dimasukkan ke dalam antrean terpusat, sebelum akhirnya dilakukan validasi lebih lanjut untuk dikirim ke titik tujuan.

6. Monitoring

Komponen yang terakhir adalah monitoring yang bertujuan untuk memeriksa kinerja data pipeline dan stagesnya.

Monitoring perlu kamu lakukan untuk memahami apakah datanya tetap akurat, efisien, dan konsisten ketika bebannya bertambah dalam proses pemrosesan. Monitoring juga dilakukan untuk memeriksa apakah ada data yang hilang atau tidak.

Jenis Data Pipe Line

jenis data pipe line
Sumber: The Atlan Data Wiki

Data pipe line terbagi menjadi beberapa jenis. Pengelompokan ini berdasarkan jumlah modifikasi yang dilakukan terhadap data tersebut. Berikut ini detail tentang jenis data pipe line.

1. Raw Data

Raw data atau data mentah merupakan sebutan untuk pelacakan data tanpa tahap pemrosesan apa pun. Jenis data ini umumnya disimpan dalam format encoding dan dimanfaatkan untuk mengirimkan tracking event. Contohnya ada JSON.

Belum ada skema yang diterapkan untuk raw data. Biasanya, seluruh tracking event akan dikirim dalam bentuk raw data. Pasalnya, event bisa dikirim ke single end point serta skema khusus bisa diimplementasikan dalam pipeline nantinya.

2. Processed Data

Processed data merupakan raw data yang sudah diterjemahkan menjadi format event khusus dengan menerapkan skema tertentu.

Contoh dari processed data adalah JSSON tracking events yang diterjemahkan menjadi session start event menggunakan skema yang pasti. Dengan begitu, bisa dianggap bahwa data telah melalui langkah pemrosesan.

Event yang sudah diproses tersebut akan disimpan pada sebuah tabel event atau tujuan berbeda dalam data pipe line.

3. Cooked Data

Jenis data yang terakhir adalah cooked data. Berupa processed data yang sudah diringkas atau dikumpulkan.

Contohnya yaitu daya yang sudah diproses meliputi session start dan session end event sebagai input dalam cooked data yang meringkas aktivitas harian user. Seperti total waktu dan jumlah sesi yang dihabiskan user saat mengunjungi satu laman web.

Data pipeline dibutuhkan perusahaan untuk meningkatkan keamanan data. Selain itu, juga berguna untuk kebutuhan integrasi data serta meningkatkan business intelligence dan analytic.

Baca Juga: Intip Cara Mempelajari Phyton Data Science dengan Mudah

Binar Academy - Saat ini, data menjadi salah satu elemen paling penting dalam sebuah perusahaan. Untuk mendukung integrasi data dibutuhkan data pipeline. Tujuannya adalah meningkatkan daya saing perusahaan dan mempermudah dalam pengambilan keputusan bisnis.

Tapi apa yang dimaksud dengan data pipeline? Supaya kamu mengerti dan tidak bertanya-tanya lagi, sebaiknya simak penjelasan tentang data pipe line yang akan disampaikan di bawah ini.

Apa Itu Data Pipeline?

apa itu data pipeline
Sumber: ClicData

Pipe line digunakan untuk membawa sumber daya yang besar dari satu lokasi ke lokasi lain yang jaraknya berjauhan dengan lebih efisien. Biasanya, pipe line dipakai untuk distribusi gas alam dan minyak. 

Istilah pipe line dalam konteks data sangat mirip dengan penjelasan di atas. Data pipe line bisa didefinisikan sebagai langkah atau urutan pemrosesan data yang dilakukan menggunakan software khusus.

Pipeline akan membantu menentukan apa, bagaimana, dan di mana data-data akan dikumpulkan. Proses ekstraksi, transformasi, validasi, dan kombinasi data dilakukan secara otomatis menggunakan pipe line. Nantinya akan dilakukan visualisasi dan analisis lebih lanjut.

Kesalahan dan hambatan atau latensi dari ujung satu ke ujung lainnya akan dihilangkan oleh pipeline sehingga mampu memberikan kecepatan maksimal saat memindahkan data.

Baca Juga: IoT Adalah Internet of Things, Simak Penjelasan Selengkapnya

Arsitektur Data Pipe Line

arsitektur data pipeline
Sumber: Frost & Sullivan

Ada beberapa komponen yang terdapat pada arsitektur data pipe line. Setidaknya ada 6 komponen berikut ini.

1. Source 

Source atau sumber data terdiri atas relational database serta data yang berasal dari aplikasi SAAS. Umumnya, pipeline akan mengolah raw data menggunakan mekanisme push, API call, maupun webhook. Sumber data tersebut disinkronisasi pada interval terjadwal atau secara realtime.

2. Destination

Destination dalam bahasa Indonesia bermakna tujuan yang menjadi muara bagi data dari pipeline. Ada berbagai bentuk destination yang dikenal saat ini. Contohnya antara lain data warehouse, data mart, dan data lake yang berbasis cloud.

Tidak menutup kemungkinan data yang melewati pipe line diarahkan ke destination seperti aplikasi BI atau analitik.

3. Transformation

Transformation merupakan proses atau operasi yang dilakukan untuk mengubah data. Hal ini bisa mencakup beberapa hal berikut ini.

  • Standardisasi data
  • Pengurutan data
  • Deduplikasi Data
  • Validasi
  • Verifikasi.

Sumber data terkadang tidak bisa dianalisis. Oleh karena itu, butuh proses transformation untuk memungkinkan diadakannya analisis.

4. Processing

Pemrosesan data terdiri dari dua model berbeda. Pertama ada stream processing di mana data diperoleh, dimanipulasi, serta dimuat sesegera mungkin setelah dibuat.

Sedangkan model yang kedua adalah batch processing. Pada model ini, data dikumpulkan secara berkala, baru kemudian dikirimkan ke sistem yang menjadi tujuannya.

5. Workflow

Dalam work flow terlibat manajemen ketergantungan terhadap proses dan sequencing. Ketergantungan di sini bisa berorientasi pada bisnis maupun teknis.

Contoh ketergantungan bisnis adalah saat data perlu diverifikasi silang dari sumber satu dengan lainnya untuk menjaga data tetap akurat sebelum dikonsolidasi.

Sedangkan ketergantungan teknis contohnya ketika data telah diasimilasi dari sumbernya, kemudian dimasukkan ke dalam antrean terpusat, sebelum akhirnya dilakukan validasi lebih lanjut untuk dikirim ke titik tujuan.

6. Monitoring

Komponen yang terakhir adalah monitoring yang bertujuan untuk memeriksa kinerja data pipeline dan stagesnya.

Monitoring perlu kamu lakukan untuk memahami apakah datanya tetap akurat, efisien, dan konsisten ketika bebannya bertambah dalam proses pemrosesan. Monitoring juga dilakukan untuk memeriksa apakah ada data yang hilang atau tidak.

Jenis Data Pipe Line

jenis data pipe line
Sumber: The Atlan Data Wiki

Data pipe line terbagi menjadi beberapa jenis. Pengelompokan ini berdasarkan jumlah modifikasi yang dilakukan terhadap data tersebut. Berikut ini detail tentang jenis data pipe line.

1. Raw Data

Raw data atau data mentah merupakan sebutan untuk pelacakan data tanpa tahap pemrosesan apa pun. Jenis data ini umumnya disimpan dalam format encoding dan dimanfaatkan untuk mengirimkan tracking event. Contohnya ada JSON.

Belum ada skema yang diterapkan untuk raw data. Biasanya, seluruh tracking event akan dikirim dalam bentuk raw data. Pasalnya, event bisa dikirim ke single end point serta skema khusus bisa diimplementasikan dalam pipeline nantinya.

2. Processed Data

Processed data merupakan raw data yang sudah diterjemahkan menjadi format event khusus dengan menerapkan skema tertentu.

Contoh dari processed data adalah JSSON tracking events yang diterjemahkan menjadi session start event menggunakan skema yang pasti. Dengan begitu, bisa dianggap bahwa data telah melalui langkah pemrosesan.

Event yang sudah diproses tersebut akan disimpan pada sebuah tabel event atau tujuan berbeda dalam data pipe line.

3. Cooked Data

Jenis data yang terakhir adalah cooked data. Berupa processed data yang sudah diringkas atau dikumpulkan.

Contohnya yaitu daya yang sudah diproses meliputi session start dan session end event sebagai input dalam cooked data yang meringkas aktivitas harian user. Seperti total waktu dan jumlah sesi yang dihabiskan user saat mengunjungi satu laman web.

Data pipeline dibutuhkan perusahaan untuk meningkatkan keamanan data. Selain itu, juga berguna untuk kebutuhan integrasi data serta meningkatkan business intelligence dan analytic.

Baca Juga: Intip Cara Mempelajari Phyton Data Science dengan Mudah

Find Another article

Table of Content

Connect With Us Here

Our representative team will contact you soon
BINAR Contribution to SDG’s Impact
Promenade 20, Unit L, Jl. Bangka Raya No.20,

Kec. Mampang Prapatan,
Daerah Khusus Ibukota Jakarta 12720
021 397 11642
Promenade 20, Unit L, Jl. Bangka Raya No.20,

Kec. Mampang Prapatan,
Daerah Khusus Ibukota Jakarta 12720
021 397 11642
© 2016 - 2024, PT. Lentera Bangsa Benderang
Follow us in Social Media
Hi! 👋🏼  
Kamu bisa konsultasi kebutuhanmu di BINAR via WhatsApp ya