Mohon tunggu...
Jaka Bonar
Jaka Bonar Mohon Tunggu... Desainer - pakar bigdata analitik

pakar bigdata analitik

Selanjutnya

Tutup

Inovasi

Perbedaan Antara Data Warehouse dan Data Lake

20 September 2018   16:04 Diperbarui: 20 September 2018   16:05 7120
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.

Menurut Google, Big Data telah beken selama beberapa tahun terakhir dan benar-benar populer dalam dua tahun terakhir. Tetapi, masih banyak pihak yang keliru akan pengertian tentang data lake dan data warehouse. Padahal hal ini penting agar perusahaan bisa mengambil keputusan yang tepat dalam pengelolaan data.

Data Warehouse

Wikipedia mendefinisikan Data warehouse sebagai:

 "...pusat repositori data terintegrasi dari satu atau lebih sumber yang berbeda. Mereka menyimpan data terkini dan historis dan menggunakannya untuk menciptakan laporan yang sedang tren untuk perbandingan tahunan dan triwulan serta pelaporan-pelaporan manajemen senior lainnya."

Ini merupakan definisi rumit yang mendeskripsikan tujuan dari data warehouse namun tidak menjelaskan bagaimana tujuan tersebut bisa tercapai.

Selain itu data warehouse juga memiliki sifat-sifat seperti di bawah ini:

  • Data warehouse merepresentasikan gambaran abstrak bisnis yang diatur
  • Data warehouse sangat terstruktur dan transformatif.
  • Data tidak dimuat ke dalam data warehouse sampai penggunaannya didefinisikan
  • Biasanya data warehouse mengikuti metodologi seperti yang ditentukan oleh Ralph Kimball dan Bill Inmon.

Data Lake

Istilah data lake secara umum telah dicetuskan oleh CTO Pentaho James Dixon. Dia mendeskripsikan data mart (subset dari data warehouse) seperti sebotol air, "bersih, terkemas, serta terstruktur untuk konsumsi yang mudah" sementara data lake lebih menyerupai air dalam keadaan alaminya. Data mengalir dari sungai (sistem sumber) hingga ke danau. Pengguna memiliki akses ke danau untuk memeriksa, mengambil sampel atau bahkan menyelam ke dalamnya.

Walaupun cukup menjawab, tetapi definisi di atas tetap dianggap tidak terlalu akurat. Maka dari itu, ada beberapa sifat spesifik lain tentang data lake:

  • Semua data dimuat dari sistem sumber. Tidak ada data yang ditolak.
  • Data disimpan dalam bentuk yang tidak diubah atau hampir tidak berubah.
  • Data ditransformasikan dan skemanya diaplikasikan untuk memenuhi kebutuhan analisis

Berikutnya, ada setidaknya lima perbedaan kunci antara data lake dan pendekatan data warehouse.

1. Data Lake Mempertahankan Semua Data

Selama pengembangan data warehouse, cukup banyak waktu yang dihabiskan untuk menganalisa sumber-sumber data, memahami proses bisnis, dan data profiling. Hasilnya merupakan model data sangat terstruktur yang didesain untuk pelaporan. Bagian besar dari proses tersebut termasuk membuat keputusan tentang data apa yang dimasukkan dan yang tidak dimasukkan ke dalam warehouse. Umumnya, jika data tidak digunakan untuk menjawab pertanyaan-pertanyaan yang spesifik atau tidak dalam laporan yang didefinisikan, mungkin saja data itu tidak dimasukkan ke dalam warehouse. Hal ini biasanya dilakukan untuk menyederhanakan model data dan juga menghemat ruang pada disk penyimpanan mahal yang juga digunakan sebagai peningkat kinerja data warehouse.

Sebaliknya, data lake mempertahankan semua data. Tidak hanya data yang digunakan hari ini tetapi data yang mungkin sewaktu-waktu digunakan atau bahkan data yang kemungkinan tidak akan pernah digunakan sama sekali karena mungkin data itu akan digunakan pada satu keadaan tertentu. Data juga disimpan sepanjang waktu sehingga jika ada analisis yang harus dilakukan pada satu waktu, hal itu dapat dilakukan.

Pendekatan ini memungkinkan karena piranti keras untuk data lake biasanya sangat berbeda dari apa yang digunakan untuk data warehouse. Komoditas, server tanpa rak dikombinasikan dengan media penyimpanan murah membuat penskalaan data lake ke terabytes dan petabytes relatif ekonomis.

2. Data Lake Men-support Segala Jenis Data

Data warehouse secara umum terdiri dari data yang diekstrak dari sistem transaksional dan terdiri dari matriks kuantitatif serta sifat-sifat yang mendeskripsikan mereka. Sumber data non-tradisional seperti log web server, data sensor, aktivitas jaringan sosial, teks dan gambar biasanya diabaikan. Penggunaan untuk tipe-tipe data seperti ini terus ditemukan tetapi cukup sulit untuk mengonsumsi dan menyimpan data-data ini, dan juga membutuhkan biaya yang mahal.

Pendekatan data lake mencakup tipe-tipe data non-tradisional seperti ini. Dalam data lake, perusahaan dapat menyimpan semua data dari manapun sumbernya dan bagaimanapun strukturnya. Perusahaan menyimpannya dalam bentuk data mentah dan hanya diubah saat data tersebut siap untuk digunakan. Pendekatan ini diketahui sebagai "Schema on Read" yang padanannya adalah "Schema on Write" yang digunakan pada data warehouse.

3. Data Lake Mendukung Semua Pengguna

Di kebanyakkan perusahaan, 80 persen atau lebih pengguna merupakan "operasional". Mereka ingin mendapatkan laporan mereka, melihat matriks kinerja mereka atau membagi data set yang sama di spreadsheet setiap harinya. Data warehouse biasanya cocok untuk para pengguna ini karena memiliki sifat mudah digunakan dan dipahami, terstruktur dengan baik, serta dibangun dengan tujuan khusus untuk menjawab pertanyaan mereka.

Sisa 10 persen atau lebih perusahaan lainnya, melakukan lebih banyak analisis pada data. Mereka menggunakan data warehouse sebagai sumber namun seringkali kembali pada source system untuk medapatkan data yang tidak dimasukkan dalam warehouse dan terkadang membawa data dari luar perusahaan. Alat favorit mereka adalah spreadsheet dan mereka membuat laporan-laporan baru yang didistribusikan ke seluruh perusahaan. Data warehouse merupakan sumber mereka untuk data tetapi mereka sering melewati batasannya.

Pada akhirnya, sisa beberapa persen terakhir dari pengguna melakukan analisis mendalam. Mereka mungkin menciptakan data yang benar-benar baru dan memiliki seluruh pertanyaan-pertanyaan baru untuk dijawab. Para pengguna ini termasuk Data Scientist dan mereka menggunakan alat analitik tingkat lanjut yang memiliki kapabilitas seperti analisis statistik dan model prediktif.

Pendekatan data lake mendukung semua pengguna ini dengan sama baiknya. Data scientist dapat menggunakan data lake dan bekerja dengan data set yang sangat besar dan beragam yang dibutuhkan sementara pengguna lainnya juga bisa menggunakan pandangan yang lebih terstruktur dari data yang tersedia untuk mereka manfaatkan.

4. Data Lake Beradaptasi dengan Mudah pada Perubahan

Salah satu keluhan tentang data warehouse yang sering beredar adalah berapa lama waktu yang dibutuhkan untuk mengubahnya. Waktu yang cukup banyak dihabiskan pada awal-awal pengembangan hanya untuk membuat struktur warehouse yang benar. Desain warehouse yang baik dapat beradaptasi dengan perubahan tetapi karena kompleksitas proses memuat data dan hal yang harus dilakukan untuk membuat analisis serta pelaporan lebih mudah, perubahan-perubahan ini akan menghabiskan sumber daya yang dimiliki developer dan juga menyita cukup banyak waktu.

Banyak pertanyaan mengenai bisnis tidak dapat menunggu tim data warehouse untuk menyesuaikan sistem mereka untuk menjawabnya. Meningkatnya kebutuhan untuk jawaban yang lebih cepat adalah sebab mengapa konsep business intelligence self-service muncul.

Di sisi lain, dalam data lake, dikarenakan semua data disimpan dalam bentuk mentah dan selalu dapat diakses untuk seseorang yang memerlukannya, para pengguna diberdayakan untuk mengeksplor data melewati struktur dari warehouse untuk menjawab pertanyaan-pertanyaan yang ada.

Jika hasil dari eksplorasi terbukti bermanfaat dan memunculkan niat untuk mengulanginya, maka skema yang lebih formal dapat diaplikasikan dan otomatisasi serta usabilitas dapat dikembangkan untuk membantu emperluas hasil ke khalayak yang lebih luas. Hasil yang terbukti tidak berguna pun dapat dibuang tanpa mengubah struktur data yang telah dibuat dan tidak mengonsumsi sumber daya pengembangan yang ada.

5. Data Lake Menyediakan Wawasan yang Lebih Cepat

Perbedaan terakhir merupakan hasil dari keempat lainnya. Karena data lake mengandung seluruh jenis data, karena data lake memungkinkan pengguna mengakses data tanpa diubah, di-cleansing dan distrukturisasi, data lake memungkinkan pengguna untuk mendapatkan hasil analisa lebih cepat daripada pendekekatan data warehouse tradisional.

Walaupun demikian, akses awal pada data yang dilakukan ini memiliki harganya tersendiri. Pekerjaan yang biasanya dilakukan tim pengembangan data warehouse mungkin tidak dilakukan untuk semua sumber data yang diperlukan untuk melakukan analisis. Hal ini menyebabkan pengguna memiliki kendali penuh untuk mengeksplor dan menggunakan data sebagaimana yang mereka inginkan tetapi tidak dengan para petinggi perusahaan yang tetap hanya menginginkan laporan dan KPI.

Dalam data lake, konsumen laporan operasional ini akan memanfaatkan pandangan data yang lebih terstruktur dalam data lake yang mencerminkan apa yang mereka selalu miliki sebelumnya di dalam data warehouse.

Pendekatan?

Merupakan sebuah dilema untuk memilih satu di antara dua teknologi ini. Jika perusahaan telah memiliki data warehouse yang mapan, tidak disarankan untuk membuang semua yang telah dikerjakan dan membangun lagi sedari awal. Meskipun demikian, seperti data warehouse lainnya, kemungkinan terjadinya masalah seperti yang telah dijabarkan di atas tetap ada. Maka dari itu, lebih baik bagi perusahaan untuk mengimplementasikan data lake bersama dengan data warehouse yang sudah ada. Data warehouse dapat terus beroperasi sebagaimana sebelumnya dan secara bersamaan, perusahaan juga mulai mengisi data lake-nya dengan sumber data yang baru. Data lake juga dapat digunakan untuk repositori arsip untuk data dari warehouse yang disediakan untuk para karyawan agar mereka dapat mengakses lebih banyak data dibanding sebelumnya. Seiring bertambah lamanya data warehouse di suatu perusahaan, perlu kiranya dipertimbangkan opsi untuk memindahkannya ke data lake atau mungkin kombinasi antara keduanya.

Teknologi?

Istilah data lake dapat dibilang telah menjadi persamaan dari teknologi big data. Salah satu teknologi big data yang mengadopsi sistem dari data lake adalah Paques. Paques yang merupakan salah satu pelopor big data di Indonesia telah mengaplikasikan penggunaan data lake ke dalam salah satu fitur unggulannya. Dengan adanya fitur ini, Paques dapat mengolah semua jenis data tanpa harus diubah terlebih dahulu sehingga menghemat waktu serta meningkatkan efisiensi.

Teknologi akan terus berkembang, pun begitu dengan teknologi mengenai data. Di manapun, perusahaan akan selalu memiliki pilihan untuk menjadi pioneer penggunaan teknologi, mengikuti tren teknologi, atau tertinggal oleh para pesaing dan pasar yang semakin dinamis, termasuk di Indonesia. Maka dari itu, untuk pemrosesan data yang lebih maksimal dan tetap efisien, mungkin Paques dapat menjadi solusinya.

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
Mohon tunggu...

Lihat Konten Inovasi Selengkapnya
Lihat Inovasi Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun