Mohon tunggu...
Jaka Bonar
Jaka Bonar Mohon Tunggu... Desainer - pakar bigdata analitik

pakar bigdata analitik

Selanjutnya

Tutup

Inovasi

Perbedaan Antara Data Warehouse dan Data Lake

20 September 2018   16:04 Diperbarui: 20 September 2018   16:05 7120
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.

Selama pengembangan data warehouse, cukup banyak waktu yang dihabiskan untuk menganalisa sumber-sumber data, memahami proses bisnis, dan data profiling. Hasilnya merupakan model data sangat terstruktur yang didesain untuk pelaporan. Bagian besar dari proses tersebut termasuk membuat keputusan tentang data apa yang dimasukkan dan yang tidak dimasukkan ke dalam warehouse. Umumnya, jika data tidak digunakan untuk menjawab pertanyaan-pertanyaan yang spesifik atau tidak dalam laporan yang didefinisikan, mungkin saja data itu tidak dimasukkan ke dalam warehouse. Hal ini biasanya dilakukan untuk menyederhanakan model data dan juga menghemat ruang pada disk penyimpanan mahal yang juga digunakan sebagai peningkat kinerja data warehouse.

Sebaliknya, data lake mempertahankan semua data. Tidak hanya data yang digunakan hari ini tetapi data yang mungkin sewaktu-waktu digunakan atau bahkan data yang kemungkinan tidak akan pernah digunakan sama sekali karena mungkin data itu akan digunakan pada satu keadaan tertentu. Data juga disimpan sepanjang waktu sehingga jika ada analisis yang harus dilakukan pada satu waktu, hal itu dapat dilakukan.

Pendekatan ini memungkinkan karena piranti keras untuk data lake biasanya sangat berbeda dari apa yang digunakan untuk data warehouse. Komoditas, server tanpa rak dikombinasikan dengan media penyimpanan murah membuat penskalaan data lake ke terabytes dan petabytes relatif ekonomis.

2. Data Lake Men-support Segala Jenis Data

Data warehouse secara umum terdiri dari data yang diekstrak dari sistem transaksional dan terdiri dari matriks kuantitatif serta sifat-sifat yang mendeskripsikan mereka. Sumber data non-tradisional seperti log web server, data sensor, aktivitas jaringan sosial, teks dan gambar biasanya diabaikan. Penggunaan untuk tipe-tipe data seperti ini terus ditemukan tetapi cukup sulit untuk mengonsumsi dan menyimpan data-data ini, dan juga membutuhkan biaya yang mahal.

Pendekatan data lake mencakup tipe-tipe data non-tradisional seperti ini. Dalam data lake, perusahaan dapat menyimpan semua data dari manapun sumbernya dan bagaimanapun strukturnya. Perusahaan menyimpannya dalam bentuk data mentah dan hanya diubah saat data tersebut siap untuk digunakan. Pendekatan ini diketahui sebagai "Schema on Read" yang padanannya adalah "Schema on Write" yang digunakan pada data warehouse.

3. Data Lake Mendukung Semua Pengguna

Di kebanyakkan perusahaan, 80 persen atau lebih pengguna merupakan "operasional". Mereka ingin mendapatkan laporan mereka, melihat matriks kinerja mereka atau membagi data set yang sama di spreadsheet setiap harinya. Data warehouse biasanya cocok untuk para pengguna ini karena memiliki sifat mudah digunakan dan dipahami, terstruktur dengan baik, serta dibangun dengan tujuan khusus untuk menjawab pertanyaan mereka.

Sisa 10 persen atau lebih perusahaan lainnya, melakukan lebih banyak analisis pada data. Mereka menggunakan data warehouse sebagai sumber namun seringkali kembali pada source system untuk medapatkan data yang tidak dimasukkan dalam warehouse dan terkadang membawa data dari luar perusahaan. Alat favorit mereka adalah spreadsheet dan mereka membuat laporan-laporan baru yang didistribusikan ke seluruh perusahaan. Data warehouse merupakan sumber mereka untuk data tetapi mereka sering melewati batasannya.

Pada akhirnya, sisa beberapa persen terakhir dari pengguna melakukan analisis mendalam. Mereka mungkin menciptakan data yang benar-benar baru dan memiliki seluruh pertanyaan-pertanyaan baru untuk dijawab. Para pengguna ini termasuk Data Scientist dan mereka menggunakan alat analitik tingkat lanjut yang memiliki kapabilitas seperti analisis statistik dan model prediktif.

Pendekatan data lake mendukung semua pengguna ini dengan sama baiknya. Data scientist dapat menggunakan data lake dan bekerja dengan data set yang sangat besar dan beragam yang dibutuhkan sementara pengguna lainnya juga bisa menggunakan pandangan yang lebih terstruktur dari data yang tersedia untuk mereka manfaatkan.

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
Mohon tunggu...

Lihat Konten Inovasi Selengkapnya
Lihat Inovasi Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun