Menurut Google, Big Data telah beken selama beberapa tahun terakhir dan benar-benar populer dalam dua tahun terakhir. Tetapi, masih banyak pihak yang keliru akan pengertian tentang data lake dan data warehouse. Padahal hal ini penting agar perusahaan bisa mengambil keputusan yang tepat dalam pengelolaan data.
Data Warehouse
Wikipedia mendefinisikan Data warehouse sebagai:
 "...pusat repositori data terintegrasi dari satu atau lebih sumber yang berbeda. Mereka menyimpan data terkini dan historis dan menggunakannya untuk menciptakan laporan yang sedang tren untuk perbandingan tahunan dan triwulan serta pelaporan-pelaporan manajemen senior lainnya."
Ini merupakan definisi rumit yang mendeskripsikan tujuan dari data warehouse namun tidak menjelaskan bagaimana tujuan tersebut bisa tercapai.
Selain itu data warehouse juga memiliki sifat-sifat seperti di bawah ini:
- Data warehouse merepresentasikan gambaran abstrak bisnis yang diatur
- Data warehouse sangat terstruktur dan transformatif.
- Data tidak dimuat ke dalam data warehouse sampai penggunaannya didefinisikan
- Biasanya data warehouse mengikuti metodologi seperti yang ditentukan oleh Ralph Kimball dan Bill Inmon.
Data Lake
Istilah data lake secara umum telah dicetuskan oleh CTO Pentaho James Dixon. Dia mendeskripsikan data mart (subset dari data warehouse) seperti sebotol air, "bersih, terkemas, serta terstruktur untuk konsumsi yang mudah" sementara data lake lebih menyerupai air dalam keadaan alaminya. Data mengalir dari sungai (sistem sumber) hingga ke danau. Pengguna memiliki akses ke danau untuk memeriksa, mengambil sampel atau bahkan menyelam ke dalamnya.
Walaupun cukup menjawab, tetapi definisi di atas tetap dianggap tidak terlalu akurat. Maka dari itu, ada beberapa sifat spesifik lain tentang data lake:
- Semua data dimuat dari sistem sumber. Tidak ada data yang ditolak.
- Data disimpan dalam bentuk yang tidak diubah atau hampir tidak berubah.
- Data ditransformasikan dan skemanya diaplikasikan untuk memenuhi kebutuhan analisis
Berikutnya, ada setidaknya lima perbedaan kunci antara data lake dan pendekatan data warehouse.
1. Data Lake Mempertahankan Semua Data