Catatan ini merangkum evolusi teknologi Big Data, dari era awal Hadoop hingga arsitektur Modern Data Lake di cloud, diorganisir untuk kemudahan navigasi dan pemahaman.
1. Fondasi Big Data: Jejak Raksasa Google 👣
Ekosistem Big Data generasi pertama lahir dari tiga paper fundamental yang dirilis oleh Google untuk mengatasi skala data mereka.
• Google File System (GFS)
◦ Konsep: Sistem file terdistribusi yang fault-tolerant untuk data masif di atas hardware komoditas.
◦ Diadopsi menjadi: Hadoop Distributed File System (HDFS), menjadi fondasi penyimpanan untuk Hadoop.
• Google MapReduce
◦ Konsep: Model pemrograman untuk pemrosesan data paralel terdistribusi (fase Map dan Reduce).
◦ Diadopsi menjadi: Hadoop MapReduce, menjadi kerangka kerja komputasi inti di Hadoop.
• Google Bigtable
◦ Konsep: Database NoSQL terdistribusi, berskala petabyte, untuk data terstruktur.
◦ Diadopsi menjadi: HBase, database NoSQL yang berjalan di atas HDFS.Intinya: Ekosistem Hadoop adalah implementasi open-source dari arsitektur Big Data yang dipelopori oleh Google.
2. Dua Era Data Lake: Perbandingan Arsitektur 🏛️ vs ☁️
Era 1: Data Lake Tradisional (Ekosistem Hadoop)
Arsitektur ini dicirikan oleh penggabungan erat antara penyimpanan dan komputasi (coupled storage and compute).
Komponen Utama
• Penyimpanan (Storage)
◦ HDFS: Sistem file terdistribusi tunggal untuk semua data.
• Ingesti Data (Ingestion)
◦ Sqoop: Ingesti batch dari database relasional.
◦ Flume: Ingesti streaming dari sumber data seperti log.
• Pemrosesan Data (Processing)
◦ MapReduce: Pemrosesan batch berbasis disk.
◦ Hive: Abstraksi SQL di atas MapReduce.
◦ HBase: Database NoSQL untuk akses acak (random access).
• Orkestrasi (Orchestration)
◦ Oozie: Penjadwal alur kerja spesifik untuk Hadoop.
Tantangan & Keterbatasan
• 🤯 Kompleksitas: Sangat rumit untuk diatur dan dikelola.
• 💰 Biaya Tinggi: Membutuhkan investasi besar untuk hardware dan pemeliharaan cluster fisik.
• ⛓️ Tidak Fleksibel: Skala penyimpanan dan komputasi harus dilakukan bersamaan.
• 🐌 Performa Lambat: MapReduce berbasis disk, lambat untuk query interaktif.
• ⏳ Siklus Pengembangan Lambat: Proses development dan deployment yang kaku.
Era 2: Data Lake Modern (Arsitektur Cloud)
Arsitektur ini merevolusi Big Data dengan memisahkan penyimpanan dari komputasi (decoupled storage and compute), memanfaatkan layanan cloud yang terkelola.
Komponen Utama
• Penyimpanan (Storage)
◦ Object Storage (S3, GCS, Blob Storage): Fondasi penyimpanan yang sangat skalabel, tahan lama, dan hemat biaya.
• Ingesti Data (Ingestion)
◦ Layanan Terkelola (Managed Services): Layanan fleksibel untuk ingesti batch (AWS Glue, Azure Data Factory) dan streaming (AWS Kinesis, Google Pub/Sub).
• Pemrosesan Data (Processing)
◦ Distributed Computing (Spark): Pemrosesan in-memory yang jauh lebih cepat dari MapReduce.
◦ SQL Query Engine (Athena, BigQuery): Layanan serverless untuk menjalankan query SQL langsung pada data di object storage.
◦ NoSQL (DynamoDB, Firestore): Database NoSQL yang dikelola sepenuhnya.
• Orkestrasi (Orchestration)
◦ Layanan Terkelola (Step Functions, Airflow): Orkestrator alur kerja yang lebih modern dan fleksibel.
Keuntungan & Kelebihan
• ✨ Fleksibilitas: Skalakan penyimpanan dan komputasi secara independen sesuai kebutuhan.
• 💸 Hemat Biaya: Bayar sesuai pemakaian (pay-as-you-go) dan manfaatkan biaya penyimpanan objek yang murah.
• 🧘 Tanpa Server & Stateless: Fokus pada logika bisnis, bukan manajemen server.
• 🔧 Pemeliharaan Mudah: Cloud provider mengelola infrastruktur dasarnya.
• ⚡ Siklus Pengembangan Cepat: Cepat dalam membuat prototipe dan men-deploy pipeline data.
• 🚄 Performa Tinggi: Manfaatkan kekuatan pemrosesan in-memory dan layanan query yang dioptimalkan.
Platform Cloud Utama untuk Data Lake Modern:
• AWS (Amazon Web Services)
• Azure (Microsoft Azure)
• GCP (Google Cloud Platform)