Resume: Evolusi Big Data & Data Lakes 🚀

Catatan ini merangkum evolusi teknologi Big Data, dari era awal Hadoop hingga arsitektur Modern Data Lake di cloud, diorganisir untuk kemudahan navigasi dan pemahaman. 1. Fondasi Big Data: Jejak Raksasa Google 👣 Ekosistem Big Data generasi pertama lahir dari tiga paper fundamental yang dirilis oleh Google untuk mengatasi skala data mereka. • Google File System (GFS) ◦ Konsep: Sistem file terdistribusi yang fault-tolerant untuk data masif di atas hardware komoditas. ◦ Diadopsi menjadi: Hadoop Distributed File System (HDFS), menjadi fondasi penyimpanan untuk Hadoop. • Google MapReduce ◦ Konsep: Model pemrograman untuk pemrosesan data paralel terdistribusi (fase Map dan Reduce). ◦ Diadopsi menjadi: Hadoop MapReduce, menjadi kerangka kerja komputasi inti di Hadoop. • Google Bigtable ◦ Konsep: Database NoSQL terdistribusi, berskala petabyte, untuk data terstruktur. ◦ Diadopsi menjadi: HBase, database NoSQL yang berjalan di atas HDFS.Intinya: Ekosistem Hadoop adalah implementasi open-source dari arsitektur Big Data yang dipelopori oleh Google. 2. Dua Era Data Lake: Perbandingan Arsitektur 🏛️ vs ☁️ Era 1: Data Lake Tradisional (Ekosistem Hadoop) Arsitektur ini dicirikan oleh penggabungan erat antara penyimpanan dan komputasi (coupled storage and compute). Komponen Utama • Penyimpanan (Storage) ◦ HDFS: Sistem file terdistribusi tunggal untuk semua data. • Ingesti Data (Ingestion) ◦ Sqoop: Ingesti batch dari database relasional. ◦ Flume: Ingesti streaming dari sumber data seperti log. • Pemrosesan Data (Processing) ◦ MapReduce: Pemrosesan batch berbasis disk. ◦ Hive: Abstraksi SQL di atas MapReduce. ◦ HBase: Database NoSQL untuk akses acak (random access). • Orkestrasi (Orchestration) ◦ Oozie: Penjadwal alur kerja spesifik untuk Hadoop. Tantangan & Keterbatasan • 🤯 Kompleksitas: Sangat rumit untuk diatur dan dikelola. • 💰 Biaya Tinggi: Membutuhkan investasi besar untuk hardware dan pemeliharaan cluster fisik. • ⛓️ Tidak Fleksibel: Skala penyimpanan dan komputasi harus dilakukan bersamaan. • 🐌 Performa Lambat: MapReduce berbasis disk, lambat untuk query interaktif. • ⏳ Siklus Pengembangan Lambat: Proses development dan deployment yang kaku. Era 2: Data Lake Modern (Arsitektur Cloud) Arsitektur ini merevolusi Big Data dengan memisahkan penyimpanan dari komputasi (decoupled storage and compute), memanfaatkan layanan cloud yang terkelola. Komponen Utama • Penyimpanan (Storage) ◦ Object Storage (S3, GCS, Blob Storage): Fondasi penyimpanan yang sangat skalabel, tahan lama, dan hemat biaya. • Ingesti Data (Ingestion) ◦ Layanan Terkelola (Managed Services): Layanan fleksibel untuk ingesti batch (AWS Glue, Azure Data Factory) dan streaming (AWS Kinesis, Google Pub/Sub). • Pemrosesan Data (Processing) ◦ Distributed Computing (Spark): Pemrosesan in-memory yang jauh lebih cepat dari MapReduce. ◦ SQL Query Engine (Athena, BigQuery): Layanan serverless untuk menjalankan query SQL langsung pada data di object storage. ◦ NoSQL (DynamoDB, Firestore): Database NoSQL yang dikelola sepenuhnya. • Orkestrasi (Orchestration) ◦ Layanan Terkelola (Step Functions, Airflow): Orkestrator alur kerja yang lebih modern dan fleksibel. Keuntungan & Kelebihan • ✨ Fleksibilitas: Skalakan penyimpanan dan komputasi secara independen sesuai kebutuhan. • 💸 Hemat Biaya: Bayar sesuai pemakaian (pay-as-you-go) dan manfaatkan biaya penyimpanan objek yang murah. • 🧘 Tanpa Server & Stateless: Fokus pada logika bisnis, bukan manajemen server. • 🔧 Pemeliharaan Mudah: Cloud provider mengelola infrastruktur dasarnya. • ⚡ Siklus Pengembangan Cepat: Cepat dalam membuat prototipe dan men-deploy pipeline data. • 🚄 Performa Tinggi: Manfaatkan kekuatan pemrosesan in-memory dan layanan query yang dioptimalkan. Platform Cloud Utama untuk Data Lake Modern: • AWS (Amazon Web Services) • Azure (Microsoft Azure) • GCP (Google Cloud Platform)