Catatan ini merangkum evolusi teknologi Big Data, dari era awal Hadoop hingga arsitektur Modern Data Lake di cloud, diorganisir untuk kemudahan navigasi dan pemahaman. 1. Fondasi Big Data: Jejak Raksasa Google 👣 Ekosistem Big Data generasi pertama lahir dari tiga paper fundamental yang dirilis oleh Google untuk mengatasi skala data mereka. • Google File System (GFS)Konsep: Sistem file terdistribusi yang fault-tolerant untuk data masif di atas hardware komoditas. ◦ Diadopsi menjadi: Hadoop Distributed File System (HDFS), menjadi fondasi penyimpanan untuk Hadoop. • Google MapReduceKonsep: Model pemrograman untuk pemrosesan data paralel terdistribusi (fase Map dan Reduce). ◦ Diadopsi menjadi: Hadoop MapReduce, menjadi kerangka kerja komputasi inti di Hadoop. • Google BigtableKonsep: Database NoSQL terdistribusi, berskala petabyte, untuk data terstruktur. ◦ Diadopsi menjadi: HBase, database NoSQL yang berjalan di atas HDFS.Intinya: Ekosistem Hadoop adalah implementasi open-source dari arsitektur Big Data yang dipelopori oleh Google. 2. Dua Era Data Lake: Perbandingan Arsitektur 🏛️ vs ☁️ Era 1: Data Lake Tradisional (Ekosistem Hadoop) Arsitektur ini dicirikan oleh penggabungan erat antara penyimpanan dan komputasi (coupled storage and compute). Komponen UtamaPenyimpanan (Storage)HDFS: Sistem file terdistribusi tunggal untuk semua data. • Ingesti Data (Ingestion)Sqoop: Ingesti batch dari database relasional. ◦ Flume: Ingesti streaming dari sumber data seperti log. • Pemrosesan Data (Processing)MapReduce: Pemrosesan batch berbasis disk. ◦ Hive: Abstraksi SQL di atas MapReduce. ◦ HBase: Database NoSQL untuk akses acak (random access). • Orkestrasi (Orchestration)Oozie: Penjadwal alur kerja spesifik untuk Hadoop. Tantangan & Keterbatasan🤯 Kompleksitas: Sangat rumit untuk diatur dan dikelola. • 💰 Biaya Tinggi: Membutuhkan investasi besar untuk hardware dan pemeliharaan cluster fisik. • ⛓️ Tidak Fleksibel: Skala penyimpanan dan komputasi harus dilakukan bersamaan. • 🐌 Performa Lambat: MapReduce berbasis disk, lambat untuk query interaktif. • ⏳ Siklus Pengembangan Lambat: Proses development dan deployment yang kaku. Era 2: Data Lake Modern (Arsitektur Cloud) Arsitektur ini merevolusi Big Data dengan memisahkan penyimpanan dari komputasi (decoupled storage and compute), memanfaatkan layanan cloud yang terkelola. Komponen UtamaPenyimpanan (Storage)Object Storage (S3, GCS, Blob Storage): Fondasi penyimpanan yang sangat skalabel, tahan lama, dan hemat biaya. • Ingesti Data (Ingestion)Layanan Terkelola (Managed Services): Layanan fleksibel untuk ingesti batch (AWS Glue, Azure Data Factory) dan streaming (AWS Kinesis, Google Pub/Sub). • Pemrosesan Data (Processing)Distributed Computing (Spark): Pemrosesan in-memory yang jauh lebih cepat dari MapReduce. ◦ SQL Query Engine (Athena, BigQuery): Layanan serverless untuk menjalankan query SQL langsung pada data di object storage. ◦ NoSQL (DynamoDB, Firestore): Database NoSQL yang dikelola sepenuhnya. • Orkestrasi (Orchestration)Layanan Terkelola (Step Functions, Airflow): Orkestrator alur kerja yang lebih modern dan fleksibel. Keuntungan & Kelebihan✨ Fleksibilitas: Skalakan penyimpanan dan komputasi secara independen sesuai kebutuhan. • 💸 Hemat Biaya: Bayar sesuai pemakaian (pay-as-you-go) dan manfaatkan biaya penyimpanan objek yang murah. • 🧘 Tanpa Server & Stateless: Fokus pada logika bisnis, bukan manajemen server. • 🔧 Pemeliharaan Mudah: Cloud provider mengelola infrastruktur dasarnya. • ⚡ Siklus Pengembangan Cepat: Cepat dalam membuat prototipe dan men-deploy pipeline data. • 🚄 Performa Tinggi: Manfaatkan kekuatan pemrosesan in-memory dan layanan query yang dioptimalkan. Platform Cloud Utama untuk Data Lake Modern:AWS (Amazon Web Services) • Azure (Microsoft Azure) • GCP (Google Cloud Platform)