
Sedikit di atas satu dekade telah berlalu sejak The Economist memperingatkan kita bahwa kita akan segera tenggelam dalam data. Tumpukan data modern telah muncul sebagai jaket penyelamat yang diusulkan untuk banjir data ini — dipelopori oleh perusahaan rintisan Silicon Valley seperti Snowflake, Databricks, dan Confluent.
Saat ini, setiap pengusaha dapat mendaftar ke BigQuery atau Snowflake dan memiliki solusi data yang dapat disesuaikan dengan bisnis mereka dalam hitungan jam. Munculnya solusi penyimpanan data yang murah, fleksibel, dan dapat diskalakan sebagian besar merupakan respons terhadap perubahan kebutuhan yang dipicu oleh ledakan besar data.
Saat ini, dunia menghasilkan 2,5 triliun byte data setiap hari (ada 18 angka nol dalam satu triliun). Ledakan data terus berlanjut di tahun 20-an, baik dalam hal pembangkitan maupun penyimpanan — jumlah data yang disimpan diperkirakan akan terus berlipat ganda setidaknya setiap empat tahun. Namun, satu bagian integral dari infrastruktur data modern masih kekurangan solusi yang sesuai untuk era big data dan tantangannya: Pemantauan kualitas data dan validasi data.
Biarkan saya membahas bagaimana kami sampai di sini dan tantangan ke depan untuk kualitas data.
Dilema nilai vs volume data besar
Pada tahun 2005, Tim O’Reilly menerbitkan artikel inovatifnya “What is Web 2.0?”, yang benar-benar memulai perlombaan data besar. Pada tahun yang sama, Roger Mougalas dari O’Reilly memperkenalkan istilah “big data” dalam konteks modernnya — mengacu pada kumpulan data besar yang hampir tidak mungkin dikelola dan diproses menggunakan alat BI tradisional.
Kembali ke tahun 2005, salah satu tantangan terbesar dengan data adalah mengelola data dalam jumlah besar, karena peralatan infrastruktur data mahal dan tidak fleksibel, dan pasar cloud masih dalam masa pertumbuhan (AWS tidak diluncurkan secara publik hingga tahun 2006). Yang lainnya adalah kecepatan: Seperti yang dicatat oleh Tristan Handy dari Fishtown Analytics (perusahaan di belakang dbt), sebelum Redshift diluncurkan pada tahun 2012, melakukan analisis yang relatif mudah bisa sangat memakan waktu bahkan dengan kumpulan data berukuran sedang. Seluruh ekosistem perkakas data telah dibuat untuk memitigasi kedua masalah ini.

Munculnya tumpukan data modern (contoh logo dan kategori). Kredit Gambar: Valid
Penskalaan basis data relasional dan peralatan gudang data dulunya merupakan tantangan nyata. Hanya 10 tahun yang lalu, sebuah perusahaan yang ingin memahami perilaku pelanggan harus membeli dan menyimpan server sebelum para insinyur dan ilmuwan datanya dapat bekerja untuk menghasilkan wawasan. Data dan infrastruktur di sekitarnya mahal, sehingga hanya perusahaan terbesar yang mampu menyerap dan menyimpan data dalam skala besar.
Tantangan di hadapan kami adalah memastikan bahwa volume data besar yang besar memiliki kualitas yang cukup tinggi sebelum digunakan.
Lalu datanglah pergeseran (Merah). Pada bulan Oktober 2012, AWS menyajikan solusi layak pertama untuk tantangan penskalaan dengan Redshift — basis data cloud-native, massively parallel processing (MPP) yang dapat digunakan siapa saja dengan harga bulanan sepasang sepatu kets ($100) — sekitar 1.000x lebih murah daripada pengaturan “server lokal” sebelumnya. Dengan penurunan harga sebesar ini, pintu air terbuka dan setiap perusahaan, besar atau kecil, sekarang dapat menyimpan dan memproses data dalam jumlah besar dan membuka peluang baru.
Seperti yang dirangkum oleh Jamin Ball dari Altimeter Capital, Redshift adalah masalah besar karena merupakan gudang OLAP cloud-native pertama dan mengurangi biaya kepemilikan database OLAP dengan urutan besarnya. Kecepatan pemrosesan kueri analitik juga meningkat secara dramatis. Dan kemudian (Snowflake memelopori ini), mereka memisahkan komputasi dan penyimpanan, yang, dalam istilah yang terlalu disederhanakan, berarti pelanggan dapat menskalakan sumber daya penyimpanan dan komputasi mereka secara mandiri.
Apa artinya semua ini? Ledakan pengumpulan dan penyimpanan data.