On Big Data and me

Beberapa tahun yang lalu, Saya mendengar pertama kali istilah “Big Data”. Kala itu istilah ini bagi saya masih terasa seperti jargon marketing, ‘buzzword’, ‘hype’, atau euforia yang membuat definisinya terdengar menarik namun maknanya sulit dipahami. Teknologi pada waktu itu juga memang sedang ramai-ramainya dengan media sosial dan mungkin awal dari revolusi penyampaian ide dari yang konyol sampai yang luar biasa (konyol, eh maksudnya) serius.

Sekarang mungkin masih banyak ekspresi yang terdengar hiperbola namun setidaknya potongan puzzle-nya sudah semakin jelas. Dalam bidang informatika, topik yang saya pelajari lebih banyak menitikberatkan pada proses algoritmik untuk menganalisis data yang pada dasarnya kompleks seperti multimedia (misal peta, gambar, dan video). Istilah ‘big data’ sendiri saya dengar pertama kali dari area yang lebih banyak penekanan pada data dan bagaimana penanganannya. Sekarang Saya cenderung memahami istilah big data sebagai sebuah konvergensi teknologi.

Saya lebih dulu mengenal istilah sistem terdistribusi dan pemrograman paralel ketika teknologi prosesor komputer baru mulai mengenalkan adanya beberapa ‘core’ dalam satu ‘chip’ dibandingkan sistem basis data dan keluarganya. Memang dulu ketika S1 saya tidak terlalu tertarik mengambil mata kuliah basis data dan lanjutannya walaupun banyak teman-teman yang justru mengambil mata kuliah tsb. Baru ketika mulai bekerja di industri ternyata masalah data ternyata cukup menyita waktu dan perlu mendapatkan penanganan yang khusus.

Big Data yang saya pahami sekarang adalah suatu tahapan yang dalam perkembangan teknologi yang mempertemukan kemajuan teknologi perangkat keras dan teknik pemrosesan data lanjut. Mulai dari distributed system, parallel computer hingga cloud computing. OLTP, OLAP/data warehouse, basis data non-relasional (NoSQL) hingga Analytics, Business Intelligence. Mulai dari statistik deskriptif, model prediktif, pembelajaran mesin, Data Mining/Knowledge Discovery hingga Data Science. Mulai dari rule-based system, expert system, description logic hingga semantic web. Semuanya mengarah pada kebutuhan yang sama: fokus pada transformasi data menjadi informasi tanpa perlu tahu banyak tentang proses yang ada di bawahnya. Intinya adalah transparansi/abstraksi.

Dalam bahasa yang hiperbolik, di Dunia Big Data kita dapat menyimpan berbagai macam bentuk data dan berasumsi dapat bertanya tentang apapun dari data tersebut. Perhatikan bahwa saya menggunakan kata ganti orang pertama jamak (kita) pada kalimat sebelumnya untuk menandakan bahwa subjek yang dimaksud bisa jadi hanya saya, Anda, atau siapapun yang memiliki akses ke sistem komputasi tsb. Hal ini ditujukan untuk memberi gambaran perihal peningkatan kompleksitas yang terjadi akibat penambahan orang sebagai pemasok data maupun peminta informasi. Dalam berbagai literatur populer di web, kompleksitas yang dimaksud sering disebut sebagai aspek multi-V (saya sebut multi karena ada yang menyebut 3V, 4V, atau 5V) seperti Volume, Velocity, Variety, Veracity, dan Value.

Aspek multi-V inipun saya pikir berasal dari karakteristik berbagai disiplin. Volume merupakan topik utama di komunitas basis data (Salah satu konferensi/jurnal papan atasnya berjudul “Very Large Data Base”). Velocity sepertinya jadi kajian di komunitas Jaringan Komputer, Sistem Terdistribusi, Sistem Komputer. Variety merupakan isu utama dalam komunitas Sistem Informasi. Veracity sudah mulai disebut ketika perkenalan dengan topik Intelejensia Buatan. Terakhir agar teknologi ini dapat dinikmati oleh masyarakat luas, maka syarat utamanya adalah adanya Value bagi penggunanya. Ya, V yang terakhir lebih banyak digunakan akhir-akhir ini ditambahkan sebagai salah satu jargon pemasaran. 🙂

Pertanyaan berikutnya bagi saya pribadi yang melakukan penelitian di dalam bidang ini adalah: Bagaimana melakukannya (penelitian tentang Teknologi Big Data)? Kalau deskripsi di atas dibuat menjadi peta, maka area yang tercakup sudah sangat luas. Belum lagi teknologi yang siap pakai pun sudah banyak. Pencarian sekilas di dalam literatur melalui layanan perpustakaan digital pun banyak. Belum lagi pekerjaan teknis mengembangkan ‘miniatur/model’ objek studi di dalam laboratorium.

Walaupun saya secara resmi baru memulai studi tahun lalu, interaksi dengan masalah ini sudah sejak hampir sepuluh tahun yang lalu. Mulai dari sekadar transformasi berbagai format data/basis data, merangkum data ujian nasional, memodelkan prediksi sinyal telepon seluler, memodelkan risiko kematian akibat bencana, menganalis citra lembar penghitungan suara, hingga menganalisis arsip berita. Akhirnya 2 tahun lalu saya memutuskan untuk memfokuskan pada 2 aspek utama yaitu Variety dan Veracity sebagai kajian utama. Aspek variasi diindikasikan dengan melibatkan berbagai kategori data yaitu data tematis khususnya yang berasal dari teks dan integrasi berbagai sumber/model data dengan tambahan data spasial dan temporal sebagai pendukung dalam proses analisis. Aspek veracity masuk secara kebutuhan karena proses yang melibatkan pengolahan teks dan gabungan berbagai sumber data yang terdapat ketidak akuratan, ketiadaan informasi, ketidaksamaan/ketidakcocokan model data, hingga kesalahan baik yang disengaja ataupun tidak.

Setelah proses diskusi dengan beberapa pembimbing, bertahan hidup dalam safari literatur, dan eksperimen prototipe yang berulang-ulang nan tak selalu berhasil, akhirnya Saya lalu memutuskan “Alat dan Bahan” utama dalam studi Saya. Saya memilih untuk menggunakan data literatur ilmiah sebagai bahan dan teknologi semantic web/linked (open) data, data warehouse+data mining, dan model graf probabilistik sebagai alat dalam studi ini. Persoalan yang ingin diselesaikan adalah sampai sejauh mana perkembangan ilmu pengetahuan dan kontribusi individual bisa dimodelkan dari data yang ada dan bagaimana menghasilkan informasi yang bersifat rekomendasi aksi yang menguntungkan keduanya (ilmu pengetahuan pada skala makro dan individu dalam skala mikro).

Anggap saja tulisan ini sebagai semacam draft ‘communication letter’ atau ‘position paper’. Saat ini saya sedang berkutat mempersiapkan beberapa makalah tentang hal-hal yang saya sebut di atas untuk dipublikasikan dalam beberapa bulan ke depan. Sampai Jumpa!

NN (nambah nulis): Sejak Akhir tahun lalu, saya dan beberapa rekan mencoba menginisiasi komunitas terbuka untuk berdiskusi dengan topik Big Data dan Open Data di facebook. Karena satu dan lain hal, saat ini lebih banyak bahasan mengenai Open Data dan implementasinya di Indonesia. Kalau berminat, silakan bergabung!

Iklan

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.