Kuliah: Big Data, AI, dan Model

Brisbane – Di hari kedua ini, peserta Short Term Awards Better Climate Services yang berada di QUT belajar Big Data. Narasumber untuk sesi ini adalah Dr. Richi Nayak, Profesor dari School of Electrical Engineering and Computer Science, Faculty of Science and Engineering, QUT.

Dr. Richi menyampaikan bahwa perolehan data (data mining) adalah proses yang melelahkan, tetapi ketika banyak informasi yang bermanfaat diperoleh, maka akan sangat memuaskan.

Dalam ilmu mengenai data (Data Science), maka trend yang berkembang adalah terjadi perubahan yang signifikan, khususnya untuk pemanfaatan kecerdasan buatan (Artifical Intelegence (AI)), tetapi proses perolehan data (Data Mining) relatif sama. Dalam AI sendiri, banyak sekali otomatisasi yang terlibat, tetapi sejatinya di balik semua proses ini, lebih banyak lagi kegiatan yang tidak terlihat dan sangat kompleks, mulai dari data mining hingga machine learning.

Big Data

Big Data sejatinya adalah kumpulan berbagai data dalam jumlah yang sangat banyak. Big Data diperlukan untuk melihat hubungan antar data, melihat kesamaan, serta melihat pola-pola yang muncul dari data yang sangat banyak tersebut.

Selain itu, dalam diagram pengetahuan, maka data berada di level paling dasar. Dari data tersebut dapat diperoleh informasi, kemudian di atarnya adalah pengetahuan, dan terakhir adalah kebijakan. Dengan demikian, maka peran dari data adalah untuk memperoleh informasi, mendapatkan pengetahuan, dan menentukan kebijakan.

Saat ini, pemanfaatan Big Data semakin luas karena beberapa faktor. Pertama adalah peningkatan kapasitas penyimpanan komputer dan semakin murahnya perangkat untuk menyimpan data tersebut. Selain itu, kekuatan mesin untuk mengolah data pun juga mengalami peningkatan. Contoh dari Big Data di antaranya adalah: jejaring sosial, perangkat mobile, internet of things, termasuk lalu lintas informasi di media sosial seperti Twitter dan Facebook. Selain itu, pemanfaatan Big Data sangatlah luas, tidak hanya iklim, tetapi juga perbankan, asuransi, keamanan, dan lainnya. 

Dari sisi strukturnya, ada dua tipe, yaitu data yang terstruktur dan tidak terstruktur. Data terstruktur, misalnya yang sering kita lihat di data dalam format excel, terdiri dari kolom dan baris. Big Data sendiri adalah contoh dari data yang tidak terstruktur dan memerlukan langkah-langkah khusus untuk pengelolaannya agar menjadi data yang terstruktur dan dapat dimanfaatkan oleh berbagai pihak.  

Pada data yang tidak terstruktur, maka ada beberapa persoalan yang muncul, seperti ledakan data. Hal ini terjadi karena data yang tersedia berlebih, tersimpan di semacam gudang penyimpanan, dan kemampuan komputer terjangkau. Namun, banyaknya data seringkali membuat orang tenggelam dalam lautan data dan menyebabkan kita kebingungan memeroleh informasi dan pengetahuan yang bermanfaat. 

Solusi dari persoalan tersebut adalah dengan mengambil data yang menarik, penting, serta sesuai dengan kebutuhan kita. Selain itu, kita pun perlu memerhatikan aturan, keteraturan, dan ketidakteraturan. Data yang begitu banyak juga mampu membentuk pola, menciptakan hambatan yang justru mampu menolong bisnis, berperan dalam penelitian, mempelajari konsep, hingga menghasilkan uang.

Contoh analisis pada Big Data adalah pemasaran tertarget (targeted marketing), deteksi kecurangan, pengelolaan hubungan pelanggan, dan aplikasi yang lain, seperti perolehan data dari text, web, dan DNA. Dewasa ini, bahkan Big Data mampu membantu suatu tim dan manajemen klub olah raga untuk melakukan analisis penampilan dari pemain.

Big Data sendiri mengalami evolusi. Awalnya adalah pengumpulan data (Data Mining), yaitu pengetahuan yang didapat dari data. Pada tahap ini, perolehan informasi yang menarik bersumber dari pola dan pengetahuan dari data yang sangat besar. Data yang menarik di sini berarti non-trivial, tersembunyi, valid, tidak diketahui sebelumnya, bermanfaat, dan dapat dimengerti.

Data mining sendiri memiliki berbagai nama lain, seperti data analytics, machine learning, data science, knowledge discovery in databases (KDD), ekstraksi pengetahuan, data/pola analisis, data archeology, data harvesting, dan lainnya. Secara kronologis, maka di tahun 1960-an ada pengumpulan data, kemudian 1980-an ada data access, 1990-an ada pergudangan data dan pengambilan keputusan, 2000-an data mining, dan 2010-an Big Data mining.

Dua tipe Big Data adalah pertama data yang terus bergerak, misalnya komentar Twitter/Facebook, data iklim, sensor, dan lainnya. Kedua data yang diam, misalnya email, forms, dan lainnya. 

Selanjutnya adalah 4V dalam Big Data, yaitu Volume atau jumlah data, Variety atau perbedaan jenis data, Veracity atau ketidaktentuan data, dan Velocity atau kecepatan laju perubahan data. Hal ini masih ditambah dengan 3V, yaitu Variability atau data yang terus-menerus berubah, Visualisation atau tampilan data, dan Value atau nilai dari data.

AI

Setelah mengetahui Big Data, kemudian kami juga belajar mengenai Artificial Intelligence (AI) atau kecerdasan buatan. AI memungkinkan mesin untuk membuat keputusan yang otomatis. AI digunakan untuk tugas-tugas yang biasanya dilakukan oleh manusia dan biasanya memerlukan pengetahuan. AI berkaitan dengan persepsi, pelatihan, dan alasan. Beberapa ahli mengatakan bahwa AI adalah upaya untuk menempatkan pikiran manusian ke dalam komputer atau mesin. 

AI dapat dirinci lagi ke dalam beberapa hal yang lebih spesifik, yaitu machine learning, deep learning, dan analisis dan data science. AI saat ini umum digunakan untuk personal assistants seperti aplikasi SIRI dalam handphone Apple, advertising placement pada media sosial, rekomendasi engines yang memberikan masukan kepada konsumen mengenai hotel, sepatu, atau hal lain yang sepele. 

Model

Big Data, Machine Learning, dan AI semuanya mampu digunakan untuk menghasilkan suatu model. Dari data yang ada, maka dapat dipelajari perbedaan data, pola, klasifikasi, klastering, dan asosiasi. Semua proses inilah yang kemudian menghasilkan suatu model. Selanjutnya dari model-model ini, maka dapat dihasilkan beberapa output. Kemudian berbagai output atau hasil dari model ini menjadi masukan bagi pengambilan keputusan. 

Beberapa hal perlu diperhatikan untuk menghasilkan satu model yang mendekati kebenaran. Sebagai contoh, pada model prakiraan cuaca, maka kita tidak bisa hanya mempercayakan pada satu model saja. Berbagai variabel, data, dan parameter harus digabungkan untuk membentuk berbagai model. Sebelumnya, data yang dikumpulkan harus dipersiapkan yang meliputi data cleaning, data transformation, dan data reduction. Hal ini perlu dilakukan agar tidak ada duplikasi informasi dan data, serta mengurangi variabel yang tidak relevan. 

Setelah model dan output dihasilkan, maka selanjutnya perlu dilakukan evaluasi untuk menguji kebenaran dari model dan output tersebut. Ada dua metode evaluasi yang dikenal, yaitu pertama evaluasi berbasis model dan menggunakan pengukuran berganda. Metode menggunakan data ini adalah kuantitatif. Metode evaluasi kedua adalah kualitatif, yaitu menggunakan kontrol grup, yaitu para ahli atau berbasis pengguna. 

Demikianlah kurang lebih uraian kuliah di hari kedua yang sebagian besar merupakan pengetahuan baru bagi saya, sehingga banyak kekurangan catatan di sana-sini. Hal yang harus kita ingat bersama adalah:

Dengan semakin banyak data, jangan sampai kita tenggelam dalam lautan data, tetapi justru kehausan ingin memperoleh pengetahuan.

Dr. Richi Nayak, QUT.

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to Top
%d bloggers like this: