Towards Optimal Sample Database for Learning-based Pattern Detector

What are the optimal parameters for developing a pattern detector?

Pertanyaan itu membuka pagi saya hari ini. Asal-muasal pertanyaan itu muncul dari sebuah pertanyaan pada milis opencv perihal seberapa banyak dan seberapa variatif sampel positif dan negatif yang harus dikumpulkan untuk membuat suatu sistem pendeteksi objek visual secara umum. Hal ini cukup memancing rasa penasaran. Pertama persoalan deteksi merupakan persoalan pengenalan pola (pattern recognition) yang paling sederhana dan batasannya paling longgar jika dibandingkan dengan segmentasi (deteksi batas pola) dan klasifikasi/pengenalan banyak-objek ataupun banyak-kategori/kelas. Persoalan deteksi outputnya biner, yakni hanya ada dua jawaban: ya(ada) atau tidak jika diberikan suatu pola masukan. Sebagai contoh, mata kita sangat sensitif mendeteksi pola wajah. Bahkan mungkin untuk pola yang bukan wajah tapi tampak seperti wajah pun masih dapat dideteksi secara objektif, bukan hanya halusinasi satu orang saja.

Strategi yang umumnya sekarang ini diambil dalam membuat sistem detektor adalah menggunakan teknik pembelajaran mesin (machine learning) yang menggunakan metode statistik untuk menganalisis data menjadi sebuah model untuk melakukan pekerjaan deteksi pola tersebut. Langkah-langkah yang umumnya dilakukan adalah mempersiapkan kumpulan data berisi contoh-contoh pola baik dengan tambahan label sebagai pola acuan yang dibuat oleh manusia maupun tanpa label tetapi pada pengujian hanya diberikan umpan balik apakah kinerja pendeteksiannya lebih baik atau lebih buruk. Cara pertama disebut dengan supervised learning dan cara kedua disebut reinforcement learning.

Adapun panduan untuk mengumpulkan data contoh pada umumnya tidak secara gamblang menjelaskan sampai kondisi apa sebuah koleksi data dikatakan cukup membuat suatu sistem yang berbasis pembelajaran mesin. informasi yang ada hanyalah banyaknya data yang dikumpulkan haruslah cukup banyak. Salah satu metode untuk melakukan justifikasi ini biasanya menggunakan metode statistik. Pada asumsi populasi yang berdistribusi normal secara parametrik, maka generalisasi dilakukan dengan menggunakan limit hampiran (cek teorema limit tengah) lalu sensitivitas detektor sebagai sistem yang dibuat diuji berdasarkan kinerjanya yaitu akurasi dan kemampuan generalisasi berdasarkan jumlah data tadi. Jika diperhatikan, kedua hal ini mirip dengan analogi ayam-telur yakni mana yang duluan? *karena ayam ditulis lebih dulu maka jawabannya jelas ayam*

Persoalan kecukupan data ini tidak hanya terjadi pada sistem yang dibangun dengan metode statistik. Sistem yang dibangun dengan pengembangan pengetahuan heuristik yang diekstrak dari pakar (expert knowledge engineering) pun mengalami persoalan yang sama yaitu seberapa banyak yang dikatakan cukup. Lebih umum lagi seberapa banyak yang diperlukan jika juga mempertimbangkan karakteristik atau sifat dari pola masukan.

Seperti yang dicoba dilakukan oleh para peneliti di bidang teori pola yang berangkat dari teori informasi dan klasifikasi tipe data pada analisis data (statistik), Suatu data atau informasi dapat didekomposisi berdasarkan sifat-sifat intrinsiknya. Sebagai acuan, para matematikawan (khususnya para ahli aljabar) membuat generalisasi yang disebut dengan bilangan tidak hanya pada angka-angka yang selama ini kita kenal melainkan melihat pada struktur aljabar yang terdiri atas objek dan operasi elementer yang dapat diekstrak relasinya terhadap elemen lain dalam suatu himpunan. Hal ini lalu menjadi basis eksplorasi praktis yaitu untuk analisis data, dan hingga pada waktunya yaitu masa kini kita sudah terbiasa dengan melakukan pengenalan pola dalam berbagai wujud bahkan tidak hanya melakukan pengenalan atau analisis tetapi juga sintesis pola yang dimungkinkan dengan adanya teknologi yang mengamplifikasi kemampuan berpikir manusia yaitu komputer.

Kalau pekerjaan mendeteksi pola ini dilihat dalam kacamata yang lebih luas yaitu bagaimana sistem yang sudah ada (manusia) bekerja, maka mungkin kita akan mendapatkan penjelasan yang lebih baik. Persoalan persepsi merupakan kajian multi-disiplin mulai dari disiplin ilmu kimia yang menjelaskan tentang sifat material. Disiplin ilmu fisika yang menjelaskan bagaimana fenomena-fenomena interaksi antar benda. Disiplin ilmu biologi yang menjelaskan bagaimana organ-organ tubuh manusia bekerja dalam sistem indera dan syaraf. Disiplin ilmu psikologi yang mengkaji bagaimana pikiran sebagai bagian dari jiwa (psyche) bekerja secara fungsional. Hingga disiplin matematika yang membuat formulasi bagaimana pola dianggap sebagai sebuah ‘bilangan’ dapat dimanipulasi lewat relasi-relasi dan Informatika dan Rekayasa yang mensimulasikan proses mental yang diperlukan untuk memroses pola yang dikerjakan oleh mesin (komputer).

Kembali ke bahasan awal, jika kita akan membangun suatu koleksi data sebagai bagian dari pengembangan sistem pendeteksi pola maka untuk mendapatkan banyaknya data yang dikatakan ‘cukup’ maka beberapa hal harus dipertimbangkan :

  1. material dari objek
  2. proses transmisi informasi objek ke sensor (misal objek berinteraksi dengan cahaya ke mata)
  3. proses persepsi yang terjadi pada indera
  4. model abstraksi pola dari informasi yang terlibat pada 1, 2, 3

Seharusnya metode untuk melakukan pengenalan dimasukkan jika yang ingin dibuat adalah sistem pendeteksinya. Namun karena pertanyaannya dibatasi pada banyaknya data contoh yang dikatakan cukup, maka metode dihilangkan dari daftar tersebut.

Material objek fisik menentukan seberapa besar ruang kombinatorial pola yang terjadi secara internal objek. Transmisi informasi dan persepsi merupakan proses yang memetakan informasi dari ruang kombinasi pola ke ruang kombinasi pola yang lain. Pada tiap proses pemetaan ada faktor eksternal yang terlibat. Kadang dianggap sebagai gangguan, kadang dianggap sebagai dukungan. Suatu proses dapat dianggap sebagai gangguan jika proses tersebut membuat batasan antara informasi yang satu dengan informasi lainnya pada suatu ruang menjadi semakin sulit dibedakan ataupun adanya penambahan informasi yang tidak relevan. Sebaliknya, suatu proses dianggap sebagai dukungan jika informasi akhir menjadi lebih sederhana dan batasan pembedaan objek menjadi lebih mudah diketahui.

Informasi pada asal dan transformasi yang terjadi pada proses direpresentasikan dengan model abstraksi yang dibuat oleh para matematikawan (objek-objek aljabar seperti bilangan, vektor, graf, dllsb). Bila hal-hal tersebut disederhanakan, maka suatu populasi kombinasi pola yang mungkin ditentukan dari sifat dari objek sumber dan proses-proses transformasi yang terjadi.

Jika kita kembali pada bahasan tentang statistik, maka ada kajian tentang sampling. Proses pengumpulan informasi berupa koleksi contoh untuk membuat sistem pendeteksi pola pada dasarnya adalah proses sampling. Ada banyak metode untuk melakukan sampling. Masing-masing metode dirancang pada umumnya untuk mengurangi bias dan faktor yang dapat meningkatkan risiko validitas suatu kesimpulan yang dibuat dengan menggunakan metode statistik.

Begitu pula dengan pengembangan koleksi data contoh. Pengumpulan data contoh seharusnya tidak hanya menggunakan asumsi banyaknya data, tetapi juga mempertimbangkan karakteristik dari data yang meminimumkan bias-bias yang terjadi pada proses sampling. Dengan demikian, basis data yang dikumpulkan dapat menjadi acuan pengambilan keputusan yang pada akhirnya membantu memilih dan mengembangkan metode-metode pengambilan kesimpulan (dalam hal ini detektor pola) yang berkinerja baik.

Sepertinya tulisan ini sudah semakin dan terlalu panjang. Oleh sebab itu saya akan akhiri sampai sini saja. Beberapa hal yang perlu dibahas selanjutnya antara lain : metode-metode sampling, macam-macam representasi/model pola, hingga akhirnya apa saja metode-metode atau algoritma untuk melakukan klasifikasi data dalam rangka mengembangkan ‘the ultimate pattern detector’.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s