Pembelajaran mesin mampu melakukan segala macam hal selama Anda memiliki data untuk mengajarkan caranya. Itu tidak selalu mudah, dan peneliti selalu mencari cara untuk menambahkan sedikit “akal sehat” ke AI sehingga Anda tidak perlu menunjukkan 500 gambar kucing sebelum mendapatkannya. Penelitian terbaru Facebook mengambil langkah besar untuk mengurangi kemacetan data.
Divisi riset AI perusahaan yang tangguh telah bekerja selama bertahun-tahun sekarang tentang cara memajukan dan menskalakan hal-hal seperti algoritme visi komputer canggih, dan telah membuat kemajuan yang stabil, umumnya dibagikan dengan komunitas riset lainnya. Salah satu perkembangan menarik yang dilakukan Facebook secara khusus adalah apa yang disebut “pembelajaran semi-diawasi”.
Umumnya ketika Anda berpikir untuk melatih AI, Anda memikirkan sesuatu seperti 500 gambar kucing yang disebutkan di atas — gambar yang telah dipilih dan diberi label (yang bisa berarti menguraikan kucing, meletakkan kotak di sekitar kucing, atau sekadar mengatakan ada kucing di sana di suatu tempat) sehingga sistem pembelajaran mesin dapat menyusun algoritme untuk mengotomatiskan proses pengenalan kucing. Secara alami jika Anda ingin membuat anjing atau kuda, Anda memerlukan 500 gambar anjing, 500 gambar kuda, dll. secara linieryang merupakan kata yang tidak ingin Anda lihat di bidang teknologi.
Pembelajaran semi-diawasi, terkait dengan pembelajaran “tanpa pengawasan”, melibatkan mencari tahu bagian-bagian penting dari kumpulan data tanpa data berlabel sama sekali. Tidak hanya menjadi liar, masih ada struktur; misalnya, bayangkan Anda memberi sistem seribu kalimat untuk dipelajari, lalu tunjukkan 10 kalimat lagi yang beberapa kata hilang. Sistem mungkin dapat melakukan pekerjaan yang layak dengan mengisi kekosongan hanya berdasarkan apa yang terlihat pada ribuan sebelumnya. Tapi itu tidak mudah dilakukan dengan gambar dan video — mereka tidak langsung atau dapat diprediksi.
Tetapi para peneliti Facebook telah menunjukkan bahwa meskipun tidak mudah, itu mungkin dan sebenarnya sangat efektif. Sistem DINO (yang agak tidak meyakinkan untuk “Distilasi pengetahuan tanpa label”) mampu belajar menemukan objek menarik dalam video orang, hewan, dan objek dengan cukup baik tanpa data berlabel apa pun.

Kredit Gambar: Facebook
Ini dilakukan dengan mempertimbangkan video bukan sebagai urutan gambar untuk dianalisis satu per satu secara berurutan, tetapi sebagai rangkaian yang kompleks dan saling terkait, seperti perbedaan antara “serangkaian kata” dan “kalimat”. Dengan memperhatikan bagian tengah dan akhir video serta bagian awal, agen dapat memahami hal-hal seperti “objek dengan bentuk umum ini bergerak dari kiri ke kanan”. Informasi itu dimasukkan ke dalam pengetahuan lain, seperti ketika objek di sebelah kanan tumpang tindih dengan yang pertama, sistem tahu bahwa itu bukan hal yang sama, hanya bersentuhan dalam bingkai itu. Dan pengetahuan itu pada gilirannya dapat diterapkan pada situasi lain. Dengan kata lain, itu mengembangkan rasa dasar makna visual, dan melakukannya dengan sangat sedikit pelatihan pada objek baru.
Hal ini menghasilkan sistem visi komputer yang tidak hanya efektif — kinerjanya baik dibandingkan dengan sistem yang dilatih secara tradisional — tetapi lebih dapat dihubungkan dan dijelaskan. Misalnya, sementara AI yang telah dilatih dengan 500 gambar anjing dan 500 gambar kucing akan mengenali keduanya, AI tidak akan benar-benar tahu bahwa keduanya mirip. Tapi DINO – meskipun tidak bisa spesifik – mendapatkan bahwa mereka mirip secara visual satu sama lain, lebih dari pada mobil, dan bahwa metadata dan konteks terlihat dalam ingatannya. Anjing dan kucing “lebih dekat” dalam ruang kognitif digitalnya daripada anjing dan gunung. Anda dapat melihat konsep-konsep itu sebagai gumpalan kecil di sini — lihat bagaimana konsep-konsep sejenis saling menempel:

Kredit Gambar: Facebook
Ini memiliki keuntungannya sendiri, dari segi teknis yang tidak akan kami bahas di sini. Jika Anda penasaran, ada lebih banyak detail di makalah yang ditautkan di postingan blog Facebook.
Ada juga proyek penelitian yang berdekatan, metode pelatihan yang disebut PAWS, yang selanjutnya mengurangi kebutuhan akan data berlabel. PAWS menggabungkan beberapa ide pembelajaran semi-diawasi dengan metode tradisional yang diawasi, yang pada dasarnya memberikan dorongan pada pelatihan dengan membiarkannya belajar dari data berlabel dan tidak berlabel.
Facebook tentu saja membutuhkan analisis gambar yang baik dan cepat untuk banyak produk yang berhubungan dengan gambar (dan rahasia) yang menghadap pengguna, tetapi kemajuan umum ke dunia visi komputer ini tidak diragukan lagi akan disambut baik oleh komunitas pengembang untuk tujuan lain.