Peneliti CMU menunjukkan potensi pelacakan aktivitas pelestarian privasi menggunakan radar

Bayangkan jika Anda dapat menyelesaikan/menghidupkan kembali pertengkaran rumah tangga dengan menanyakan smart speaker Anda kapan terakhir kali ruangan dibersihkan atau apakah tempat sampah sudah dikeluarkan?

Atau — untuk kasus penggunaan yang sama sekali lebih sehat — bagaimana jika Anda dapat meminta pembicara Anda untuk menghitung repetisi saat Anda melakukan squat dan bench press? Atau beralihlah ke mode ‘pelatih pribadi’ lengkap — meneriakkan perintah untuk mengayuh lebih cepat saat Anda memutar sepeda olahraga tua yang berdebu (yang membutuhkan Peloton!).

Dan bagaimana jika pembicara cukup pintar untuk melakukannya baru tahu Anda sedang makan malam dan berhati-hati menyelipkan sedikit musik suasana hati?

Sekarang bayangkan jika semua kecerdasan pelacakan aktivitas itu disadap tanpa ada kamera yang terhubung terpasang di dalam rumah Anda.

Asedikit lagi penelitian menarik dari para peneliti di Carnegie Mellon University’s Grup Antarmuka Masa Depan membuka kemungkinan semacam ini — mendemonstrasikan pendekatan baru untuk pelacakan aktivitas yang tidak mengandalkan kamera sebagai alat penginderaan.

Memasang kamera yang terhubung di dalam rumah Anda tentu saja merupakan risiko privasi yang mengerikan. Itulah sebabnya para peneliti CMU mulai menyelidiki potensi penggunaan radar doppler gelombang milimeter (mmWave) sebagai media untuk mendeteksi berbagai jenis aktivitas manusia.

Tantangan yang perlu mereka atasi adalah bahwa sementara mmWave menawarkan “kekayaan sinyal yang mendekati mikrofon dan kamera”, seperti yang mereka katakan, kumpulan data untuk melatih model AI untuk mengenali aktivitas manusia yang berbeda karena noise RF tidak tersedia (sebagai visual data untuk melatih jenis model AI lainnya adalah).

Agar tidak tergoyahkan, mereka mengatur tentang mensintesis data doppler untuk memberi makan model pelacakan aktivitas manusia — merancang saluran perangkat lunak untuk melatih model AI pelacakan aktivitas yang menjaga privasi.

Hasilnya dapat dilihat di video ini — di mana model ditampilkan dengan benar mengidentifikasi sejumlah aktivitas berbeda, termasuk bersepeda, bertepuk tangan, melambai, dan jongkok. Murni dari kemampuannya untuk menginterpretasikan sinyal mmWave yang dihasilkan gerakan – dan murni dilatih pada data video publik.

“Kami menunjukkan bagaimana terjemahan lintas domain ini dapat berhasil melalui serangkaian hasil eksperimen,” tulis mereka. “Secara keseluruhan, kami percaya pendekatan kami adalah batu loncatan penting untuk secara signifikan mengurangi beban pelatihan seperti sistem penginderaan manusia, dan dapat membantu penggunaan bootstrap dalam interaksi manusia-komputer.”

Peneliti Chris Harrison membenarkan hal tersebut penginderaan berbasis radar mmWave doppler tidak bekerja untuk “hal yang sangat halus” (seperti melihat ekspresi wajah yang berbeda). Tapi dia mengatakan itu cukup sensitif untuk mendeteksi aktivitas yang kurang kuat – seperti makan atau membaca buku.

Kemampuan deteksi gerakan radar doppler juga dibatasi oleh kebutuhan garis pandang antara subjek dan perangkat keras penginderaan. (Aka: “Itu belum bisa menjangkau sudut.” Yang, bagi mereka yang khawatir tentang kekuatan robot pendeteksi manusia di masa depan, pasti akan terdengar sedikit meyakinkan.)

Deteksi memang membutuhkan perangkat keras penginderaan khusus, tentu saja. Tapi hal-hal sudah bergerak di depan itu: Google telah mencelupkan kakinya, melalui proyek Soli — menambahkan a sensor radar ke Piksel 4, misalnya.

milik Google Nest Hub juga mengintegrasikan indera radar yang sama untuk melacak kualitas tidur.

“Salah satu alasan kami belum melihat lebih banyak adopsi sensor radar di ponsel adalah kurangnya kasus penggunaan yang menarik (semacam masalah ayam dan telur),” kata Harris kepada TechCrunch. “Penelitian kami tentang deteksi aktivitas berbasis radar membantu membuka lebih banyak aplikasi (misalnya, Siris yang lebih pintar, yang tahu kapan Anda sedang makan, atau membuat makan malam, atau membersihkan, atau berolahraga, dll.).”

Ditanya apakah dia melihat potensi yang lebih besar dalam aplikasi seluler atau tetap, Harris menganggap ada kasus penggunaan yang menarik untuk keduanya.

“Saya melihat kasus penggunaan baik di seluler maupun non seluler,” katanya. “Kembali ke Nest Hub… sensornya sudah ada di dalam ruangan, jadi mengapa tidak menggunakannya untuk mem-bootstrap fungsi yang lebih canggih di speaker pintar Google (seperti penghitungan pengulangan latihan Anda).

“Ada banyak sensor radar yang sudah digunakan di gedung untuk mendeteksi hunian (tapi sekarang mereka bisa mendeteksi kapan terakhir kali ruangan dibersihkan, misalnya).”

“Secara keseluruhan, biaya sensor ini akan segera turun menjadi beberapa dolar (beberapa di eBay sudah sekitar $1), jadi Anda dapat memasukkannya ke dalam segala hal,” tambahnya. “Dan seperti yang ditunjukkan Google dengan produk yang masuk ke kamar tidur Anda, ancaman ‘masyarakat pengawasan’ jauh lebih tidak mengkhawatirkan dibandingkan dengan sensor kamera.”

Perusahaan rintisan seperti VergeSense sudah menggunakan perangkat keras sensor dan teknologi visi komputer untuk mendukung analitik real-time ruang dalam ruangan dan aktivitas untuk pasar b2b (seperti mengukur hunian kantor).

Tetapi bahkan dengan pemrosesan lokal data gambar beresolusi rendah, masih ada persepsi risiko privasi seputar penggunaan sensor penglihatan — tentu saja di lingkungan konsumen.

Radar menawarkan alternatif untuk pengawasan visual semacam itu yang mungkin lebih cocok untuk perangkat terhubung konsumen yang berisiko privasi seperti ‘cermin pintar’.

“Jika diproses secara lokal, apakah Anda akan meletakkan kamera di kamar Anda? Kamar mandi? Mungkin saya orang yang sopan, tetapi secara pribadi tidak,” kata Harris.

Dia juga menunjukkan penelitian sebelumnya yang menurutnya menggarisbawahi nilai menggabungkan lebih banyak jenis perangkat keras penginderaan: “Semakin banyak sensor, semakin panjang ekor aplikasi menarik yang dapat Anda dukung. Kamera tidak dapat menangkap semuanya, juga tidak bekerja dalam kegelapan.

“Kamera cukup murah akhir-akhir ini, jadi sulit bersaing di sana, meski radar sedikit lebih murah. Saya percaya keuntungan terkuat adalah pelestarian privasi, ”tambahnya.

Tentu saja memiliki perangkat keras penginderaan – visual atau lainnya – menimbulkan potensi masalah privasi.

Sebuah sensor yang memberi tahu Anda saat kamar tidur anak ditempati mungkin baik atau buruk tergantung pada siapa yang memiliki akses ke data, misalnya. Dan segala jenis aktivitas manusia dapat menghasilkan informasi sensitif, tergantung pada apa yang terjadi. (Maksud saya, apakah Anda benar-benar ingin speaker pintar Anda mengetahui saat Anda sedang berhubungan seks?)

Jadi, meskipun pelacakan berbasis radar mungkin kurang invasif dibandingkan beberapa jenis sensor lainnya, bukan berarti tidak ada potensi masalah privasi sama sekali.

Seperti biasa, itu tergantung di mana dan bagaimana perangkat keras penginderaan digunakan. Meskipun demikian, sulit untuk berargumen bahwa data yang dihasilkan radar cenderung kurang sensitif dibandingkan data visual yang setara jika diekspos melalui pelanggaran.

“Sensor apa pun secara alami harus mengajukan pertanyaan tentang privasi – ini adalah spektrum daripada pertanyaan ya / tidak,” Harris setuju. “Sensor radar biasanya kaya akan detail, tetapi sangat anonim, tidak seperti kamera. Jika data radar doppler Anda bocor secara online, akan sulit untuk merasa malu karenanya. Tidak ada yang akan mengenali Anda. Jika kamera dari dalam rumah Anda bocor secara online, yah… ”

Bagaimana dengan biaya komputasi untuk mensintesis data pelatihan, mengingat kurangnya data sinyal doppler yang segera tersedia?

“Ini bukan turnkey, tetapi ada banyak kumpulan video besar yang dapat ditarik (termasuk hal-hal seperti Youtube-8M),” katanya. “Ini jauh lebih cepat untuk mengunduh data video dan membuat data radar sintetik daripada harus merekrut orang untuk datang ke lab Anda untuk menangkap data gerakan.

“Seseorang pada dasarnya menghabiskan 1 jam untuk 1 jam data berkualitas. Padahal Anda dapat mengunduh rekaman ratusan jam dengan cukup mudah dari banyak basis data video yang dikurasi dengan sangat baik akhir-akhir ini. Untuk setiap jam video, kami memerlukan waktu sekitar 2 jam untuk memprosesnya, tetapi itu hanya pada satu mesin desktop yang kami miliki di lab ini. Kuncinya adalah Anda dapat memparalelkannya, menggunakan Amazon AWS atau yang setara, dan memproses 100 video sekaligus, sehingga throughput bisa sangat tinggi.”

Dan sementara sinyal RF memantul, dan melakukannya pada derajat yang berbeda dari permukaan yang berbeda (alias “gangguan multi-jalur”), Harris mengatakan bahwa sinyal yang dipantulkan oleh pengguna “sejauh ini merupakan sinyal dominan”. Yang berarti mereka tidak perlu memodelkan refleksi lain agar model demo mereka berfungsi. (Meskipun dia mencatat bahwa hal itu dapat dilakukan untuk lebih mengasah kemampuan “dengan mengekstraksi permukaan besar seperti dinding/langit-langit/lantai/furnitur dengan visi komputer dan menambahkannya ke dalam tahap sintesis”.)

“Itu [doppler] sinyal sebenarnya adalah level yang sangat tinggi dan abstrak, sehingga tidak terlalu sulit untuk diproses secara waktu nyata (jauh lebih sedikit ‘piksel’ daripada kamera). dia menambahkan. “Prosesor tertanam di mobil menggunakan data radar untuk hal-hal seperti pemecahan tabrakan dan pemantauan titik buta, dan itu adalah CPU kelas bawah (tidak ada pembelajaran mendalam atau apa pun).”

Penelitian ini dipresentasikan pada konferensi ACM CHI, bersamaan dengan proyek Grup lainnya — disebut Pose-on-the-Go — yang menggunakan sensor smartphone untuk mendekati pose seluruh tubuh pengguna tanpa memerlukan sensor yang dapat dikenakan.

Peneliti CMU dari Grup sebelumnya juga telah mendemonstrasikan metode untuk penginderaan ‘rumah pintar’ dalam ruangan dengan harga murah (juga tanpa perlu kamera), serta — tahun lalu — menunjukkan bagaimana kamera ponsel pintar dapat digunakan untuk memberikan pengalaman pada perangkat. Asisten AI lebih paham kontekstual.

Dalam beberapa tahun terakhir, mereka juga menyelidiki menggunakan vibrometri laser dan derau elektromagnetik untuk memberi perangkat pintar kesadaran lingkungan yang lebih baik dan fungsionalitas kontekstual. Penelitian menarik lainnya dari Grup termasuk menggunakan cat semprot konduktif untuk mengubah apapun menjadi layar sentuh. Dan berbagai metode untuk memperluas potensi interaktif perangkat yang dapat dikenakan — seperti menggunakan laser untuk memproyeksikan tombol virtual ke lengan pengguna perangkat atau menggabungkan perangkat yang dapat dikenakan lainnya (cincin) ke dalam campuran.

Masa depan interaksi manusia dengan komputer tampaknya akan jauh lebih cerdas secara kontekstual — bahkan jika perangkat ‘pintar’ generasi saat ini masih dapat tersandung pada dasar-dasarnya dan tampak lebih dari sekadar bodoh.