Headphone Ai Terbaru Bisa Terjemahkan Banyak Orang Sekaligus Dengan Suara Asli

May 10, 2025 05:22 PM - 1 minggu yang lalu 9481

Kincai Media – Bayangkan Anda berada di tengah keramaian di luar negeri, dikelilingi oleh banyak orang yang berbincang dalam bahasa asing. Aplikasi translator di ponsel mungkin bisa membantu, tetapi gimana jika semua orang berbincang sekaligus? Inilah masalah yang dihadapi Tuochao Chen, seorang mahasiswa doktoral di University of Washington, saat mengunjungi museum di Meksiko.

Chen mencoba menggunakan aplikasi translator dengan mengarahkan mikrofon ponselnya ke pemandu tur. Namun, kebisingan sekitar membikin hasil terjemahan menjadi tidak akurat. Masalah ini akhirnya menginspirasi Chen dan tim peneliti UW untuk menciptakan solusi revolusioner: headphone AI yang bisa menerjemahkan banyak pembicara sekaligus sembari mempertahankan bunyi original mereka.

Headphone AI menerjemahkan banyak pembicara sekaligus dengan bunyi asli

Teknologi yang Meniru Cara Kerja Radar

Sistem yang disebut Spatial Speech Translation ini menggunakan headphone noise-canceling biasa yang dilengkapi dengan mikrofon. Algoritma canggih yang dikembangkan tim bisa memisahkan bunyi dari beragam pembicara di sekitarnya, melacak pergerakan mereka, menerjemahkan ucapan mereka, dan memutarnya kembali dengan jarak hanya 2-4 detik.

“Teknologi translator lain berasumsi hanya ada satu orang yang berbicara,” jelas Shyam Gollakota, guru besar di Paul G. Allen School of Computer Science & Engineering UW yang menjadi penulis senior penelitian ini. “Tapi di bumi nyata, Anda tidak bisa hanya mempunyai satu bunyi robot untuk banyak orang dalam satu ruangan. Untuk pertama kalinya, kami mempertahankan bunyi original setiap orang dan arah datangnya bunyi tersebut.”

Tiga Inovasi Utama

Sistem ini menawarkan tiga terobosan penting. Pertama, saat diaktifkan, sistem langsung mendeteksi jumlah pembicara di suatu ruangan, baik di dalam maupun luar ruangan. “Algoritme kami bekerja sedikit seperti radar,” jelas Chen, penulis utama penelitian ini. “Mereka memindai ruang dalam 360 derajat dan terus-menerus menentukan serta memperbarui apakah ada satu orang alias enam hingga tujuh orang.”

Kedua, sistem menerjemahkan ucapan sembari mempertahankan kualitas ekspresif dan volume bunyi setiap pembicara. Semua proses ini melangkah di perangkat seperti laptop dengan chip Apple M2 alias Apple Vision Pro, tanpa perlu komputasi awan yang berpotensi menimbulkan masalah privasi dalam perihal kloning suara.

Ketiga, ketika pembicara menggerakkan kepala mereka, sistem terus melacak arah dan karakter bunyi mereka yang berubah. Sistem ini telah diuji di 10 pengaturan berbeda, baik di dalam maupun luar ruangan, dan menunjukkan hasil yang memuaskan.

Uji Coba dan Masa Depan

Dalam uji coba dengan 29 peserta, pengguna lebih memilih sistem ini dibandingkan model yang tidak melacak pembicara melalui ruang. Sebagian besar peserta juga lebih memilih jarak 3-4 detik lantaran sistem membikin lebih sedikit kesalahan dibandingkan dengan jarak 1-2 detik.

Saat ini, sistem hanya bekerja untuk percakapan sehari-hari dan belum mendukung bahasa teknis alias semboyan khusus. Tim telah menguji sistem dengan bahasa Spanyol, Jerman, dan Prancis, tetapi model translator sebelumnya menunjukkan potensi untuk dilatih dalam sekitar 100 bahasa.

“Ini adalah langkah menuju penghapusan halangan bahasa antar budaya,” kata Chen. “Jadi jika saya melangkah di jalanan Meksiko, meskipun saya tidak berbincang bahasa Spanyol, saya bisa menerjemahkan semua bunyi orang dan tahu siapa yang mengatakan apa.”

Penelitian ini dipresentasikan pada 30 April di ACM CHI Conference on Human Factors in Computing Systems di Yokohama, Jepang. Kode untuk perangkat proof-of-concept ini tersedia bagi pihak lain untuk dikembangkan lebih lanjut.

Selengkapnya