Pernah terpikir kah sebelumnya bagaimana jika AI lebih peka dengan emosi kita? Hume AI merealisasikan itu dengan merilis teknologi baru mereka yang Bernama OCTAVE (Omni-Capable Text and Voice Engine), sebuah sistem yang menggabungkan teknologi pengolahan suara dan Bahasa, termasuk dari model EVI 2, Voice Engine dari OpenAI, TTS Voice Design dari Elevenlabs, dan NotebookLM buatan Google Deepmind.
Teknologi ini dapat membuat bukan hanya suara, tapi kepribadian lengkap dari prompt deskriptif yang kita tulis atau rekaman pendek berdurasi 5 detik.
Fitur Yang Ditawarkan Octave
1. Membuat suara dengan kepribadiannya
OCTAVE bisa membuat berbagai tipe suara dan kepribadian hanya dari sebuah prompt.
Contoh jika kita menuliskan prompt seperti "buatkan suara pria yang kasar seperti sedang kumur-kumur aspal panas" atau "suara terapis yang sangat lembut, penuh perhatian, dan berbicara pelan seakan ingin memberikan kenyamanan".
maka OCTAVE akan membuatkan seperti halnya prompt yang kita tulis. Uniknya, suara yang dihasilkan bisa disesuaikan dengan berbagai karakteristik seperti jenis kelamin, aksen (misalnya aksen inggris atau amerika), usia hingga cara berbicara sesuai dengan profesi (misalnya suara seorang penyihir atau suara motivator).
2. Kloning suara dari rekaman
Salah satu fitur keren dari OCTAVE adalah dapat mengkloning suara dari rekaman pendek yang berdurasi hanya 5 detik. Jadi misalnya kamu merekam suaramu sendiri, maka OCTAVE bisa membuat AI yang berbicara dengan suara, aksen, dan kepribadianmu. Bahkan kamu bisa terus berbicara dengan suara yang sama. Misalnya, dari rekaman suara 5 detik, OCTAVE bisa langsung melanjutkan percakapan menggunakan suara orang tersebut.
3. Interaksi real time