OpenAI kembali menghadirkan inovasi terbaru di bidang kecerdasan buatan. Pada Kamis lalu, perusahaan tersebut resmi mengumumkan sejumlah fitur voice intelligence baru yang kini tersedia di API mereka. Kehadiran fitur ini ditujukan untuk membantu para developer menciptakan aplikasi yang mampu berbicara, menerjemahkan, hingga mentranskripsikan percakapan pengguna secara real-time.
Baca Juga : OpenAI Rilis Rencana 5 Langkah untuk Perkuat Keamanan Siber Berbasis AI
Langkah ini menjadi bagian dari perkembangan teknologi AI berbasis suara yang saat ini semakin banyak digunakan di berbagai platform digital. Mulai dari layanan pelanggan, aplikasi pendidikan, hingga platform kreator konten, semuanya kini membutuhkan interaksi suara yang terasa lebih natural dan responsif.
GPT-Realtime-2
Salah satu fitur utama yang diperkenalkan OpenAI adalah GPT-Realtime-2. Model terbaru ini merupakan pengembangan dari GPT-Realtime-1.5 yang sebelumnya sudah digunakan untuk kebutuhan percakapan berbasis suara.
Bedanya, GPT-Realtime-2 kini dibangun menggunakan kemampuan penalaran setara GPT-5. Dengan teknologi tersebut, model AI ini diklaim mampu menangani permintaan pengguna yang lebih kompleks dibanding generasi sebelumnya.
OpenAI menjelaskan bahwa GPT-Realtime-2 dirancang untuk menciptakan simulasi suara yang realistis dan lebih natural ketika berinteraksi dengan pengguna. Jadi, percakapan yang terjadi tidak lagi terasa seperti sistem otomatis biasa, melainkan lebih mendekati komunikasi manusia secara langsung.
Kemampuan ini tentu membuka peluang besar bagi developer yang ingin menghadirkan pengalaman interaksi suara yang lebih modern di aplikasi mereka.
GPT-Realtime-Translate
Selain model percakapan suara terbaru, OpenAI juga meluncurkan GPT-Realtime-Translate. Sesuai namanya, fitur ini difokuskan untuk layanan penerjemahan real-time yang mampu mengikuti alur percakapan pengguna secara langsung.
Menariknya, sistem ini mendukung lebih dari 70 bahasa input, yaitu bahasa yang dapat dipahami AI, serta 13 bahasa output yang bisa diterjemahkan kembali kepada lawan bicara.
Dengan teknologi ini, komunikasi lintas bahasa menjadi jauh lebih mudah. Pengguna dapat berbicara menggunakan bahasa asli mereka, lalu sistem akan menerjemahkannya secara otomatis tanpa mengganggu ritme percakapan.
Fitur seperti ini diperkirakan akan sangat berguna untuk kebutuhan global, termasuk layanan pelanggan internasional, konferensi virtual, pendidikan daring, hingga komunikasi bisnis lintas negara.
GPT-Realtime-Whisper
OpenAI juga memperkenalkan kemampuan transkripsi terbaru bernama GPT-Realtime-Whisper. Fitur ini memungkinkan pengguna mengubah suara menjadi teks secara langsung ketika percakapan sedang berlangsung.
Artinya, setiap interaksi yang terjadi dapat langsung ditangkap dan ditampilkan dalam bentuk teks secara real-time. Teknologi ini tentu akan membantu banyak kebutuhan, terutama dalam dokumentasi rapat, pembuatan subtitle otomatis, hingga pencatatan percakapan digital.
Menurut OpenAI, kombinasi seluruh model baru ini membawa teknologi audio real-time ke level yang lebih tinggi. Tidak lagi sekadar sistem tanya-jawab sederhana, tetapi sudah mampu mendengarkan, memahami, menerjemahkan, mentranskripsikan, hingga mengambil tindakan selama percakapan berlangsung.
Ditujukan untuk Berbagai Industri
OpenAI menyebut bahwa fitur-fitur terbaru ini sangat cocok digunakan oleh perusahaan yang ingin meningkatkan kemampuan layanan pelanggan mereka. Namun, penggunaannya tidak terbatas di sektor tersebut saja.
Perusahaan juga menilai teknologi ini dapat dimanfaatkan di berbagai bidang lain seperti pendidikan, media, penyelenggaraan acara, hingga platform kreator konten.
Meski terlihat sangat menjanjikan, OpenAI tetap menyadari adanya potensi penyalahgunaan teknologi suara berbasis AI. Karena itu, perusahaan mengaku telah menanamkan berbagai guardrails atau sistem pengaman untuk mencegah penyalahgunaan seperti spam, penipuan, maupun bentuk pelanggaran digital lainnya.
Baca Juga : Anthropic dan OpenAI Luncurkan Joint Venture untuk Layanan AI Enterprise
OpenAI menjelaskan bahwa sistem mereka memiliki pemicu tertentu yang dapat menghentikan percakapan apabila terdeteksi melanggar kebijakan konten berbahaya.
Seluruh model suara terbaru ini kini sudah tersedia melalui Realtime API milik OpenAI. Untuk sistem pembayaran, GPT-Realtime-Translate dan Whisper akan dikenakan biaya berdasarkan durasi penggunaan per menit, sedangkan GPT-Realtime-2 menggunakan sistem perhitungan berbasis konsumsi token.


