Alih-alih menggunakan alat orkestrasi siap pakai seperti Vapi atau LiveKit, AethexAI membangun model kecil dan lapisan orkestrasinya sendiri dari awal. Langkah ini diambil untuk mengatasi masalah laten dan jitter yang parah pada panggilan otomatis di kawasan tersebut, yang menurut salah satu pendirinya, Ayooluwa Odemuyiwa, "outrageous" atau sangat parah.
"Jika kami hanya menjadi orkestrator, kami harus menggunakan model besar yang dihosting di luar kawasan, yang mengakibatkan latensi lebih tinggi," kata Odemuyiwa, lulusan Caltech dan mantan insinyur Meta, kepada TechCrunch. "Kami menyadari agar ini berhasil, kami harus menggunakan model yang sangat kecil dan memotong latensi di setiap langkah."
Berbeda dengan laboratorium AI yang menghabiskan jutaan dolar untuk melatih model raksasa, AethexAI memilih jalur sebaliknya. Mereka mengembangkan seri model bernama Kora dengan parameter mulai dari 300 juta hingga 1,7 miliar — ukuran yang sangat kecil dibandingkan LLM pada umumnya. Tujuannya satu: menjaga akurasi sambil memangkas latensi.
Untuk melatih model ini, perusahaan menggunakan rekaman anonim dari mitra pusat panggilan. Mereka bahkan mengirimkan hard drive ke stasiun radio di seluruh Afrika untuk mengumpulkan lebih banyak data audio. Biaya pelabelan data ditekan dengan membangun jaringan kontributor dari mahasiswa yang bertugas mengucapkan nama-nama lokal.
Walter Baddoo, mitra pengelola 4DX Ventures yang memimpin putaran pendanaan ini, menjelaskan bahwa pasar Afrika dan Timur Tengah memiliki karakteristik unik. "Perusahaan di Afrika dan Timur Tengah memproses volume panggilan sekitar tiga kali lipat dari rekan-rekan mereka di Barat, karena suara masih menjadi saluran utama interaksi pelanggan," ujarnya.
Baddoo menambahkan bahwa sistem yang ada saat ini dibangun untuk pasar Barat dengan infrastruktur GPU kelas atas, lingkungan bicara standar Inggris dan Eropa, serta alur kerja perusahaan yang umum di AS dan Eropa. "Itu menciptakan kesenjangan nyata ketika perusahaan membutuhkan sistem yang menangani dialek, code-switching, dan pola bicara informal," katanya.
AethexAI didirikan oleh Mariama Diallo dan Ayooluwa Odemuyiwa. Diallo, CEO perusahaan, sebelumnya bekerja di Goldman Sachs dan kemudian bergabung dengan ModelML yang didukung Y Combinator sebagai produk dan pertumbuhan. Odemuyiwa, CTO, lulus dari Caltech, bekerja di Meta, dan sempat mendaftar di Stanford Business School sebelum mendirikan perusahaan.
Mereka berdua ingin membangun sesuatu untuk pasar negara berkembang. Dalam risetnya, mereka menemukan banyak pusat dukungan di Afrika yang kesulitan merekrut insinyur untuk mengotomatiskan panggilan dengan biaya yang tepat. Sebuah pusat panggilan di Mesir bahkan memundurkan sistem otomatisnya karena hasil yang buruk.
Di sisi bisnis, AethexAI mengambil pendekatan yang hati-hati. Mereka menawarkan demo langsung dan lokakarya untuk membantu klien mengidentifikasi kasus penggunaan terbaik untuk otomatisasi. "Kami selalu memberi tahu pelanggan bahwa kami tidak bisa menjadi segalanya untuk semua orang saat ini. Kami kecil," kata Diallo.
Saat ini, sebagian besar kasus penggunaan melibatkan panggilan untuk penagihan utang, aktivasi pelanggan, atau verifikasi KYC (Know Your Customer) yang lazim digunakan bank dan perusahaan telekomunikasi. Perusahaan juga merekayasa insinyur yang dikerahkan ke pasar lokal secara kontrak dan membangun kemitraan saluran dengan penyedia telekomunikasi untuk menangani teleponi panggilan suara AI.
Pendanaan awal sebesar 3 juta dolar AS ini juga diikuti oleh Enza Capital, Dorm Room Fund, Mojo Ventures, dan Stanford GSB 26 Fund, serta investor individu dari fakultas Stanford, eksekutif telekomunikasi, dan peneliti AI dari Anthropic.