Penggiat video AI generatif Tavus mengumpul $18 juta untuk membawa pengklonan wajah dan suara ke mana-mana aplikasi

Tavus, sebuah syarikat startup AI generatif berusia empat tahun yang membantu syarikat-syarikat mencipta "replika" digital individu untuk kempen video peribadi secara automatik, telah mengesahkan pendanaan baru sebanyak $18 juta dan mendedahkan bahawa ia membuka platformnya untuk pihak ketiga untuk mengintegrasikan perisian mereka dengan teknologi syarikat.

Laporan muncul pada bulan Ogos bahawa Tavus telah mengumpul "kira-kira $18 juta," tetapi butiran kurang. Syarikat itu kini mengesahkan kepada TechCrunch bahawa ia memang telah mengumpul $18 juta dalam putaran Siri A yang dipimpin oleh Scale Venture Partners - sebuah VC peringkat awal yang sebelum ini menyokong syarikat-syarikat seperti Box, HubSpot, dan DocuSign. Pelabur-pelabur lain yang terkemuka termasuk Sequoia, yang mengarahkan putaran benih $6.1 juta Tavus tahun lalu, yang turut serta bersama Y Combinator (YC) dan HubSpot.

Tavus memanfaatkan AI generatif untuk memberi daya kepada video peribadi dengan pengklonan suara dan wajah

Video mengambil peranan utama

Gerakan AI generatif paling baik diwakili oleh enjin carian berasaskan teks seperti ChatGPT dan model teks-ke-gambar seperti DALL-E, yang OpenAI sedang menggabungkannya menjadi satu platform yang menyanyi. Tetapi jika beberapa bulan ke belakang menjadi petanda apa-apa, AI generatif mungkin akan menghadapi revolusi kecil lagi, dengan video mengambil peranan utama.

Baru-baru ini, OpenAI melancarkan Sora, sebuah model teks-ke-video yang boleh mengubah industri kreatif seperti yang kita tahu. Tetapi tidaklah satu-satunya pemain, dengan raksasa teknologi seperti Google yang bekerja pada perisian sejenis selama beberapa tahun, tanpa menyebut jumlah syarikat startup yang telah mengumpul sejumlah wang modal risiko modal dalam setahun lalu untuk pelaksanaan berbagai pengenalan bagaimana AI generatif mungkin bertemu dengan video.

Tavus, seterusnya, bekerjasama dengan pelanggannya untuk mencipta replika individu melalui pengklonan suara dan wajah. Idea ini adalah bahawa pasukan jualan dan pemasaran boleh menggunakan Tavus untuk menghantar video peribadi kepada prospek dalam skala besar, atau mungkin pasukan produk boleh membuat video panduan peribadi untuk penerimaan pelanggan baru - semua melalui arahan teks mudah yang memanfaatkan replika digital yang sebelumnya dicipta. Dan dengan mengintegrasikan Tavus dengan sistem pihak ketiga seperti Salesforce atau Mailchimp, syarikat boleh mengautomasikan banyak perkara ini - contohnya, pelanggan yang menyelesaikan borang dalam talian meminta maklumat lanjut tentang produk boleh dihantar video dengan segera, dengan wakil jualan menyebut nama prospek dan menerangkan langkah seterusnya.

Tavus telah berjaya menarik beberapa pelanggan terkenal dalam tempoh singkatnya selama ini, termasuk Salesforce dan Meta ibu bapa Facebook, yang pengasas bersama dan CEO Hassaan Raza mengatakan sedang menggunakan platform itu untuk menaiktarafkan kepada pelanggan B2B mereka menerusi demo video peribadi.

Tavus sebagai platform

Penclonan Tavus di dalam tindakan. Kredit Gambar: Tavus

Setelah itu digunakan untuk melatih AI, selepas itu pengguna pergi ke editor web dan memilih bahagian video yang ingin dipersonakan dengan menentukan pembolehubah - seperti lokasi, nama eksekutif, syarikat, atau produk. Dengan mengaitkan Tavus dengan sistem CRM mereka, syarikat boleh menyesuaikan setiap pembolehubah ini untuk sesuai dengan segmen pelanggan tertentu, seperti mereka yang telah menyatakan minat dalam produk tertentu.

Mengedit pembolehubah. Kredit Gambar: Tavus

Syarikat boleh mencipta ratusan replika ini dengan pelbagai personel yang terlibat, lengkap dengan latar belakang yang berbeza untuk pasaran sasaran yang berbeza.

Melalui editor aplikasi, ia memungkinkan untuk menghasilkan sebarang jumlah skrip yang berbeza untuk dilampirkan kepada setiap skrip penggunaan - tanpa perlu merekod semula mana-mana video asal.

Avatar Tavus yang berbeza. Kredit Gambar: Tavus

Walaupun produk SaaS utama ini tidak akan hilang, Tavus hari ini membongkar versi berteknologi tinggi baru teknologinya bersama dengan bahagian pertama dari rangkaian API pembangun yang mengizinkan pihak ketiga mengintegrasikan Tavus ke dalam aplikasi mereka sendiri.

Mereplikasi

Faset pertama platform pembangun baru Tavus yang tiba adalah “API replika,” yang membabitkan penciptaan replika digital "realistik" lengkap dengan generasi teks-ke-video. Dengan ini, sebuah syarikat boleh mewakili seseorang (contohnya, ketua pemasaran atau CEO) menggunakan model eksklusif baru yang dicipta oleh Tavus yang dikenali sebagai "Phoenix," yang berdasarkan kaedah pembelajaran mendalam yang dipanggil bidang neurona sinaran (NeRF). Ini boleh menghasilkan konstruk 3D seseorang dari gambar 2D hanya dalam beberapa minit.

“Pada dasarnya membolehkan anda membuat video sepenuhnya hanya dengan dua minit data latihan, yang merupakan lonjakan besar dari cara kita sebelum ini melakukan personalisasi secara besar-besaran” kata Raza kepada TechCrunch. “Dan sekiranya anda hanya perlu merekodkan dua minit data latihan, ia akan mencipta replika penuh anda. Dan setelah anda mempunyai replika, anda boleh membuat sebanyak video yang anda mahu - dari satu, dua, atau seribu skrip.”

Simulasi yang menunjukkan bagaimana Tavus memetakan wajah pengguna untuk mencipta replika yang realistik. Kredit Gambar: Tavus
Output: Model Phoenix Tavus membina model 3D menggunakan input video 2D melalui NeRF. Kredit Gambar: Tavus

API replika pertama bergantung pada keseluruhan fungsionaliti model Phoenix dan menangkap pergerakan wajah individu, termasuk pipi, hidung, kening, dan bibir.

“Menggerakkan seluruh wajah anda meningkatkan realisme, keaslian dan kualiti - apabila anda bercakap, wajah anda mengungkapkan emosi melampaui bibir anda bergerak,” jelas Raza. “Jika anda ingin menghasilkan video keseluruhan dari skrip - di mana anda bercakap, yang kelihatan semulajadi dan berkualiti tinggi - anda akan ingin menggunakan API replika.”

Walau bagaimanapun, Tavus juga sedang mengembangkan beberapa API tambahan, termasuk satu khusus untuk lip-sync, satu untuk dubbing, dan satu untuk menjalankan kempen video peribadi dalam jumlah besar.

API lip-sync akan memiliki “kos masuk yang lebih rendah,” menurut Raza, dan lebih baik bagi situasi di mana “darjah kualiti dan realisme yang tinggi tidak diperlukan.”

Sementara itu, API dubbing juga menggunakan model lip-sync tetapi termasuk pengklonan suara pelbagai bahasa juga, bermakna seorang pengguna monolingual boleh menghantar kempen video dalam mana-mana bahasa menggunakan suara mereka sendiri. Dalam kes ini, kerana kebanyakkan video akan tetap sama, API membolehkan penggantian yang mudah untuk pergerakan bibir menyelaraskan dengan bunyi yang berbeza yang keluar dari mulut pengguna itu. Ini boleh membuktikan berguna untuk pencipta perisian penyuntingan video, sebagai contoh, di mana mereka ingin membolehkan pengguna mereka menambah lip-syncing, penyuntingan, dan dubbing ke video mereka.

Dan kemudian API kempen video pada dasarnya menggabungkan API replika bersama sejumlah alat tambahan - seperti penginapan, pemetaan pembolehubah, gambar mini, dan analisis - bagi mereka yang ingin melancarkan kempen video dalam skala besar.

“Kami membawa kemampuan bagi mana-mana pembangun untuk menyediakan pengalaman kempen video end-to-end secara langsung, dalam penyelesaian mereka sendiri,” kata Raza. “Sementara API replika dan lip-sync lebih kepada 'model sebagai perkhidmatan,' API kempen memberi anda alat untuk membina platform kempen video AI dengan mudah.”

Raza tetap berhati-hati mengenai siapa beberapa pengguna awal platform Tavus, tetapi dia mengatakan bahawa ia “berkerjasama dengan salah satu platform video terbesar” untuk penglibatan pelanggan. “ Mereka ingin membawa ini kepada jutaan pelanggan mereka yang telah menggunakan platform mereka untuk membuat video setiap hari,” kata Raza.

Dilema Deepfake

Secara naluri, platform seperti Tavus berpotensi untuk disalahgunakan - pada dasarnya, siapakah yang menghalang mana-mana orang dari memuat naik video sedia ada untuk mencipta replika digital? Deepfake memang merupakan kebimbangan yang berkembang dalam gerakan AI yang berkembang, tetapi Raza mengatakan mereka mempunyai langkah-langkah untuk mengelakkan penipuan. Sebagai contoh, apabila seorang pengguna mengemukakan dua minit rakaman latihan, mereka juga harus mengemukakan kenyataan persetujuan lisan tertentu, yang kemudiannya diselaraskan dengan audio dalam rakaman latihan untuk memastikan kelonggaran.

“Kami menjalankan pemeriksaan ini secara automatik, dan kemudian melakukan pemeriksaan manusia untuk setiap replika yang berjaya melewati pemeriksaan automatik untuk memastikan keselamatan,” kata Raza.

Nampak mudah bagaimana ia boleh berfungsi dengan Tavus sebagai aplikasi SaaS berdiri sendiri, tetapi sekarang apabila ia menjadi platform diakses oleh mana-mana syarikat melalui API, siapakah yang mengawal pengesahan pada masa itu? Jadi, sebagaimana yang berlaku, Tavus - syarikat ingin mengekalkan pengawalan terhadap pengesahan, walaupun ia hanya menyediakan jentera untuk pembangun pihak ketiga.

“Kami menjalankan pemeriksaan yang sama, dan menganggap bertanggungjawab untuk verifikasi dengan [yang] API juga,” terus kata Raza

Memperluaskan realiti

Walaupun OpenAI hampir menjadi wajah umum AI generatif, terdapat ruang yang mencukupi untuk pemain yang berbeza membawa sesuatu yang berbeza ke campuran. Memang, walaupun DALL-E dan model Sora yang baru sahaja dilancarkan oleh OpenAI kebanyakannya adalah tentang membantu orang mencipta visual dari arahan teks, Raza berkata, bahwa raison d'être Tavus lebih tentang memperluas realiti seseorang sendiri.

“Kami melihat masa depan di mana setiap orang ingin mempunyai replika digital mereka; mereka mengawalnya dan mereka mempunyai kuasa penuh ke atasnya,” kata Raza. “Dan ia akan penting untuk benar-benar menangkap lebih banyak personaliti anda, lebih banyak gerakan dan sifat anda. Itulah cara kami lihat perkara ke hadapan - akan ada model yang mencipta perkara yang tidak wujud, dan kemudian akan ada model yang memperluas realiti anda.”

Dengan $18 juta dalam bank, Raza berkata bahawa suntikan tunai baru-baru ini akan digunakan untuk “meletupkan api yang sudah terbakar” di menara Tavus.

“Kami adalah sebuah syarikat penyelidikan AI, jadi kami ingin dapat meneruskan pembangunan model-model baru seperti Phoenix,” Raza berkata. “Tetapi juga hanya mengekalkan pertumbuhan kami, kami telah menerima permintaan yang banyak secara terus-menerus. Dan kami ingin dapat terus menggaji pasukan pembelajaran mesin dan kejuruteraan kami untuk menyokong pelanggan pembangun dan SaaS kami secara berterusan.”