Mantan kepala Snap AI meluncurkan Higgsfield untuk menantang generator video Sora dari OpenAI

Beberapa bulan yang lalu, OpenAI menarik perhatian dunia teknologi dengan model AI generatif, Sora, yang mengubah deskripsi adegan menjadi video asli — tanpa kamera atau kru film yang diperlukan. Namun, Sora sejauh ini telah sangat terkunci, dan perusahaan tampaknya mengarahkannya kepada kreator yang didanai dengan baik seperti sutradara Hollywood — bukan hobi atau pemasar kecil, pada umumnya.

Alex Mashrabov, mantan kepala AI generatif di Snap, melihat peluang. Jadi, ia meluncurkan Higgsfield AI, platform pembuat dan penyunting video yang didukung oleh AI dirancang untuk aplikasi yang lebih disesuaikan, personal.

Dengan didukung oleh model teks-ke-video kustom, aplikasi pertama Higgsfield, Diffuse, dapat menghasilkan video dari awal atau mengambil selfie dan menghasilkan klip yang dibintangi oleh orang tersebut.

“Audience target kami adalah para kreator dari berbagai macam jenis,” kata Mashrabov kepada TechCrunch dalam sebuah wawancara, “mulai dari pengguna reguler yang ingin membuat konten yang menyenangkan dengan teman-teman mereka hingga kreator konten sosial yang ingin mencoba format konten baru hingga pemasar media sosial yang ingin merek mereka menjadi menonjol.”

Mashrabov bergabung dengan Snap melalui AI Factory, startup sebelumnya, yang dibeli oleh Snap pada tahun 2020 seharga $166 juta. Selama di Snap, Mashrabov membantu membangun produk seperti efek AR dan filter untuk Snapchat, termasuk Cameos, serta MyAI chabot yang kontroversial di Snapchat.

Higgsfield — yang diluncurkan bersama oleh Mashrabov beberapa bulan yang lalu dengan Yerzat Dulat, seorang peneliti AI yang mengkhususkan diri dalam video generatif — menawarkan serangkaian klip pra-dibuat yang dipilih, alat untuk mengunggah media referensi (misalnya gambar dan video) dan penyunting prompt yang memungkinkan pengguna menjelaskan karakter, aksi, dan adegan yang ingin mereka gambarkan. Dengan menggunakan Diffuse, pengguna dapat menyisipkan diri mereka sendiri langsung ke dalam adegan yang dihasilkan oleh AI, atau memiliki kemiripan digital mereka menirukan hal-hal — seperti gerakan tarian — yang tertangkap dalam video lain.

“Model kami mendukung gerakan dan ekspresi yang sangat realistis,” kata Mashrabov. “Kami memimpin 'model dunia' untuk konsumen, yang akan memungkinkan kami membangun generasi video dan penyuntingan terbaik dalam kelasnya dengan tingkat kontrol yang hebat.”

Higgsfield bukanlah satu-satunya startup video generatif yang bersaing dengan OpenAI. Runway adalah salah satu yang pertama muncul, dan alat-alatnya terus berkembang. Ada juga Haiper, yang didukung oleh dua mantan pegawai DeepMind dan lebih dari $13 juta dalam dana ventura.

Mashrabov berpendapat bahwa Diffuse akan lebih menonjol karena strategi pasar yang bersifat mobile-first, social-forward.

“Dengan memberikan prioritas pada aplikasi iOS dan Android daripada alur kerja desktop, kami memungkinkan kreator untuk membuat konten media sosial yang memikat kapan saja dan di mana saja,” ujar Mashrabov. “Memang, dengan membangun di platform mobile, kami dapat memberikan prioritas pada kemudahan penggunaan dan fitur-fitur yang ramah pengguna sejak hari pertama.”

Higgsfield juga beroperasi secara hemat. Mashrabov mengatakan bahwa model generatif yang mendasari platform tersebut dikembangkan oleh tim 16 orang dalam waktu kurang dari sembilan bulan dan dilatih pada sebuah klaster 32 GPU (32 GPU mungkin terdengar banyak, tetapi mengingat OpenAI menggunakan puluhan ribu, sebenarnya tidak begitu banyak). Dan Higgsfield hanya menggalang $8 juta hingga saat ini, sebagian besar berasal dari sumber pendanaan awal baru-baru ini yang dipimpin oleh Menlo Ventures.

Untuk tetap selangkah lebih maju dari pesaing, Higgsfield berencana menggunakan dana tersebut untuk membangun penyunting video yang lebih baik yang memungkinkan pengguna memodifikasi karakter dan objek dalam video, serta melatih model generasi video yang lebih kuat khusus untuk kasus penggunaan media sosial. Faktanya, Mashrabov melihat media sosial — dan pemasaran media sosial — sebagai niche penghasilan utama Higgsfield.

Walaupun Diffuse saat ini gratis untuk digunakan, Mashrabov membayangkan masa depan di mana pemasar membayar semacam biaya atau langganan untuk fitur premium, atau untuk volume atau kampanye besar-besaran.

“Kami percaya Higgsfield membuka level realisme yang luar biasa dan kasus penggunaan produksi konten untuk pemasar media sosial,” ujarnya. “Kami terus mendengar dari CMO dan direktur kreatif bahwa mereka perlu mengoptimalkan anggaran produksi konten dan mempersingkat jangka waktu sambil tetap menghasilkan konten yang berdampak. Jadi kami percaya solusi AI generatif video akan menjadi solusi inti dalam membantu mereka mencapainya.”

Tentu saja, Higgsfield tidak luput dari tantangan lebih luas yang dihadapi oleh startup AI generatif.

Sudah jelas bahwa model AI generatif seperti yang menggerakkan Diffuse dapat “mencerna” data pelatihan. Mengapa itu menjadi masalah? Nah, jika model-model tersebut dilatih pada konten berhak cipta tanpa izin atau perjanjian lisensi tertentu, pengguna model-model tersebut bisa tidak sengaja menghasilkan karya pelanggaran hak cipta — yang dapat mengekspos mereka pada gugatan.

Mashrabov tidak akan mengungkapkan sumber data pelatihan Higgsfield (selain mengatakan bahwa datang dari “beberapa tempat yang tersedia untuk umum”), dan juga tidak akan mengatakan apakah Higgsfield akan menyimpan data pengguna untuk melatih model-model masa depan, yang mungkin tidak sesuai dengan sebagian pelanggan bisnis. Namun ia mencatat bahwa pengguna Diffuse dapat meminta agar data mereka dihapus kapan saja melalui aplikasi.

Platform “kloning” digital seperti Higgsfield juga rentan terhadap penyalahgunaan, seperti yang ditunjukkan oleh penyebaran deepfake yang meluas di media sosial dalam beberapa bulan terakhir.

Di sisi lain, Higgsfield dapat mempermudah pencurian konten kreator. Misalnya, seseorang hanya perlu mengunggah video koreografi seseorang untuk menghasilkan video dari diri mereka sendiri menari koreografi yang sama.

Saya bertanya kepada Mashrabov tentang perlindungan atau mekanisme pengamanan apa yang mungkin digunakan oleh Higgsfield untuk mencoba mencegah penyalahgunaan, dan — meskipun ia tidak memberikan detail khusus — ia mengklaim bahwa platform tersebut menggunakan campuran moderasi otomatis dan manual.

“Kami telah memutuskan untuk secara bertahap meluncurkan produk dan menguji di pasar-pasar tertentu terlebih dahulu, sehingga kami dapat memantau di mana potensi penyalahgunaan dan mengembangkan produk sesuai kebutuhan,” tambah Mashrabov.

Kita harus menunggu dan melihat seberapa baik itu berfungsi dalam prakteknya.