X

Meta, insan sesini taklit etmek için Spirit LM yapay zeka modelini başlattı

Meta, insan sesini taklit etmek için Spirit LM yapay zeka modelini başlattı
Salı 22 Ekim 2024 - 08:45
Zoom

Meta, ses üretiminde yapay zekadaki multimodal modellerle ilgili zorlukları ele alan yeni açık kaynak modeli “Spirit LM”yi piyasaya sürdü.

Yeni model, daha karmaşık ve gerçekçi yollarla sesli iletişim kurabilen akıllı robotların geliştirilmesinde ileri bir adım olan, daha doğal ve etkileyici bir ses deneyimi sunmayı amaçlıyor.

"Spirit LM" modeli, 7 milyar parametre içeren, önceden eğitilmiş bir dil modeline dayanmaktadır ve otomatik konuşma tanıma (ASR) teknolojilerine dayanan geleneksel modellerden sesi farklı şekilde işleme yeteneğiyle öne çıkmaktadır.

Meta, geleneksel yaklaşımın sesin birçok doğal ifadesinin kaybolmasıyla sonuçlandığına dikkat çekiyor. Bu nedenle Spirit LM, bu sınırlamaların üstesinden gelmek için fonemlerin, tonların ve perdelerin kullanımına güvenerek, doğal sesler üretmesine ve konuşma tanıma, metinden metne dönüştürme ve ses sınıflandırması gibi yeni görevleri öğrenmesine olanak tanır.

Meta, bu modeli bir araştırma makalesinde ortaya koydu ve modelin ses performansı örneklerinin yanı sıra "Spirit LM"nin geliştirilmesine yol açan araştırmanın ayrıntılarına da değinerek gelecekteki yetenekleri hakkında net bir fikir verdi.

Model şu anda geliştiricilerin ve araştırmacıların kullanabileceği ve genişletebileceği açık kaynaklı bir proje olarak mevcut ve gelecekte WhatsApp, Instagram ve Facebook gibi meta uygulamalarda da kullanılması ve kullanıcıların doğal ses aracılığıyla yapay zeka ile etkileşime girmesine olanak sağlanması bekleniyor. . OpenAI tarafından yakın zamanda tanıtılan gelişmiş ses moduna benzer ifadelerle dolu konuşmalar.


Devamını oku