Bárki hangját képes utánozni a Microsoft új mesterséges intelligenciája

Bárki hangját képes utánozni a Microsoft új mesterséges intelligenciája
3 másodperc alatt bárkitől eltanulja a beszédstílusát a Microsoft által fejlesztett VALL-E intelligenciamodell. Ezzel komplett szövegek felolvasása válik lehetségessé anélkül, hogy valódi embereket kellene alkalmazni. A technológia pedig lehetőséget ad arra is, hogy egy felvétel tartalmát akár utólag szerkesszék.

A VALL-E egy neurális nyelvmodell (neural coding language), amely a Meta által 2022 októberében bemutatott EnCodec technológiájára épül - írja a qubit.hu. Ez a tömörítési megoldás az elterjedten alkalmazott MP3 formátumhoz képest 10-szeres tömörítést tesz lehetővé audiofájlokon a mesterséges intelligencia használatával. A Meta szerint erre a Metaverzum információinak tárolása miatt van szükség, de a VALL-E fejlesztése is azt mutatja, hogy más területeken is alkalmazható.

Az intelligens beszédszintetizátor a hangminta alapján felismert sajátosságokat képes alkalmazni más szövegrészletek felolvasásakor. Más módszerekkel ellentétben nem hullámformák manipulációját aknázza ki, hanem helyette diszkrét audiokódokat generál a szöveg és az akusztikus jellemzők alapján.

Részleteiben elemzi a beszédmintát, a jellemzőket pedig az EnCodec segítségével összetevőnként (tokenenként) rögzíti, majd ezeket alkalmazza a felolvasáskor. Erre több példa is elérhető a VALL-E weboldalán, ahol a Meta által összeállított LibriLight hangkönyvtáron kiképzett intelligencia egy sor minta felolvasásával demonstrálja tudását. A teljes cikk itt folytatódik.

Kövesd az oldalunkat a Facebook-on és a Twitteren is!