Wystarczą trzy sekundy nagrania, by naśladować głos?

Ostatnia aktualizacja: 17.01.2023 11:15
Sztuczna inteligencja z miesiąca na miesiąc sięga po nowe osiągnięcia. Tym razem po nasz głos. Trzy sekundy próbki dźwięku wystarczą jej by skutecznie naśladować czyjś głos, jego tembr czy emocje. To może być też zagrożeniem. 
Trzy sekundy dźwięku wystarczą sztucznej inteligencji, żeby skutecznie naśladować czyjś głos
Trzy sekundy dźwięku wystarczą sztucznej inteligencji, żeby skutecznie naśladować czyjś głosFoto: shutterstock/lassedesignen

Nowy wynalazek związany ze sztuczną inteligencją pozornie nie wydaje się niczym groźnym, ani specjalnie odkrywczym, bo przecież od lat znamy programy przetwarzające tekst na mowę. Tym razem jest jednak trochę inaczej, bo VALL-E potrafi skutecznie naśladować czyjś głos, jego tembr czy emocje, i to w dodatku na podstawie jedynie 3-sekundowej próbki. 

- Bierzemy krótkie nagranie wypowiedzi dowolnej osoby, które jest przetwarzane przez model sztucznej inteligencji - mówi Wojtek Wiman, autor podcastu o nowych technologiach. - To wystarczy, by sieć neuronowa opracowała kodek dźwiękowy, który może powiedzieć dowolny tekst. Na razie efektów nikt nie widział i nie słyszał, jednak Microsoft zapowiada, że to potężne narzędzie.

Rozmówca Mateusza Kulika zwraca uwagę, że technologiczny gigant zainwestował olbrzymie pieniądze w firmę Open AI. - Pracuje ona nad ostatnio znanym i popularnym Chatem GPT, czyli modelem sztucznej inteligencji, który jest w stanie wyciągać informacje z internetu - tłumaczy. - Na tej podstawie może generować odpowiedzi na pytania, jakie zadamy.

Trzy sekundy dźwięku wydaje się bardzo mało, jednak według zapewnień firmy, jest to wystarczający czas, żeby sztuczna inteligencja mogła zadziałać. - Dotychczas do podobnej analizy potrzeba było dużo więcej materiału źródłowego. Terabajty danych - wyjaśnia specjalista. - Teraz, według zapowiedzi, wystarczy jedynie krótkie instastories danej osoby, żeby "jej głosem" powiedzieć dowolną rzecz. Myślę, że Microsoft wie, jak niebezpieczne może być to narzędzie, jeśli nie będzie zastosowane zgodnie z założeniami.

Zobacz także:


Sztuczna inteligencja nauczyła się tego naśladownictwa na podstawie 60 tysięcy próbek mowy angielskiej. W tym kontekście powinniśmy uważać na głuche telefony, z czasem może pojawić się nowy sposób oszustwa telefonicznego, podszywanie się pod znane nam osoby.


Posłuchaj
05:05 Czwórka/Pierwsze słyszę - VALL-E - sztuczna inteligencja dźwięk 17.01.2023.mp3 VALL-E - sztuczna inteligencja potrafi skutecznie naśladować czyjś głos (Pierwsze słyszę/Czwórka)

 

VALL-E to zagrożenie, ale też szansa w wielu dziedzinach naszego życia. Możemy wejść na nowy poziom tworzenia treści. - Wyobraźmy sobie połączenie tych dwóch narzędzi, czyli czatu GPT, który generuje całkiem sensowne treści, plus nowe narzędzie, które jest w stanie mówić naszym głosem - opowiada Wojtek Wiman. - Uzyskujemy wówczas zautomatyzowany proces tworzenia treści audio na podstawie pojedynczych słów, które wpiszemy do Czatu GPT. Wydaje się to dość ciekawa wizja. Jednak, jak przy każdym wynalazku - wszystko zależy od tego, jak i w jakim celu będzie wykorzystany.


***

Tytuł audycji: Pierwsze słyszę

Prowadzi: Kamil Jasieński

Materiał: Mateusz Kulik

Data emisji: 17.01.2023

Godzina emisji: 07.30

aw/pj

Czytaj także

Lokomotywa od środka - jak uruchomić pociąg?

Ostatnia aktualizacja: 13.09.2021 16:20
W naszym kolejowym cyklu tym razem wsiadamy do lokomotywy i sprawdzamy, na czym polega praca maszynisty.
rozwiń zwiń
Czytaj także

Struny głosowe - jak działają i jak o nie dbać?

Ostatnia aktualizacja: 14.10.2022 15:28
Głos jest głównym narzędziem pracy dla dziennikarzy, aktorów, lektorów, a także nauczycieli. W Dniu Nauczyciela sprawdzamy, jak zbudowane są struny głosowe i jak o nie dbać.  
rozwiń zwiń