Nowy wynalazek związany ze sztuczną inteligencją pozornie nie wydaje się niczym groźnym, ani specjalnie odkrywczym, bo przecież od lat znamy programy przetwarzające tekst na mowę. Tym razem jest jednak trochę inaczej, bo VALL-E potrafi skutecznie naśladować czyjś głos, jego tembr czy emocje, i to w dodatku na podstawie jedynie 3-sekundowej próbki.
- Bierzemy krótkie nagranie wypowiedzi dowolnej osoby, które jest przetwarzane przez model sztucznej inteligencji - mówi Wojtek Wiman, autor podcastu o nowych technologiach. - To wystarczy, by sieć neuronowa opracowała kodek dźwiękowy, który może powiedzieć dowolny tekst. Na razie efektów nikt nie widział i nie słyszał, jednak Microsoft zapowiada, że to potężne narzędzie.
Rozmówca Mateusza Kulika zwraca uwagę, że technologiczny gigant zainwestował olbrzymie pieniądze w firmę Open AI. - Pracuje ona nad ostatnio znanym i popularnym Chatem GPT, czyli modelem sztucznej inteligencji, który jest w stanie wyciągać informacje z internetu - tłumaczy. - Na tej podstawie może generować odpowiedzi na pytania, jakie zadamy.
Trzy sekundy dźwięku wydaje się bardzo mało, jednak według zapewnień firmy, jest to wystarczający czas, żeby sztuczna inteligencja mogła zadziałać. - Dotychczas do podobnej analizy potrzeba było dużo więcej materiału źródłowego. Terabajty danych - wyjaśnia specjalista. - Teraz, według zapowiedzi, wystarczy jedynie krótkie instastories danej osoby, żeby "jej głosem" powiedzieć dowolną rzecz. Myślę, że Microsoft wie, jak niebezpieczne może być to narzędzie, jeśli nie będzie zastosowane zgodnie z założeniami.
Zobacz także:
Sztuczna inteligencja nauczyła się tego naśladownictwa na podstawie 60 tysięcy próbek mowy angielskiej. W tym kontekście powinniśmy uważać na głuche telefony, z czasem może pojawić się nowy sposób oszustwa telefonicznego, podszywanie się pod znane nam osoby.
05:05 Czwórka/Pierwsze słyszę - VALL-E - sztuczna inteligencja dźwięk 17.01.2023.mp3 VALL-E - sztuczna inteligencja potrafi skutecznie naśladować czyjś głos (Pierwsze słyszę/Czwórka)
VALL-E to zagrożenie, ale też szansa w wielu dziedzinach naszego życia. Możemy wejść na nowy poziom tworzenia treści. - Wyobraźmy sobie połączenie tych dwóch narzędzi, czyli czatu GPT, który generuje całkiem sensowne treści, plus nowe narzędzie, które jest w stanie mówić naszym głosem - opowiada Wojtek Wiman. - Uzyskujemy wówczas zautomatyzowany proces tworzenia treści audio na podstawie pojedynczych słów, które wpiszemy do Czatu GPT. Wydaje się to dość ciekawa wizja. Jednak, jak przy każdym wynalazku - wszystko zależy od tego, jak i w jakim celu będzie wykorzystany.
***
Tytuł audycji: Pierwsze słyszę
Prowadzi: Kamil Jasieński
Materiał: Mateusz Kulik
Data emisji: 17.01.2023
Godzina emisji: 07.30
aw/pj