Українська Служба

«ЧИ/Я ІНФОРМАЦІЯ». Дипфейк: стежмо за жестикуляцією, рухом рота й відмінюванням числівників

20.08.2024 17:15
Експертка Центру досліджень і розвитку у групі аналізу deepfake Науково-дослідного інституту NASK Йоанна Ґаєвська говорить про те, як виготовляються та де і як використовуються візуальні та звукові дипфейки, як відрізнити справжнє відео від фейкового та уникнути гачка шахраїв, які використовують фальшиві повідомлення з голосом чи зображенням
Аудіо
  • ЧИ/Я ІНФОРМАЦІЯ: Ася Ґаєвська про створення та використання дипфейків
Ілюстраційне фотоhttps://pxhere.com/CC0 Domena publiczna

Сьогодні дуже багато говориться про дипфейки, у різних ситуаціях. Тож, може, розпочнімо з найпростішого: що таке дипфейки. Тоді ми, може, зрозуміємо, чому про це стільки розмов.

Deepfake - це звукова, образна чи навіть аудіовізуальна маніпуляція, створена за допомогою методів штучного інтелекту, у більшості випадків із метою маніпулювання чиїмось зображенням або, наприклад, голосом. Часто використовується для крадіжки «особистості», особистих даних.

Можемо трохи розширити визначення deepfake, тобто, наприклад, говорити про створення матеріалів, які облудно нагадують реальність. Це можуть бути, скажімо, різні космічні фотографії, або пейзажні фотографії, або навіть фотографії певних подій, протестів тощо. Найчастіше ми говоримо про дипфейки в контексті крадіжки особистих даних, коли чиєсь зображення використовується, приміром, для генерації якогось маніпуляційного змісту, де прем'єр-міністр говорить те, чого ніколи не говорив, або створене за допомогою штучного інтелекту зображення, яке облудно нагадує протест фермерів, як би він міг виглядати.

В Інтернеті вже є фото такого типу, де зумисно нагнітається якась проблема. От показане фото, де багато поляків із прапорами, разом із фермерами стоять на кордоні. А при перевірці виявляється, що це дипфейк, це згенероване фото.

Чи дипфейки можна використовувати лише з маніпуляційною метою, чи є інші способи застосування?

Загалом цю технологію deepfake можна використовувати двома способами. Часто використовується з позитивною метою, наприклад, у фільмі.

Так, у фільмі «Форсажі» за допомогою технології deepfake замінили обличчя актора, який помер. Можна використовувати у мистецтві, щоб створювати красиву музику чи безпрецедентні зображення, його також можна використовувати для перекладу, коли ми можемо говорити будь-якою мовою власним голосом, або просто для розваги чи навчання. Але, на жаль, переважно використання цієї технології знаходиться по тій темній стороні.

Це однозначно дезінформація, яка дуже тривожна, оскільки ми звикли, що те, що ми бачимо та чуємо, ймовірно, є реальним, тому що досі було важко маніпулювати даним зображенням чи відеоматеріалом таким простим способом. Тепер це дуже просто.

Тож дезінформація, різні види шахрайства. Фінансове шахрайство, безумовно, зараз у тренді, коли імідж знаменитостей чи політиків, чи загалом людей, які мають суспільну довіру, використовується для стимулювання різних видів фінансових інвестицій, які є просто великим шахрайством. Для різних типів виманювання. Так дипфейки використовуються для виманювання у нас конфіденційної та чутливої ​​інформації. Це теж велика загроза.

Дипфейки часто використовуються просто для дискредитації, підриву довіри та виборчого маніпулювання, що в наш час надзвичайно небезпечно, бо ми не знаємо, чому вірити, оскільки навіть аудіовізуальними матеріалами можна дуже легко маніпулювати.

А також, на жаль, дипфейки беруть свій початок із порнографії, активно використовуються у виготовленні порнографії, оскільки набагато цікавіше переглядається порнографічний матеріал за участю голлівудських зірок, ніж за участю невідомих акторів. Що ще гірше — дипфейки також можуть використовуватися для підготовки матеріалів із сексуальним використанням дітей, що є просто жорстоким.

Ще нещодавно легко було зробити дипфейк із голосом чи фото, а відео все одно трималося, бо виготовити відеодипфейк було досить дорого. Це вже змінилося, і тепер можна робити відео дуже дешево, так?

Ми можемо легко маніпулювати відео, зараз це найчастіше робиться шляхом створення спочатку аудіодипфейку певної людини. Скажімо, ми хочемо зманіпулювати відео прем'єр-міністра, щоби він нібито сказав те, чого він ніколи насправді не говорив. Створити такий аудіодипфейк дуже легко. Беремо зразок голосу прем'єр-міністра, тренуємо на ньому модель, а потім модель здатна створювати текст, який ми вводимо в такий генератор, тобто ми маємо згенерований голос прем’єр-міністра, який говорить те, чого насправді ніколи не говорив.

Потім ми беремо справжній відеозапис прем’єр-міністра, який говорить про щось у певній ситуації, і синхронізуємо рухи губів із його реального відео зі створеною нами звуковою доріжкою. Ось так ми маємо відеодипфейк. Тож тоді просто на реальному відео просто маніпулюють губами, і створюється фальшивий саундтрек.

У цих матеріалів, звичайно, є свої недоліки, вони не ідеальні, але їх дуже легко зробити і вони дуже поширені в наш час.

Виникає логічне запитання, як відрізнити справжнє відео від фейкового. Зовсім недавно можна було відрізнити за тим, як ворушиться волосся, наприклад, чи за пальцями, але вже ні?...

Цей приклад дипфейків, про які ви говорите, це часто фотографії, створені «з нуля», або, наприклад, ціла маска накладена на заміненого актора. Тож маємо модель, навчену на десятках тисяч фотографій, скажімо, на обличчі нашого прем’єр-міністра.

Маємо тут підставного актора, на якого одягають маску нашого прем’єр-міністра, а потім роблять дипфейк. Це метод заміни обличчя. Він ефективний, і ці дипфейки хорошої якості, але цим рідко користуються шахраї.

Найчастіше все-таки це ця синхронізація губів на реальному записі з фальшивою звуковою доріжкою. І в цьому виді дипфейку виникають помилки, такі як розмиття навколо рота або неправильне відображення зубів, вони можуть бути надто різкими порівняно з усім зображенням або, наприклад, можуть бути розмитими чи відсутніми взагалі. Тож в основному зосереджуємося на губах, бо саме там виконуються модифікації. Також може спостерігатися розмиття фону навколо щелепи або, наприклад, якщо мікрофон розміщено перед персонажем, борода може перекривати мікрофон.

Також можуть бути помилки в самій звуковій доріжці. Сучасні моделі, які генерують таке синтетичне мовлення, мають величезну проблему з відмінюванням числівників. Часто шахраї вводять їх за допомогою цифр, і моделі не можуть коректно змінити слова «у дві тисячі двадцять першому році», але буде, «у двадцять один».

І на це треба звертати увагу. Також на різні види відмінювання інших слів, бо це теж проблема. Це найважливіші пункти, за якими ми можемо визначити, що це фейковий матеріал.

Крім того, наприклад, невідповідність руху губ вимовленому змісту, тобто голос говорить одне, а губи рухаються інакше. Або, наприклад, жестикуляція та мова тіла не відповідають змісту сказаного. Голос може бути приглушеним і спокійним, а на екрані ми бачимо, як хтось дуже енергійно жестикулює. Це вже повинно викликати у нас підозру.

Інколи можемо бачити, як голос і рух губів на відео не збігаються, ніби щось одне з них запізнюється. Це може просто технологічна похибка. Як тут упоратися й розрізнити, чи це дипфейк чи ні?

Ну тут є певна проблема, що ми можемо впадати в певну крайність і шукати дипфейки скрізь, де їх навіть не існує, бо часто це також можуть бути просто технічні помилки або помилки передачі, які також трапляються. Тому так важко вловити ці справжні дипфейки, бо вони справді часто досить розмиті та показують так, ніби когось записано на вебкамеру під час трансляції в Zoom або Teams.

Потрібно також проаналізувати весь контекст, тобто зміст, який ця особа передає, цей наратив, подумати, які соціотехніки там містяться, щоб маніпулювати нами.

Якщо зміст є досить суперечливим або містить якусь несподівану інформацію, якої ми зазвичай не очікуємо, а вона викликає в нас якісь емоції чи спонукає до швидких дій, — у нас має увімкнутися червона лампочка, що це може бути якась маніпуляція, шахрайство чи дезінформація.

Чи був випадок дипфейків, який був для вас найбільш дивним, смішним чи Вас найбільше вразив?

Нещодавно я натрапила на дипфейк, де шахраї несуться в таких масових масштабах, що навіть не змінюють прізвища, яким людина представляється. Є дипфейк із Малґожатою Розенек, яка рекомендує якісь ліки, але представляється як ксьондз Нич. Так, своїм власним голосом.

Але тоді їх навіть не можна засудити, бо вони скажуть, що це жарт.

Взагалі важко їх засудити! Навіть у контексті продажу цих ліків, псевдоліків, тому що вони просто продають продукт за величезну ціну, але це вільний ринок. Можна продати певний товар за ціною, якою хочемо.

Чи Ви можете згадати приклад дипфейків, пов’язаних із Україною чи українцями?

З дипфейками маємо справу й у контексті російсько-української війни. Наприклад, на початку повномасштабної війни, уже у березні, з’явився перший дезінформаційний дипфейк із закликом президента Володимира Зеленського до своїх громадян здаватися. Також у той самий день був оприлюднений дипфейк із президентом путіним, який підтверджує слова Володимира Зеленського й говорить про те, що війна закінчилася.

Ми не знаємо, хто це опублікував, що це була за група.

Технологія deepfake, використовувалася також у березні вже цього року, коли було використано зображення українського політика Олексія Данілова, який тоді обіймав посаду секретаря Ради національної безпеки і оборони України, який, згідно з цим фальшивим матеріалом, приписував своїй країні причетність до теракту під Москвою.  

Звукову версію розмови запрошую послухати в доданому аудіофайлі.

Сніжана Чернюк