Какво представляват deepfakes? AI, който заблуждава

Дълбоките фалшификати са медии - често видео, но понякога аудио -, които са създадени, променени или синтезирани с помощта на задълбочено обучение, за да се опитат да заблудят някои зрители или слушатели, за да повярват на фалшиво събитие или фалшиво съобщение.

Оригиналният пример за deepfake (от потребител на reddit / u / deepfake) замени лицето на актриса върху тялото на порно изпълнител във видео - което, разбира се, беше напълно неетично, макар и първоначално незаконно. Други дълбоки фалшификати са променили казаното от известни хора или езика, на който са говорили.

Deepfakes разширяват идеята за композиране на видео (или филм), което се прави от десетилетия. Значителните видео умения, време и оборудване се включват във видеокомпозирането; видео дълбоките фалшификати изискват много по-малко умения, време (ако приемем, че имате графични процесори) и оборудване, въпреки че често са неубедителни за внимателните наблюдатели.

Как да създадете deepfakes

Първоначално дълбоките фалшификати разчитаха на автокодери, вид ненаблюдавана невронна мрежа и много от тях все още го правят. Някои хора са усъвършенствали тази техника, използвайки GAN (генеративни състезателни мрежи). Други методи за машинно обучение също са били използвани за дълбоки фалшификати, понякога в комбинация с методи за немашинно обучение, с различни резултати.

Автокодери

По същество, автокодерите за дълбоко фалшиви лица в изображенията изпълняват двуетапен процес. Първата стъпка е да се използва невронна мрежа за извличане на лице от изходно изображение и кодиране на това в набор от функции и евентуално маска, като обикновено се използват няколко слоя 2D конволюция, няколко плътни слоя и слой softmax. Стъпка втора е да се използва друга невронна мрежа за декодиране на характеристиките, увеличаване на мащаба на генерираното лице, завъртане и мащабиране на лицето, както е необходимо, и прилагане на увеличеното лице към друго изображение.

Обучението на автокодер за генериране на дълбоки лица изисква много изображения на източника и целевите лица от множество гледни точки и при различни условия на осветление. Без графичен процесор обучението може да отнеме седмици. При графичните процесори това върви много по-бързо.

GANs

Генеративните състезателни мрежи могат да усъвършенстват резултатите от автокодерите, например, като изправят две невронни мрежи една срещу друга. Генеративната мрежа се опитва да създаде примери, които имат същата статистика като оригинала, докато дискриминационната мрежа се опитва да открие отклонения от първоначалното разпределение на данните.

Обучението на GAN е отнемаща време итеративна техника, която значително увеличава разходите за изчислително време в сравнение с автокодерите. Понастоящем GAN са по-подходящи за генериране на реалистични кадри с единично изображение на въображаеми хора (например StyleGAN), отколкото за създаване на дълбоки видеоклипове. Това може да се промени, тъй като хардуерът за дълбоко обучение става по-бърз.

Как да открием дълбоки фалшификати

В началото на 2020 г. консорциум от AWS, Facebook, Microsoft, Управителния комитет за интегритет на медийната интеграция на AI и академичните среди изгради Deepfake Detection Challenge (DFDC), който се проведе на Kaggle в продължение на четири месеца.

Състезанието включваше две добре документирани прототипни решения: въведение и стартов комплект. Победителното решение от Селим Сефербеков също има доста добри резултати.

Подробностите на решенията ще накарат очите ви да се кръстосат, ако не сте в дълбоките невронни мрежи и обработката на изображения. По същество печелившото решение направи разпознаване на лица кадър по кадър и извлече маски за индекс SSIM (Structural подобие). Софтуерът извлича откритите лица плюс 30 процента марж и използва EfficientNet B7, предварително обучен в ImageNet за кодиране (класификация). Решението вече е с отворен код.

За съжаление, дори печелившото решение може да улови само около две трети от дълбоките фалшификати в тестовата база данни DFDC.

Приложения за дълбоко създаване и откриване

Понастоящем едно от най-добрите приложения за създаване на дълбоки видеофайлове с отворен код е Faceswap, което се основава на оригиналния алгоритъм на deepfake. На писателя на Ars Technica Тим Лий бяха необходими две седмици, използвайки Faceswap, за да създаде deepfake, който замени лицето на лейтенанта Данни (Brent Spiner) от  Star Trek: The Next Generation във видео на Марк Зукърбърг, свидетелстващ пред Конгреса. Както е типично за дълбоките фалшификати, резултатът не преминава теста за вдишване за никого със значителна графична сложност. Така че, състоянието на техниката за deepfakes все още не е много добро, с редки изключения, които зависят повече от уменията на „художника“, отколкото от технологията.

Това е малко утешително, като се има предвид, че печелившото решение за откриване на DFDC също не е много добро. Междувременно Microsoft обяви, но не пусна към момента на публикуването си, Microsoft Video Authenticator. Microsoft казва, че Video Authenticator може да анализира неподвижна снимка или видео, за да осигури процентна вероятност или оценка на доверието, че медиите са изкуствено манипулирани.

Video Authenticator беше тестван спрямо набора от данни DFDC; Microsoft все още не е съобщил колко по-добър е от печелившото решение на Kafer на Сефербеков. Би било типично за спонсор на AI състезание да надгражда и подобрява печелившите решения от състезанието.

Facebook също обещава датчик за дълбоки фалшификати, но планира да запази изходния код затворен. Един проблем с откритите източници на дълбокофаксни детектори като този на Сефербеков е, че разработчиците на поколения дълбоки фалшификати могат да използват детектора като дискриминатор в GAN, за да гарантират, че фалшивият ще премине този детектор, в крайна сметка подхранвайки AI надпреварата във въоръжаването между генераторите на дълбоки фалшификатори и детекторите на дълбоките фалшификати.

Откъм аудио, Descript Overdub и демонстрираната, но все още неиздавана VoCo на Adobe могат да направят преобразуването на текст в реч близо до реалистично. Тренирате Overdub за около 10 минути, за да създадете синтетична версия на вашия собствен глас; след като сте обучени, можете да редактирате гласовите си записи като текст.

Свързана технология е Google WaveNet. Синтезираните от WaveNet гласове са по-реалистични от стандартните гласове за преобразуване на текст в реч, макар и не съвсем на нивото на естествените гласове, според собственото тестване на Google. Чували сте гласове на WaveNet, ако наскоро сте използвали глас от Google Assistant, Google Search или Google Translate.

Дълбоки фалшификати и порнография без съгласие

Както споменах по-рано, оригиналният deepfake сменя лицето на актриса върху тялото на порно изпълнител във видео. Оттогава Reddit забрани под-Reddit / r / deepfake, който е хоствал този и други порнографски deepfake, тъй като по-голямата част от съдържанието е порнография без съгласие, която сега е незаконна, поне в някои юрисдикции.

Друг под-Reddit за отделни -порнографски deepfakes все още съществува в / R / SFWdeepfakes. Докато обитателите на този суб-Reddit твърдят, че вършат добра работа, ще трябва сами да прецените дали, да речем, виждането на лицето на Джо Байдън, фалшифицирано в тялото на Род Серлинг, има някаква стойност - и дали някой от дълбоките фалшификати там преминава тестът за подушаване за достоверност. Според мен някои се доближават до това да се продадат като истински; повечето могат да се опишат като сурови.

Забраната / r / deepfake, разбира се, не премахва порнографията без съгласие, която може да има множество мотивации, включително порно отмъщение, което само по себе си е престъпление в САЩ. Други сайтове, които са забранили неприемливи фалшификати, включват Gfycat, Twitter, Discord, Google и Pornhub и накрая (след много влачене на крака) Facebook и Instagram.

В Калифорния лица, насочени към експлицитно сексуално фалшиво съдържание, направено без тяхно съгласие, имат основание за иск срещу създателя на съдържанието. Също така в Калифорния е забранено разпространението на злонамерени аудио или визуални медии с дълбоко менте, насочени към кандидат, кандидатстващ за държавна длъжност в рамките на 60 дни след избирането им. Китай изисква фалшивите фалшификати да бъдат ясно обозначени като такива.

Дълбоки фалшификати в политиката

В много други юрисдикции липсват закони срещу политически фалшификати. Това може да бъде обезпокоително, особено когато висококачествените фалшиви фалшификати на политически фигури го разпространяват широко. Дали фалшивият фалшификат на Нанси Пелоси ще бъде по-лош от конвенционално забавеното видео на Пелоси, манипулирано, за да звучи така, сякаш мърда думите си? Може да бъде, ако се произвежда добре. Например вижте това видео от CNN, което се концентрира върху дълбоки фалшификати, свързани с президентската кампания през 2020 г.

Дълбоките фалшификати като оправдания

„Това е фалшив фалшификат“ също е възможно оправдание за политици, чиито истински, смущаващи видеоклипове изтекоха. Това наскоро се случи (или се твърди, че се е случило) в Малайзия, когато гей секс лентата беше отхвърлена като фалшив фалшификат от министъра на икономическите въпроси, въпреки че другият мъж, показан в лентата, се закле, че е истински.

От друга страна, разпространението на вероятна любителска фалшификация на болния президент Али Бонго от Габон е фактор, допринасящ за последващия военен преврат срещу Бонго. Дълбокото фалшиво видео извести на военните, че нещо не е наред, дори повече от продължителното отсъствие на Бонго от медиите.

Още примери за дълбоки фалшификати

Неотдавнашен видеоклип на All Star , класиката Smash Mouth от 1999 г., е пример за манипулиране на видеоклипове (в случая смесване от популярни филми) за фалшиво синхронизиране на устните. Създателят, потребител на YouTube ontyj, отбелязва, че „Увлече се да тества wav2lip и сега това съществува ...“ Забавно е, макар и не убедително. Независимо от това, това показва колко по-добре е станало фалшивото движение на устните. Преди няколко години неестественото движение на устните обикновено беше мъртво раздаване на фалшив видеоклип.

Може да е по-лошо. Погледнете този видеоклип с дълбоко представяне на президента Обама като цел и Джордан Пийл като шофьор. Сега си представете, че той не включва никакъв контекст, който го разкрива като фалшив, и включва запалителен призив за действие.

Ужасен ли си вече?

Прочетете повече за машинното обучение и дълбокото обучение:

  • Дълбоко обучение срещу машинно обучение: Разберете разликите
  • Какво е машинно обучение? Интелигентност, получена от данни
  • Какво е дълбоко обучение? Алгоритми, които имитират човешкия мозък
  • Обяснени алгоритми за машинно обучение
  • Автоматизирано машинно обучение или AutoML обяснено
  • Обяснено контролирано обучение
  • Обяснено полууправлявано обучение
  • Обяснено учене без надзор
  • Обяснено учебно усилване
  • Какво представлява компютърното зрение? AI за изображения и видео
  • Какво е разпознаване на лица? AI за Big Brother
  • Какво представлява обработката на естествен език? AI за реч и текст
  • Kaggle: Къде учените по данни учат и се състезават
  • Какво е CUDA? Паралелна обработка за графични процесори