Синтез человеческого образа - Human image synthesis
Синтез человеческого образа это технология, с помощью которой можно сделать правдоподобные и даже фотореалистичный исполнения[1][2] человеческих образов, движущихся или неподвижных. Фактически он существовал с самого начала 2000-е. Многие фильмы с использованием компьютерные изображения были представлены синтетические изображения человекоподобных персонажей в цифровом виде на настоящий или другой смоделированный пленочный материал. Ближе к концу 2010-е глубокое обучение искусственный интеллект был применен к синтезировать изображения и видео которые выглядят как люди, не нуждающиеся в помощи человека, после завершения фазы обучения, тогда как старый школьный маршрут 7D требовал огромного количества человеческой работы.
Хронология синтеза человеческого изображения
- В 1971 г. Анри Гуро сделал первый CG геометрия захватывать и изображение человеческого лица. Моделером была его жена Сильви Гуро. 3D-модель была простой каркасная модель и он применил шейдер Гуро, которым он наиболее известен создать первое известное изображение человеческого подобия на компьютере (просмотреть изображения).[3]
- В 1972 короткий фильм Компьютерная анимированная рука к Эдвин Кэтмелл и Фред Парк был первый раз, когда компьютерные изображения был использован в фильме для имитации движущегося человеческого облика. В фильме изображены смоделированные на компьютере рука и лицо. (смотрите фильм здесь).
- В 1976 фильм Futureworld повторно используемые части Компьютерная анимированная рука на большом экране.
- В 1983 видеоклип на песню Musique Non-Stop немецкой группой Крафтверк вышел в эфир в 1986 году. Создано художником. Ребекка Аллен, он показывает нереалистично выглядящие, но четко узнаваемые компьютерные симуляции участников группы.
- В 1994 фильм Ворона был первым кинопроизводством, в котором использовалось цифровое наложение компьютерно смоделированного изображения лица на сцены, снятые с использованием двухместный кузов. Необходимость была музой как актера Брэндон Ли главный герой трагически погиб, случайно на сцене.
- В 1999 Поль Дебевек и другие. из USC захватил поле отражения человеческого лица с их первой версией световая сцена. Они представили свой метод на СИГГРАФ 2000[4]
- В 2003 аудитория дебют фотореалистичных человеческих образов в фильмах 2003 года Матрица перезагружена в последовательность бурной драки где до-100 Агент Смитс Борьба Нео И в Матричные революции где в начале финального поединка Агент Смит скула получает удар Нео, оставляя цифровой двойник неестественно невредимым. Бонус Matrix Revolutions DVD документы и подробно описывают процесс и используемые методы, включая захват движения лица и лимбальный захвата движения, и проекция на модели.
- В 2003 Аниматрица: последний полет Осириса а уровень развития желающие быть человеческими подобиями, не совсем обманывающие наблюдателя, сделанные Квадратные Фотографии.
- В 2003 цифровое подобие Тоби Магуайр был сделан для фильмов Человек-паук 2 и Человек-паук 3 к Sony Pictures Imageworks.[5]
- В 2009 Debevec et al. представили новые цифровые изображения, сделанные Показатели изображения, на этот раз актрисы Эмили О'Брайен отражательная способность которого была зафиксирована с помощью светового каскада USC 5[6] Движение выглядит довольно убедительно по сравнению с неуклюжим бегом в Аниматрикс: Последний полет Осириса который был уровень развития в 2003 году, если фотореализм был намерением аниматоры.
- В 2009 цифровой двойник молодого Арнольд Шварцнеггер был сделан для фильма Терминатор Спасение хотя конечный результат был раскритикован как неубедительный. Геометрия лица была взята из слепка 1984 года Шварценеггера.
- В 2010 Уолт Дисней Картинки выпустила продолжение научно-фантастического фильма под названием Трон: Наследие с цифровым обновлением цифрового двойника актера Джефф Бриджес играя антагонист CLU.
- В СИГГГРАФ 2013 Activision и USC представили реальное время «Цифровая Ира» - цифровое лицо, похожее на Ари Шапиро, исследователя ИКТ USC,[7] с использованием легкой ступени X USC Ghosh et al. как для поля отражения, так и для захвата движения.[8] Конечный результат как предварительно вычисленный, так и рендеринг в реальном времени с помощью самой современной игры GPU показано здесь и выглядит довольно реалистично.
- В 2014 Портрет президента по USC ИКТ в сочетании с Смитсоновский институт был изготовлен с использованием новейшей мобильной световой сцены USC, в которой президент Барак Обама захватили его геометрию, текстуры и отражательную способность.[9]
- В 2014 Ян Гудфеллоу и другие. представил принципы порождающая состязательная сеть. GAN попали в заголовки газет в начале 2018 года благодаря дипфейки споры.
- Для 2015 фильм Форсаж 7 цифровой двойник актера Пауль Волкер погибший в результате несчастного случая во время съемок был сделан Weta Digital чтобы разрешить завершение фильма.[10]
- В 2016 методы, которые позволяют почти в реальном времени подделка из выражения лица в существующем 2D-видео.[11]
- В 2016 цифровой двойник Питер Кушинг был сделан для Изгой-один фильм, в котором он выглядел бы ровесником актера во время съемок оригинального фильма 1977 года. Звездные войны фильм.
- В СИГГРАФ 2017 Цифровой аналог верхней части туловища Барака Обамы, управляемый звуком, был представлен исследователями из Вашингтонский университет. (Посмотреть) Он управлялся только голосовой дорожкой в качестве исходных данных для анимации после фазы обучения, чтобы получить синхронизация губ и более широкая информация о лице от тренировочный материал состоящие из 2D видео со звуком.[12]
- Поздно 2017[13] и рано 2018 увидел всплытие дипфейки полемика, где порно видео были обработаны с использованием глубокое машинное обучение так что лицо актрисы было заменено мнением программного обеспечения о том, как будет выглядеть лицо другого человека в той же позе и освещении.
- В 2018 GDC Эпические игры и Tencent игры продемонстрировали цифровой двойник актрисы "Сирену". Бинцзе Цзян. Это стало возможным благодаря следующим технологиям: CubicMotion с компьютерное зрение система, 3 Боковой лицевую систему оснастки и Викон система захвата движения. Демонстрация проходила почти в реальном времени со скоростью 60 кадров в секунду в Unreal Engine 4.[14]
- В 2018 на Всемирная Интернет-конференция в Wuzhen то Информационное агентство Синьхуа представил два цифровых двойника, сделанных по аналогии с его настоящими ведущими новостей Qiu Hao (китайский язык )[15] и Чжан Чжао (английский язык ). Цифровые двойники были созданы совместно с Согоу.[16] Ни синтез речи ни использованные, ни жесты цифровых двойных якорей не были достаточно хороши, чтобы обмануть наблюдателя, приняв их за реальных людей, изображенных телекамерой.
- В сентябре 2018 Google добавил: «непроизвольные синтетические порнографические образа» в список запрета, позволяя никому запросить результаты блока поисковой системы которые ложно изображают их как «обнаженных или в откровенно сексуальной ситуации».[17]
- В феврале 2019 Nvidia открытые источники StyleGAN, Роман порождающая состязательная сеть.[18] Сразу после этого Филипп Ван сделал сайт ThisPersonDoesNotExist.com со StyleGAN, чтобы продемонстрировать, что неограниченное количество часто фотореалистичных портретов лиц людей может быть создано автоматически с помощью GAN.[19] StyleGAN от Nvidia еще не был представлен экспертная оценка paper в конце 2018 года.[19]
- В июне 2019 CVPR то Массачусетский технологический институт CSAIL представлен система под названием "Speech2Face: изучение лица за голосом" который синтезирует вероятные лица на основе только записи голоса. Он был обучен огромным количеством видео говорящих людей.
- С 1 июля 2019 [20] Вирджиния криминализовал продажа и распространение несанкционированной синтетической порнографии, но не производство.[21], так как § 18.2-386.2, озаглавленный «Незаконное распространение или продажа чужих изображений; штраф ». стал частью Кодекс Вирджинии. Текст закона гласит: "Любой человек, который с намерение к принуждать, беспокоить, или же запугать, злонамеренно распространяет или же продает любое видео или неподвижное изображение, созданное любым способом, которое изображает другого человека, который полностью ню, или в состоянии раздеться, чтобы обнажить гениталии, лобковая зона, ягодицы, или женский грудь, если такой человек знает или имеет основания знать, что он не лицензированный или же уполномоченный распространение или продажа таких видеографических или неподвижных изображений является виновным по Классу 1 мисдиминор.".[21] Идентичные купюры были Законопроект о доме 2678 представленный Делегат Маркус Саймон к Вирджиния Палата делегатов 14 января 2019 г. и тремя днями позже идентичный Законопроект Сената 1736 г. был представлен Сенат Вирджинии сенатором Адам Эббин.
- С 1 сентября 2019 Техас законопроект сената SB 751 поправки к вступившему в силу избирательному кодексу, давая кандидаты в выборы 30-дневный период защиты до выборов, в течение которого создание и распространение цифровых двойников или синтетических подделок кандидатов является правонарушением. В тексте закона предмет закона определяется как "видео, созданное с целью обмана, на котором изображен реальный человек, выполняющий действие, которого не было на самом деле"[22]
- В сентябре 2019 Yle, финский общественная телерадиокомпания, транслировал результат экспериментального журналистика, дипфейк действующего президента Саули Ниинистё в своей основной новостной трансляции с целью освещения передовых технологий дезинформации и связанных с ними проблем.
- 1 января 2020[23] Калифорния то Закон штата AB-602 вступил в силу запрет на производство и распределение синтетической порнографии без согласие изображенных людей. АВ-602 обеспечивает жертв синтетической порнографии с судебный запрет и представляет собой юридическую угрозу установленный законом и штрафные убытки на преступники изготовление или распространение синтетической порнографии без согласия. Законопроект AB-602 был подписан в Калифорнии. Губернатор Гэвин Ньюсом 3 октября 2019 г., автором Ассамблея штата Калифорния член Марк Берман.[24]
- 1 января 2020, Вступил в силу китайский закон, требующий, чтобы на синтетически подделанных кадрах было четко указано, что они фальшивые. Несоблюдение может рассматриваться как преступление то Управление киберпространства Китая заявлено на его сайте. Китай объявил об этом новом законе в ноябре 2019 года.[25] Китайское правительство, похоже, оставляет за собой право преследовать как пользователей, так и онлайн-видео платформы несоблюдение правил. [26]
- В июле 2020 то moondisaster.org проект Массачусетский технологический институт с Центр продвинутой виртуальности издает синтетическую подделку, похожую на человека по внешнему виду и почти по звучанию Никсон. (смотреть фильм полностью В случае лунной катастрофы на Youtube.com)
- В ноябре 2020 то Партнерство по ИИ опубликовали их База данных инцидентов ИИ (AIID) в IncidentDatabase.ai.[27]
Ключевой прорыв в фотореализме: захват отражения
В 1999 году Поль Дебевек и другие. USC сделали первые известные захват отражательной способности над человеческим лицом с их чрезвычайно простыми световая сцена. Они представили свой метод и результаты в СИГГРАФ 2000.[4]
Для научного прорыва потребовалось найти подповерхностный световой компонент (имитационные модели слегка светятся изнутри), что можно обнаружить, зная, что свет, отраженный от масляно-воздушного слоя, сохраняет свое поляризация и подповерхностный свет теряет поляризацию. Таким образом, он оснащен только подвижным источником света, подвижной видеокамерой, двумя поляризаторами и компьютерной программой, выполняющей чрезвычайно простые вычисления, и последняя деталь, необходимая для достижения фотореализма, была получена.[4]
Для правдоподобного результата свет отраженный из кожи (BRDF ) и внутри кожи (частный случай BTDF ) которые вместе составляют BSDF должны быть зафиксированы и смоделированы.
Захватывать
- 3D геометрия и текстуры захвачены на 3D модель по 3D реконструкция метод, такой как отбор проб цель с помощью 3D сканирование с RGB XYZ сканер, такой как Arius3d или же Cyberware (текстуры с фотографий, а не чистый RGB XYZ сканер), стереофотограмметрически из синхронизированные фотографии или даже из достаточно повторяющихся неодновременных фото. Цифровая скульптура может использоваться для создания моделей частей тела, для которых невозможно получить данные, например части тела, покрытые одеждой.
- Для достоверных результатов также поле отражения должны быть захвачены или приближение должно быть выбрано из библиотек, чтобы сформировать 7D модель отражательной способности цели.
Синтез
Весь процесс создания цифровых двойников, то есть персонажей, настолько реалистичных и реалистичных, что их можно выдать за изображения людей, - очень сложная задача, поскольку требует фотореалистичности. моделирование, оживление, перекрестное отображение, и рендеринг то динамика мягкого тела человеческого облика.
Синтез с актер и подходит алгоритмы применяется с использованием мощных компьютеры. Роль актера в синтезе - имитировать человеческое выражения в синтезе неподвижных изображений, а также в движении человека в кинофильм синтезирующий. Алгоритмы нужны для моделирования законов физика и физиология и соответственно отображать модели и их внешний вид, движения и взаимодействие.
Часто оба физика /физиология на основе (т.е. скелетная анимация ) и моделирование и рендеринг на основе изображений используются в части синтеза. Гибридные модели, использующие оба подхода, показали наилучшие результаты по реалистичности и простоте использования. Морфинг целевой анимации снижает рабочую нагрузку, предоставляя более высокий уровень управления, где различные выражения лица определяются как деформации модели, а выражение лица позволяет интуитивно настраивать выражения. Затем анимация цели морфинга может преобразовывать модель между различными определенными выражениями лица или позами тела без особого вмешательства человека.
С помощью отображение смещения играет важную роль в получении реалистичного результата с мелкими деталями кожи, такими как поры и морщины всего 100 мкм.
Подход машинного обучения
В конце 2010-х гг. машинное обучение, а точнее генеративные состязательные сети (GAN), использовались NVIDIA для создания случайных, но фотореалистичных портретов, похожих на людей. Система, названная StyleGAN, прошел обучение на базе данных из 70 000 изображений с сайта-хранилища изображений Flickr. Исходный код был опубликован на GitHub в 2019 году.[28] Выходы генераторной сети из случайных входов были общедоступны на ряде веб-сайтов.[29][30]
Аналогичным образом с 2018 г. дипфейк технология позволила GAN обмениваться лицами между участниками; Таким образом, в сочетании с возможностью подделывать голоса GAN могут создавать поддельные видеоролики, которые кажутся убедительными.[31]
Приложения
Основные приложения попадают в области стоковая фотография, синтетические наборы данных, виртуальная кинематография, компьютер и видеоигры и скрытый дезинформация нападения.[32][33]
Кроме того, некоторые исследования показывают, что он может иметь терапевтические эффекты в качестве "психологи и советники также начали использовать аватары предоставлять терапию клиентам, у которых фобии, история травма, пристрастия, Синдром Аспергера или же социальная тревожность."[34] Эффект сильного отпечатка памяти и активации мозга, вызванный просмотром вашего цифрового двойного аватара, получил название эффект Доппельгангера.[34] Эффект двойника может исцелять, когда скрытая дезинформационная атака подвергается атаке как таковая.
Связанные вопросы
В синтез речи практически невозможно отличить от записи реального человеческого голоса с момента появления в 2016 году программного обеспечения для редактирования и генерации голоса Adobe Voco, прототип, который должен стать частью Adobe Creative Suite и DeepMind WaveNet, прототип из Google.[35]Возможность воровать и манипулировать голосами других людей вызывает очевидные этические проблемы.[36]
На 2018 Конференция по нейронным системам обработки информации (NeurIPS) исследователи из Google представил работу «Перенос обучения от проверки говорящего на синтез речи с множеством говорящих», который передает обучение из проверка говорящего для преобразования текста в речь, который можно сделать так, чтобы он звучал почти как любой из фрагмента речи всего за 5 секунд (Слушать). [37]
Использование изображений для обучения ИИ поднимает вопрос о конфиденциальности, поскольку люди, которых используют для обучения, не давали согласия.[38]
Цифровые звуки технологии попали в руки преступников, как в 2019 году Symantec исследователям известно о 3 случаях, когда технология использовалась для преступление.[39][40]
Это в сочетании с тем, что (по состоянию на 2016 год) методы, которые позволяют почти в реальном времени подделка из выражения лица в существующем 2D-видео было правдоподобно продемонстрировано увеличение напряжения дезинформационной ситуации.[11]
Смотрите также
- Захват движения
- Интернет-манипуляции
- Синтез СМИ
- Методы пропаганды
- Сбор 3D-данных и реконструкция объекта
- 3D-реконструкция из нескольких изображений
- Оценка позы в 3D в целом и оценка позы шарнирного тела особенно для запечатления человеческого сходства.
- 4D реконструкция
- Отслеживание пальца
- Распознавание жеста
- StyleGAN
Рекомендации
- ^ Физическая модель мышц для контроля формы рта на IEEE Проводить исследования (требуется членство)
- ^ Реалистичная 3D-анимация лица в виртуальном пространстве телеконференций на IEEE Проводить исследования (требуется членство)
- ^ "Images de synthèse: Palme de la longévité pour l'ombrage de Gouraud".
- ^ а б c Дебевец, Пол (2000). «Получение поля отражения человеческого лица». Материалы 27-й ежегодной конференции по компьютерной графике и интерактивным техникам - SIGGRAPH '00. ACM. С. 145–156. Дои:10.1145/344779.344855. ISBN 978-1581132083. S2CID 2860203. Получено 2017-05-24.
- ^ Пигин, Фредерик. «Заметки по курсу цифрового клонирования лица Siggraph 2005» (PDF). Получено 2017-05-24.
- ^ В этом видео выступления на TED в 00:04:59 можно увидеть два клипа, один с настоящей Эмили, снятой на настоящую камеру, и один с цифровым двойником Эмили, снятый с помощью имитации камеры - Что трудно сказать. Брюс Ломен был сканирован с использованием светового столика USC 6 в неподвижном положении, а также записан его бег на беговая дорожка. Многие, многие цифровые двойники Брюса бегают плавно и естественно, глядя на финальную часть видео выступления TED.
- ^ ReForm - Создание цифровых клонов Голливуда (YouTube). Создатели проекта. 2017-05-24.
- ^ Дебевец, Пол. "Digital Ira SIGGRAPH 2013 в реальном времени в прямом эфире". Получено 2017-05-24.
- ^ «Сканирование и печать 3D-портрета президента Барака Обамы». Университет Южной Калифорнии. 2013. Получено 2017-05-24.
- ^ Джардина, Кэролайн (2015-03-25). "'Furious 7 'и как Weta Питера Джексона создала цифровую версию Пола Уокера ". Голливудский репортер. Получено 2017-05-24.
- ^ а б Тиз, Юстус (2016). «Face2Face: захват лица в реальном времени и воспроизведение видео в формате RGB». Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE. Получено 2017-05-24.
- ^ Суваджанакорн, Супасорн; Зейтц, Стивен; Кемельмахер-Шлизерман, Ира (2017), Синтезирующий Обама: Изучение синхронизации губ по аудио, Вашингтонский университет, получено 2018-03-02
- ^ Рёттгерс, Янко (21.02.2018). «Porn производители предлагают помочь Голливуду Take Down Deepfake Видео». Разнообразие. Получено 2018-02-28.
- ^ Такахаши, декан (21.03.2018). «Epic Games демонстрирует удивительного цифрового человека в реальном времени в демоверсии Siren». VentureBeat. Получено 2018-09-10.
- ^ Куо, Лили (2018-11-09). «Первый в мире ведущий новостей AI представлен в Китае». Получено 2018-11-09.
- ^ Гамильтон, Изобель Ашер (2018-11-09). «Китай создал то, что, по его словам, является первым ведущим новостей AI - посмотрите, как это работает». Получено 2018-11-09.
- ^ Харвелл, Дрю (30.12.2018). «Поддельные порно видео будут боеприпас запугивать и оскорблять женщин:«Каждый является потенциальной мишенью'". Вашингтон Пост. Получено 2019-03-14.
В сентябре [2018 года], Google добавил «непроизвольные синтетические порнографические образа» в список запрета
- ^ "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Medium.com. 2019-02-09. Получено 2019-10-03.
- ^ а б Паэз, Дэнни (13 февраля 2019). «Этот человек не существует - лучший одноразовый веб-сайт 2019 года». Обратный (сайт). Получено 2018-03-05.
- ^ «Новые законы штата вступают в силу 1 июля».
- ^ а б «§ 18.2-386.2. Незаконное распространение или продажа изображений другого лица; штраф». Вирджиния. Получено 2020-01-01.
- ^ «Относительно создания уголовного преступления за фабрикацию ложного видео с намерением повлиять на исход выборов». Техас. 2019-06-14. Получено 2020-01-02.
В этом разделе «глубоко фальшивое видео» означает видео, созданное с целью обмана, которое, как представляется, изображает реального человека, выполняющего действие, которого не было на самом деле.
- ^ Джонсон, Р.Дж. (2019-12-30). «Вот новые законы Калифорнии, которые вступят в силу в 2020 году». KFI. iHeartMedia. Получено 2020-01-01.
- ^ Михальчик, Кэрри (04.10.2019). «Законы Калифорнии стремятся расправиться deepfakes в политике и порно». cnet.com. CNET. Получено 2019-10-14.
- ^ «Китай стремится искоренить фейковые новости и дипфейки с помощью новых правил онлайн-контента». Reuters.com. Рейтер. 2019-11-29. Получено 2019-12-08.
- ^ Статт, Ник (29.11.2019). «Китай считает уголовным преступлением публикацию дипфейков или фейковых новостей без разглашения». Грани. Получено 2019-12-08.
- ^ МакГрегор, Шон (18.11.2020). «Когда системы ИИ терпят неудачу: введение в базу данных инцидентов ИИ». партнерствоonai.org. Партнерство по ИИ. Получено 2020-11-21.
Чтобы избежать повторных отказов ИИ, необходимо сделать известными прошлые неудачи. Поэтому сегодня мы представляем систематизированный набор инцидентов, в которых интеллектуальные системы вызвали проблемы безопасности, справедливости или других реальных проблем: База данных AI инцидентов (AIID).
- ^ Синхронизировано (09.02.2019). "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Синхронизировано. Получено 2020-08-04.
- ^ Сайт публичной витрины StyleGAN
- ^ Портер, Джон (2019-09-20). «100 000 бесплатных снимков головы, созданных искусственным интеллектом, привлекают внимание фотокомпаний». Грани. Получено 2020-08-07.
- ^ "Что такое дипфейк?". PCMAG.com. Март 2020 г.. Получено 8 июн 2020.
- ^ Харвелл, Дрю. «Приложениям для знакомств нужны женщины. Рекламодателям нужно разнообразие. ИИ-компании предлагают решение: фальшивые люди». Вашингтон Пост. Получено 2020-08-04.
- ^ Портер, Джон (2019-09-20). «100 000 бесплатных снимков головы, созданных искусственным интеллектом, привлекают внимание фотокомпаний». Грани. Получено 2020-08-07.
- ^ а б Мерфи, Саманта (2011). "Scientific American: ваш аватар, ваш гид" (.pdf). Scientific American / Стэнфордский университет. Получено 2013-06-29.
- ^ "WaveNet: Генеративная модель для Raw Audio". Deepmind.com. 2016-09-08. Получено 2017-05-24.
- ^ «Adobe Voco 'Photoshop-for-voice' вызывает беспокойство». BBC.com. BBC. 2016-11-07. Получено 2016-07-05.
- ^ Цзя, Е; Чжан, Ю; Вайс, Рон Дж. (2018-06-12), «Перенос обучения от проверки говорящего на синтез речи для множества говорящих», Достижения в системах обработки нейронной информации, 31: 4485–4495, arXiv:1806.04558, Bibcode:2018arXiv180604558J
- ^ Бизнес, Рэйчел Мец, CNN. «Если ваше изображение размещено в Интернете, это может быть тренировка ИИ для распознавания лиц». CNN. Получено 2020-08-04.
- ^ «Фальшивые голоса» помогают кибер-преступникам воровать деньги'". bbc.com. BBC. 2019-07-08. Получено 2020-04-16.
- ^ Дрю, Харвелл (2020-04-16). «Сначала искусственный интеллект: программное обеспечение для имитации голоса, по сообщениям, использовалось в крупной краже». Washingtonpost.com. Вашингтон Пост. Получено 2019-09-08.