Adobe Voco

Adobe Voco — программное обеспечение для редактирования и генерации прототипов аудио от Adobe, которое позволяет осуществлять редактирование и генерацию звука. Названный «Photoshop-for-voice»[1], Voco был впервые представлен на мероприятии Adobe MAX в ноябре 2016 года. Технология, показанная в Adobe MAX, была предварительным просмотром, который потенциально мог быть включен в Adobe Creative Cloud. По состоянию на 27 октября 2019 года Adobe еще не выпустила дополнительную информацию о потенциальной дате выпуска.

Технические детали править

Как показала демонстрация, программное обеспечение берет приблизительно 20 минут речи желаемой цели, а затем генерирует похожий на звук голос даже с фонемами, которых не было в материале примера цели. Adobe заявила, что Voco снизит стоимость производства аудио.[1] С внедрением Adobe Voco и аналогичной технологии WaveNet, созданной DeepMind.[2]

Проблемы править

Были высказаны этические соображения и проблемы безопасности в связи с возможностью изменить аудиозапись, включив в нее слова и фразы, которые первоначальный говорящий никогда не произносил, и потенциальным риском для биометрических данных голосовых отпечатков.[1]

Также существуют опасения, что его можно использовать в сочетании с:

  • Синтезом человеческого изображения, который с начала 2000-х годов достиг такого уровня подобия, что проводить различие между человеком, записанным с помощью камеры, и имитацией человека очень сложно.[3]
  • Видео манипулирование выражениями лица человека практически в реальном времени с использованием существующего 2D-видео RGB.[4]

Альтернативы править

Отсутствие публичного прогресса в Adobe открыло возможности для других компаний создавать альтернативные продукты VOCO, такие как LyreBird.[5]

WaveNet - это аналогичный, но открытый исследовательский проект для лондонской фирмы по искусственному интеллекту DeepMind, разработанный независимо в то же время, что и Adobe Voco.

Ссылки править

  1. 1 2 3 Adobe Voco 'Photoshop-for-voice' causes concern. BBC.com. BBC (7 ноября 2016). Дата обращения: 5 июля 2016. Архивировано 7 ноября 2016 года.
  2. WaveNet: A Generative Model for Raw Audio. Deepmind.com (8 сентября 2016). Дата обращения: 24 мая 2017. Архивировано 27 мая 2017 года.
  3. Rodgers, Julian Adobe Voco - Should We Be Afraid? Production Expert. Pro Tools. Дата обращения: 14 декабря 2018. Архивировано 16 декабря 2019 года.
  4. Thies, Justus Face2Face: Real-time Face Capture and Reenactment of RGB Videos. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE (2016). Дата обращения: 18 июня 2016. Архивировано 12 июня 2016 года.
  5. Lyrebird - Create a digital copy of voice (англ.). lyrebird.ai. Дата обращения: 27 марта 2018. Архивировано 24 апреля 2018 года.