Агенція інформації та аналітики "Гал-інфо"
Агенція інформації та аналітики "Гал-інфо"
Слухай онлайн
Cуспільство

Штучний інтелект може імітувати ваш голос. Його створили українці, і ось як це працює

Ви чуєте аудіозапис: на ньому вашим голосом звучать слова, яких ви ніколи не вимовляли. Колись це було фантастикою, тепер — цілком реальна технологія.

Як повідомляє BBC, українська компанія Respeecher вже два роки працює над штучним інтелектом, здатним синтезувати голос будь-якої людини.

Не без успіху. У компанії вже є контракт із голлівудською студією, яка застосовує цю технологію в кіно, а відео, що наочно демонструють можливості Respeecher, збирають сотні тисяч переглядів на Youtube.

BBC News Україна поговорила із засновником Respeecher Олександром Сердюком про те, як працює технологія, як далеко їй до ідеалу і чи є хоч якісь шанси, що подібні інструменти рано чи пізно не потраплять в погані руки (здається, жодних).

Як змусити Ніксона сказати те, чого він не говорив

Нещодавно у мережі з'явилося відео, на якому відбувається щось дивне: Річард Ніксон, президент США у 1969-1974 роках, розповідає про загибель астронавтів місії "Аполон-11", яка у 1969 році мала першою доставити людей на Місяць.

В реальності місія пройшла успішно, жоден з астронавтів не загинув. Про що ж тоді говорить Ніксон?

Він не говорить. Відео — підробка, створена у Массачусетському інституті технологій. Ніксона "змусили" зачитати промову, текст якої колись був написаний на випадок провалу космічної місії, але з якою президент так ніколи й не вийшов на публіку.

Щоб створити це відео, авторам знадобилися дві основні технології. Перша — штучний інтелект від Respeecher, який синтезує голос Ніксона.

Друга — штучний інтелект від компанії Canny AI, який змінив архівний відеозапис однієї зі справжніх промов президента США так, аби рухи губ та міміка Ніксона збігалися з тим текстом, який він вимовляє завдяки Respeecher.

Проєкт не лишився непоміченим. Про "звернення" Ніксона написали десятки західних ЗМІ — від спеціалізованих видань про науку і технології до Newsweek та Euronews. У листопаді ширшу версію відеозапису показали на Міжнародному фестивалі документального кіно в Амстердамі.

Як це працює

На місці Ніксона може бути хто завгодно: Трамп, Черчилль, Роберт Де Ніро і навіть ви.

Приміром, Respeecher має навчитися імітувати ваш голос. Для початку потрібні дві аудіодоріжки: на одній — запис вашого голосу, на іншій — запис актора, який слово в слово повторює вимовлений вами текст.

На цьому етапі програма тренується: порівнює обидва записи і виявляє, чим один голос відрізняється від іншого.

Тепер, коли штучний інтелект розуміє різницю, він здатен перетворювати голос актора на ваш — який би текст той не зачитував.

Аби програма спрацювала ефективно, їй потрібно проаналізувати принаймні годину запису цільового голосу — того, який треба зімітувати. З високою ймовірністю за цей час вона почує достатнє різноманіття слів та звукосполучень, проаналізує особливості цільового голосу та зрозуміє, як їх варто відтворювати.

Що це за голоси, каже засновник Respeecher Олександр Сердюк, не має жодного значення: низький голос можна перетворити на високий, чоловічий на жіночий, а дитячий на дорослий.

"На ринку є два основні підходи до синтезування голосу. Більшість продуктів працює за принципом "text to speech", коли голос генерується з тексту. Ми принципово від них відрізняємось: Respeecher синтезує потрібний голос з голосу іншої людини", — пояснює Сердюк в розмові з BBC News Україна.

"Такий підхід більш ефективний. Коли ти генеруєш голос із тексту, твої можливості дуже обмежені. Ти не маєш змоги контролювати емоційне забарвлення голосу і результат виходить дещо механічним. У нас цю проблему вирішує актор, який може підібрати потрібні інтонації".

"Окрім того, інструменти, які синтезують голос із тексту, подекуди потребують до 20 годин запису цільового голосу — саме стільки їм потрібно, аби натренувати штучний інтелект. Нам достатньо години", — розповідає Сердюк.

"Є багато замовників, які хотіли б використовувати у своїх проєктах голоси відомих акторів чи співаків. Але той-таки Snoop Dogg, приміром, навряд чи буде в захваті від ідеї два тижні просидіти в студії лише для того, щоб його голос з'явився в якійсь відеогрі. Зрештою, йому може просто бракувати на це часу. Наш інструмент дозволить іншому актору зробити всю роботу за нього", — пояснює Олександр Сердюк.

Головні орієнтири компанії — на Заході. У Respeecher вже є контракт з однією з великих голлівудських студій, ще з кількома ведуться розмови про майбутні проєкти.

"За умовами контракту, на жаль, поки що не можу говорити, що це за студія і що це за фільм. Але це дуже амбітна історія, стрічка має вийти на екрани незабаром. Для неї ми відтворили голос актора, якого вже немає серед живих", — розповідає засновник Respeecher.

Якщо ви знайшли помилку, видiлiть її мишкою та натисніть Ctrl+Enter.
НА ГОЛОВНУ