Џордан Хаулет, 26-годишник со 24 милиони следбеници на Инстаграм, Тикток и Јутјуб, е многу внимателен кога станува збор за брендовите со кои соработува. Тој има потпишано договори со „Доминос пица“ (Domino’s Pizza), „Гугл“ (Google) и „Вингстоп“ (WingStop) и заработува за живот создавајќи видеа на теми како „отворање тегли како професионалец“ или најдобриот начин да се „јаде правилно од чинија чипотле“. Тој беше многу исплашен кога почна да добива пораки во кои го прашуваа зошто рекламира наводен лек за слепило на Фејсбук и на Инстаграм.
Хаулет кликнал на еден од линковите до тие видеа и во ужас слушал како глас што звучи исто како неговиот опишува како „врвните истражувачи од Кембриџ“ откриле ритуал од седум секунди што може секому да му даде совршен вид. Видеото, на кое се прикажани стандардни рендгенски снимки на мозокот и средовечни луѓе што зјапаат во своите мобилни телефони, е лошо монтирано. „Но, затоа аудиоснимката е многу убедлива“, вели Хаулет. „Кога го слушнав мојот глас, се згрозив“, вели тој. „Тие теоретски би можеле да ме натераат да кажам што било“.
Експертите за сајбер-безбедност со години предупредуваат за дипфејк, вештачки генерирани или манипулирани медиуми што можат да поминат како автентични. Додека голем дел од загриженоста се фокусираше на фотографиите и видеата, во текот на изминатата година стана јасно дека аудиодипфејковите, понекогаш наречени гласовни клонови, претставуваат најнепосредна закана. Виџај Баласубраманијан, основач на агенцијата за откривање измами „Пиндроп“, вели дека неговата компанија веќе видела напади врз банкарски клиенти во кои измамниците користат синтетичка аудиоснимка за да ги имитираат сопствениците на сметки во повиците за поддршка на клиентите.
Друг голем страв е политичката манипулација, како кога 20.000 гласачи во Њу Хемпшир добија повик, наводно од претседателот Џо Бајден, кој ги повика да не гласаат за него следниот ден. Тоа немаше очигледно практично влијание: името на Бајден не беше ни на гласачкото ливче, но тој сепак освои мнозинство преку кампањата за гласање преку пошта. Меѓутоа, инцидентот предизвика загриженост дека таквата технологија би можела да одигра важна улога на изборите годинава. На 8 февруари, Федералната комисија за комуникации ги забрани автоматизираните телефонски кампањи што користат вештачка интелигенција.
Од агенцијата „Пиндроп“ велат дека видеото на Хаулет е создадено со внесување снимки од неговиот говор, очигледно преземени од неговите видеа на Јутјуб или Инстаграм, во софтвер создаден од стартапот „Илевенлабс“ за да го клонира неговиот глас. Од тој момент, исто како што се плашеше Хаулет, технологијата на компанијата му даде моќ на корисникот да создаде морничава веродостојна аудиоснимка со неговиот глас. Двајца независни истражувачи го анализираа роботскиот повик на Бајден и утврдија дека аудиото исто така е генерирано со помош на технологијата „Илевенлабс“.
Пријателите од детството Мати Станишевски, поранешен стратег за имплементација во „Палантир технолоџис“, и Пјотр Дабковски, поранешен инженер за машинско учење во „Гугл“, ја основаа „Илевенлабс“ пред две години. И двајцата пораснаа во Полска гледајќи холивудски филмови што беа несмасно синхронизирани на полски и мислеа дека вештачката интелигенција може да ги поштеди денешните деца од слично искуство. Тие сметаа дека истите алатки може да се користат за предавање онлајн лекции или читање аудиокниги, па дури и за превод на разговори во реално време.
Таа идеја го претвори „Илевенлабс“ во еден од најактивните стартапи во индустријата за генеративна вештачка интелигенција. Тоа не е единствената услуга за клонирање глас, но се искачи на врвот. Компанијата собра пари од инвеститори, вклучувајќи ги Андресен Хоровиц од „Смеш капитал“ (Smash Capital) и Мустафа Сулејман, коосновач на „Дип мајнд“ (DeepMind). Последниот круг на финансирање, објавен во јануари, ја зголеми вредноста на компанијата на 1,1 милијарда долари (1,02 милијарда евра). Луѓето што се запознаени со внатрешната работа на „Илевенлабс“ велат дека менаџментот не сака нивниот производ да се користи за создавање лажни интернет-реклами или материјали за сузбивање на гласањето. Сепак, како што често се случува со успешни стартапи на интернет, алатките на компанијата се множеа побрзо отколку што беа развиени заштитните мерки против нивната злоупотреба.
„Илевенлабс“ нуди бесплатна библиотека со генерички гласови, а побарувачката за клонови на препознатливи гласови рапидно расте. Набрзо по откривањето на алатката во јануари 2023 година, што овозможи да се клонира глас врз основа само на кратка аудиоснимка, „Илевенлабс“ објави на Твитер дека гледа „зголемен број на злоупотреби за клонирање глас“. Ваквите случаи произлегоа од корисниците на веб-страницата „Форчен“ (4chan), кои споделуваа видеа од поткастерот Џо Роган и актерката Ема Вотсон како кажуваат расистички и хомофобични навреди, според извештаите на медиумите во тоа време.
Лажното претставување на познатите личности беше правна дилема за „Илевенлабс“. Во 1988 година Апелацискиот суд пресуди дека познатите личности имаат право да забранат комерцијална употреба на уникатни карактеристики, како што е нивниот глас, без нивна дозвола. (Проблемот настана кога Бет Мидлер го тужеше „Форд“ (Ford Motor Company) за ангажирање пејачка да го имитира нејзиниот глас, откако таа самата одби да пее во реклами.)
За да се намали злоупотребата, „Илевенлабс“ почна да наплаќа по еден долар (0,93 евра) месечно за својата претходно бесплатна алатка за клонирање глас. Тоа не го поскапи создавањето аудиодипфејкови, но беше значајно што корисниците мораа да користат начин на плаќање што може да се следи, како што е кредитна картичка, со цел да ги одвратат злонамерните. Од друга страна, тоа ќе придонесе и за подобро спроведување на законите.
Од „Илевенлабс“ велат дека „не коментираат поединечни инциденти, но ќе преземат соодветни мерки доколку им биде пријавена содржина што ги прекршува условите“. Во интервју за „Блумберг њуз“ во јануари, Станишевски рече дека речиси сите апликации на технологијата на компанијата се легитимни и дека „Илевенлабс“ може да следи какви фрази креираат корисниците со гласовно клонирање. „За нас е најважно да се инвестира во безбедноста“, рече тој.
Кон крајот на 2023 година компанијата почна да развива план за борба против злонамерните корисници, вели лице запознаено со работењето на компанијата, кое побарало анонимност за да разговара за информациите што не се јавни. Шефицата на персоналот на „Илевенлабс“, Викторија Велер, беше особено фокусирана на воспоставување на правилата пред да стапат во сила Законот за безбедност на интернет во Велика Британија и европскиот Закон за дигитални услуги во 2024 година. Таа сакаше да создаде политики за навредлив јазик, како и прирачник за персоналот за да биде јасно кога би можеле да му забранат на корисникот понатамошен пристап. Условите за користење забрануваат „лажни или измамнички гласовни клонови“ и „содржини што поттикнуваат насилство или промовираат омраза“. Но тие исто така признаваат дека компанијата „проактивно не ја следи вашата содржина на нашите услуги“.
Пет од 40-те вработени во „Илевенлабс“ се одговорни за доверливост и безбедност. Познавачите на работата на компанијата во интервјуата наведуваат дека основачите се посветени на спречување можни измами при избори и насилно изразување. Но експертите за вештачка интелигенција и за приватност и безбедност велат дека е речиси невозможно да се спречат луѓето да создаваат проблематична содржина користејќи достапни алатки за генерирање вештачка интелигенција. „Технолошките компании генерално имаат цел да спречат 90 проценти од штетните дејства“, вели Мохамед Абдихаким Мохамед, менаџер на заедницата, кој работел на умереност на содржината во голем број софтверски компании. Но стартапите „всушност немаат начин да ја спречат достапната технологија за гласовно клонирање да предизвика штета“, вели тој.
Робоповикот на Бајден ги покажа ограничувањата на техничката заштита на „Илевенлабс“. Компанијата нуди алатка што ја нарекува „класификатор на говор“, за која вели дека може да одреди дали аудиоснимката е синтетичка и дали одредена снимка е создадена со помош на нивниот софтвер. „Блумберг бизнисвик“ и „Пиндроп“ ја искористија алатката за прегледување на една од снимките на Бајден, а технологијата покажа дека тоа не е дипфејк. Слични алатки од други компании го открија спротивното, а откако снимката беше исчистена за да се отстрани бучавата во заднината, алатката на „Илевенлабс“ заклучи дека дипфејк сепак бил користен.
Промената во заклучокот упатува на тоа дека алатките за откривање дипфејк се помалку веродостојни доколку се подалеку од изворот. Креаторите можат да додадат шум или други пречки за да ги попречат алатките за препознавање. Историјата на проверката на фактите на социјалните мрежи исто така сугерира дека дури и совршеното откривање би имало ограничен ефект. Кога некој создава аудиоснимка, таа може да се шири преку социјалните мрежи, а погрешната содржина често го наоѓа својот пат до публиката, која не сака да им верува на оние што велат дека материјалот што им се допаѓа е нелегитимен.
Приближно 121.000 луѓе погледнале едно од лажните видеа на Хаулет. Повеќе вакви видеа би можеле „да ги намалат неговите идни деловни можности“, вели Џордан Хаулет. Тој исто така,се грижи да ги доведе своите обожаватели во ризик да бидат измамени. „Не сакам никој да ги мами моите следбеници“, рече тој.
Се доведуваат во прашање и изборите во 2024 година. Креаторите на дипфејк со ентузијазам ги истражуваат можностите. Еден од нив е Самин Јашар, креатор на содржини на Јутјуб и основач на „АИ енсерс“ (AI Answers), сервис што работи на користење вештачка интелигенција како замена за центрите за повици. Во јануари Јашар објави видео во кое вели дека клонирал гласови користејќи ја услугата на „Илевенлабс“ во име на две политички кампањи.
Инспирација за видеото бил разговорот со Адам Винс, претприемач што има солариум и кој ја основал „Винингест метод“ (Winningest Method), компанија што нуди обука за животни вештини и апчиња за слабеење. Винс го праша Јашар дали е можно да се создаде масовна автоматизирана политичка телефонска кампања за собирање информации за анкетите од гласачите. Тој му рекол на Јашар дека познава луѓе што можат да ја користат технологијата.
За да го докаже концептот, Јашар го искористи „Илевенлабс“ за да го клонира гласот на Мајк Линдел, извршниот директор на „Мајпилу“ (MyPillow), политички активен десничар што беше тужен од компанијата за гласачки машини „Доминион воутинг системс“ (Dominion Voting Systems) за 1,3 милијарда долари (1,2 милијарда евра) поради лажни тврдења за време на претседателските избори во 2020 година. Линдел негираше дека сторил нешто лошо. „Силно верувам дека треба внимателно да ги испитаме нашите системи за гласање и да обезбедиме транспарентност“, рече тој во аудиоснимка, читајќи од сценариото создадено од ЧетГПТ, според примерокот прегледан од „Бизнисвик“. „Моите напори се насочени кон истражување на неправилностите“.
Јашар ја постави аудиоснимката на услугата за роботско избирање. Лажниот Линдел може да одговори на прашањата и коментарите на гласачите слично на автоматизиран повик за услуги на клиентите.
Винс вели дека им ја предал идејата на Линдел и Скот Џенсен, поранешен републикански кандидат за гувернер на Минесота, кој е критикуван за ширење дезинформации за ковид-19. Тој никогаш не се слушнал и на крајот се откажал од идејата пред да ја комерцијализира технологијата, велејќи дека можните правни проблеми го прават нервозен. Сепак, технички ништо не можеше да го спречи.
Статијата е пишувана во соработка со Марк Берген - „Блумберг бизнисвик“