Kmotra zná nazpaměť. Umělá inteligence se učí komunikovat z filmových klasik, tvůrci se bouří
Informace přinesla reportáž magazínu The Atlantic, k němuž většina dotázaných inkriminovaných firem odmítla podat komentář. Přišlo se na to, že chatboti jsou nebývale zběhlí v kulturních referencích, generativní AI dle nejmenovaného scenáristy reprodukuje dokonalé kopie scénářů ke Kmotrovi či kultovnímu sitcomu Alf z 80. let. Z veřejné datové sady The Pile, jejíž součástí jsou také OpenSubtitles, se do procesorů AI ládují texty třeba z každého filmu oceněného hlavním Oscarem v letech 1950 až 2016, z nejméně 616 epizod Simpsonových, 170 epizod Seinfelda, 45 dílů Twin Peaks a kompletního archivu Rodiny Sopránů, Špíny Baltimoru či Perníkového táty.
Nejde přitom doslova o kopie scénářů. OpenSubtitles skladují přes devět milionů titulkových souborů ve více než stech jazycích, jedná se o přepsané dialogy extrahované například z DVD či samostatně vytvořené. Mají tedy rytmus lidského dialogu, ovšem často z ceněných uměleckých děl. Tím se repertoár generativní AI rozšiřuje za hranice akademických textů, novinařiny či popisnějších románů, které technologické firmy také využívají. Umělá inteligence se tak naučí komunikovat přirozeněji a současně nabývá znalostí a pomyslného kumštu, jež jí umožní soupeřit s lidskými autory.
Ti o takové špásy pochopitelně nestojí, ale zákon v tomto ohledu mluví nejasně. Obecně se má za to, že na titulky by se měla vztahovat stejná autorská práva jako na tradičně distribuovaný kompletní produkt, ale momentálně je těžké vůbec prokázat, co společnosti provádí. Ty se hájí tím, že data nikdy nevyužila k vylepšení vlastních produktů – slouží prý pouze pro výzkumné účely, jak uvedl oslovený Apple.
The Pile ostatně zahrnuje také texty z knih, patentové přihlášky, online diskuse, filozofické články, titulky z videí na YouTube a mnoho dalšího. Pro společnosti je to snadný způsob, jak začít budovat AI systémy, aniž by musely samy vyhledávat a stahovat kvanta kvalitního textu, což jejich velké jazykové modely vyžadují. Provádí tak „mimořádně složitou a nesmírně komplexní formu plagiátorství,“ jak loni napsal americkému Úřadu pro autorská práva tvůrce Perníkového táty Vince Gilligan.
Hollywoodští autoři tudíž vlastním perem přispívají k tréninku umělého nástroje, který je teoreticky může nahradit. Data z OpenSubtitles proudí AI prostorem od roku 2020 a nikdo nezjistí, co všechno developeři zužitkovali. Stále se nicméně ve vzduchu vznáší otázka, zda informačně bezedná umělá inteligence někdy kreativně obstojí jako sólový tvůrce vlastních uměleckých děl a zda je to při absenci lidské duše vůbec možné.