Synthetische werelden hebben hun eigen wetten

Synthetische werelden hebben hun eigen wetten

Sora: het nieuwste product van OpenAI

05-03-2024 · Column

Op 15 februari werd met veel ophef het nieuwe product van OpenAI gelanceerd: Sora. Terwijl ChatGPT tekst kan genereren en DALL-E hetzelfde doet met afbeeldingen, heeft Sora het vermogen om tekst om te zetten in videobeelden. OpenAI omschrijft Sora als een 'wereldsimulator': het zou de echte wereld kunnen simuleren. Wetenschappers zouden bijvoorbeeld golfbewegingen of vliegpatronen van vogels kunnen bestuderen zonder buiten te komen, gewoon via de door Sora gegenereerde beelden.

Echter, het product is niet publiekelijk beschikbaar. OpenAI heeft alleen enkele voorbeelden vrijgegeven, wat vragen oproept over de ware capaciteiten van Sora. Natuurlijk heeft OpenAI de beste voorbeelden gekozen en de rest achtergehouden. Best volgen we de raad van de computerwetenschapper Oren Etzioni: vertrouw nooit op een AI-demo.

Er zijn ook zorgen over de trainingsdata van Sora. Zo zouden ook hier mogelijkerwijze copyrights van bestaande video’s geschonden worden. Maar er bestaat ook het vermoeden dat Sora is getraind met synthetische data.

Synthetische data genereren kan via gesimuleerde omgevingen, zoals die in videospellen. Als deze wereld voldoende lijkt op de echte wereld, kan men data binnen het spel simuleren om daarmee de werkelijke wereld te voorspellen. Vermoedelijk maakt Sora gebruik van zo'n gesimuleerde wereld, namelijk de Unreal Engine. Dat blijkt regelmatig uit de gekozen camerahoek. Vraag je bijvoorbeeld om videobeelden van een auto die door de bossen rijdt, krijg je al snel het perspectief van een racespel, met de camera vlak achter de auto.

Het gebruik van synthetische data roept ethische vragen op, waarover filosofe Danielle Shanley en collega's van Maastricht recent in EMBO Reports publiceerden. Synthetische data zijn  veelbelovend wanneer echte data niet bestaan of privacy hun gebruik niet toelaat. Daartegenover staan echter slechtere voorspellingen door het model. Synthetische data zijn niet echt betrouwbaar om golfbewegingen of vliegpatronen te bestuderen. 

Eerder volgt het gebruik van synthetische data een economische wet: de gegenereerde beelden  zijn niet perfect, maar goed genoeg om de investering terug te verdienen. Maar ook goed genoeg om nepnieuws voortaan te ondersteunen met beeldmateriaal. 

Massimiliano Simons, universitair docent techniekfilosofie