
Vyhledávání informací, tvorba obsahu, překlady, detekce nenávistných projevů...umělá inteligence (generativní AI) slibuje významné zvýšení produktivity ve světě média.
Média nás provázejí každodenně a jsou oporou demokracie: mají svobodu ukazovat různé názory a myšlenky, odsuzovat korupci a diskriminaci, ale také ukazovat sociální a kulturní soudržnost.
Zatímco se veřejnost obrací na média kvůli informacím, kultuře a zábavě, média nemohou uniknout ekonomickým obavám a ziskovosti odvětví měřené z hlediska sledovanosti a tržeb. V této souvislosti přináší generativní AI výkonné nové nástroje a bude stále více využívána.
Je však důležité si uvědomit, že generativní AI nemají nápady a že opakují komentáře, které mohou být uspořádány způsobem, který je stejně zajímavý jako absurdní (hovoříme pak o „halucinacích“ systémů AI). Tyto generativní AI nevědí, co je možné nebo nemožné, pravdivé nebo nepravdivé, morální nebo nemorální.
Profese novináře tedy musí zůstat ústředním bodem při vyšetřování a uvažování o složitých sociálních a geopolitických situacích. Jak tedy mohou média využít nástroje umělé inteligence a zároveň se vyhnout jejich nástrahám?
Národní pilotní výbor pro digitální etiku (CNPEN) vydal v červenci zprávu obecný názor o etických otázkách generativní umělé inteligence, kterou jsem koordinoval, ministrovi odpovědnému za digitální přechod. Upřesňuje zejména rizika těchto systémů.
Výkonné nástroje pro novináře
Média mohou používat umělou inteligenci ke zlepšení kvality informací, boji proti falešným zprávám, identifikaci obtěžování a podněcování k nenávisti, ale také proto, že může pomoci posouvat znalosti a lépe porozumět komplexní realitě, jako je udržitelný rozvoj nebo dokonce migrační toky.
Generativní umělé inteligence jsou báječné nástroje, které dokážou přinést výsledky, které bychom bez nich nemohli získat, protože počítají na úrovních reprezentace, které nejsou naše, na obrovském množství dat a s rychlostí, se kterou si mozek neví rady. Pokud se umíme vybavit pojistkami, jsou to systémy, které nám ušetří čas při hledání informací, čtení a produkci a které nám umožní bojovat proti stereotypům a optimalizovat procesy.
Tyto nástroje nyní nepřicházejí náhodou. Zatímco jsme fakticky utopeni v záplavě informací, které nepřetržitě vysílají tradiční kanály nebo obsah dostupný na internetu, nástroje jako ChatGPT umožňují nám konzultovat a vytvářet shrnutí, programy, básně atd. ze souboru gigantických informací, které byly v lidském mozku nedostupné. Mohou být proto mimořádně užitečné pro mnoho úkolů, ale také mohou přispět k toku informací bez zdrojů. Musíme je proto zkrotit a pochopit, jak fungují a jaká jsou rizika.
Učení generativní umělé inteligence
Výkon generativní umělé inteligence závisí na schopnosti učení se pod dohledem (tj. bez vedení lidskou rukou, což je koncept odlišný od adaptace v reálném čase) jejich interních modelů, tzv.modely základů", které jsou trénovány z obrovských korpusů dat složených z miliard obrázků, textů nebo zvuků velmi často v dominantních kulturách na internetu, například GPT3.5 z ChatGPT je zásobován hlavně daty v angličtině. Další dva typy učení byly také se používá: před svou dostupností na konci roku 2022 byl ChatGPT optimalizován pomocí a učení pod dohledem pak díky a posilovací učení lidmi za účelem zpřesnění výsledků a odstranění nežádoucích komentářů.
Tato optimalizace lidmi byla také široce kritizována. Jak jsou vyškoleni? Kdo jsou tito "nedostatečně placení klikací muži ? O těchto „nežádoucích“ připomínkách navíc nerozhoduje etická komise nebo zákonodárce, ale samotná společnost.
Učení, které zapomíná na zdroje
Při učení základních modelů na textech se systém učí, co se nazývá „lexikální vkládací vektory" (velikost 512 v GPT 3.5). Toto je systém "transformátorů". Tréninkový princip základního modelu je založen na distribuční hypotéze navržené americkým lingvistou Johnem Ruppertem Fithem v roce 1957: nemůžeme znát význam slova pouze podle četnosti („Poznáte slovo podle společnosti, kterou vede“).
Tyto entity ("žeton" v angličtině) jsou v GPT3.5 v průměru čtyři znaky. Mohou se skládat pouze z jednoho a jednoho polotovaru. Mohou tedy být částmi slov nebo slov s výhodou, že je možné tyto entity agilně kombinovat a znovu vytvářet slova a věty bez jakýchkoli jazykových znalostí (kromě těch, které jsou implicitní v posloupnosti slov), přičemž nevýhodou je zjevně horší interpretovatelnost. Každá entita je zakódována vektorem, který obsahuje informace o všech kontextech, kde byla tato entita viděna díky mechanismům pozornosti. Dvě entity se stejným sousedstvím budou tedy systémem AI považovány za blízké.
Generativní systém AI na textech se tak učí produkčnímu modelu s mechanismy, které nemají nic společného s lidskou produkcí umístěnou v těle, nicméně je schopna jej napodobit z učebních textů. Přímým důsledkem této operace je ztráta zdrojů, ze kterých jsou vytěžována identifikovaná sousedství, což představuje zásadní problém pro ověřování produkovaného obsahu. Žádné ověření pravdivosti prohlášení není snadné. Musíme najít zdroje, a když o to systém požádáme, může je vymyslet!
Když ChatGPT poskytnete výzvu, předpoví další entitu, pak další a tak dále. Klíčovým parametrem je „teplota“, která vyjadřuje míru náhodnosti při výběru entit. Při vysoké teplotě je model „kreativnější“, protože může generovat rozmanitější výstupy, zatímco při nízké teplotě má model tendenci volit nejpravděpodobnější výstupy, díky čemuž je generovaný text předvídatelnější. Konverzační nástroj Bing (GPT4) společnosti Microsoft nabízí tři možnosti teploty (přesnější, vyváženější, kreativnější). Často nejsou systémové hyperparametry odhaleny z důvodů kybernetické bezpečnosti nebo důvěrnosti, jako je tomu v případě ChatGPT... ale teplota umožňuje různé odpovědi na stejnou otázku.
„Halucinace“ a další rizika
Je tedy snadné si představit některá rizika generativní umělé inteligence pro média. Jiné se jistě objeví tak, jak jsou použity.
Zdá se naléhavé najít způsob, jak je minimalizovat, zatímco čekáme na vyhlášení Evropské unie a IA zákon tím, že se vybavíte příručky dobré praxe. L 'hodnocení CNPEN o generativní umělé inteligenci a etických otázkách obsahuje 10 doporučení pro výzkum a 12 pro řízení. Zde jsou některá z rizik identifikovaných pro média:
-
Příliš důvěřovat tomu, co stroj říká, bez křížové kontroly s jinými zdroji. Křížení několika zdrojů dat a potřeba zkoumat se stávají zásadní pro všechny profese: novináře, vědce, profesory a další. Zdá se také zásadní učit, jak tyto systémy používat ve škole, na univerzitě a na kultivujte umění debaty, abyste rozvinuli své nápady.
-
Pochopte, že ChatGPT je vytvořen s daty převážně v angličtině a že jeho kulturní vliv může být významný.
-
Masivní používání ChatGPT líně v médiích, produkování spousty nových neověřených umělých dat na internetu, která by se dala použít k trénování nové AI. Bylo by tragické, kdyby již neexistovala žádná záruka pravdivosti těchto údajů, které stroj vytvořil. Například dva američtí právníci byli chyceni do pasti tím, že během procedury na radu algoritmu odkazovali na judikatura, která neexistovala.
-
Nahraďte určité úkoly v mnoha profesích souvisejících s médii systémy AI. Některá zaměstnání zmizí, jiná se objeví. Je nutné vytvořit rozhraní s opatření na budování důvěry pomoci spolupráci mezi lidmi a systémy umělé inteligence.
-
Používání systémů umělé inteligence a jejich demytizace se stává naprostou nutností, přičemž si dávejte pozor, abyste se to neodnaučili a dokázali se bez nich obejít.
-
Je třeba pochopit, že ChatGPT dělá mnoho chyb, například nemá koncepci historie nebo chápání vesmíru. Ďábel je v detailech, ale také ve výběru dat použitých k vytvoření modelu. Zákon o AI vyžaduje větší transparentnost těchto systémů AI, aby se ověřila jejich robustnost, nemanipulace a spotřeba energie.
-
Je nutné zkontrolovat, zda vytvořená data nezasahují do autorská práva a že data používaná systémem jsou používána správně. Pokud „syntetická“ data zítra nahradí naše znalosti při trénování budoucích základních modelů, bude stále obtížnější oddělit fakta od fikce.
-
Poskytněte přístup k systémům AI (např. Deska ou Stabilní difúze), které lze použít k vytvoření hyperfake (deepfake v angličtině) k vytváření obrázků. Tento fenomén nám připomíná důležitost kontroly nejen spolehlivosti zdrojů článků, ale také obrázků a videí. Jde o vkládání vodoznaků (resp vodoznaky) v textech, obrázcích nebo videích vytvořených s cílem zjistit, zda byly vytvořeny umělou inteligencí, nebo označit data jako „organická“ (nebo vytvořená lidmi).
Laboratoř umělé inteligence o vzniku a limitech generativní umělé inteligence
Příchod ChatGPT byl pro všechny tsunami. Odborníky i laiky ohromil svou tvorbou textů, překlady a dokonce i počítačovým programováním.
Přesné vědecké vysvětlení fenoménu „jiskry emergence“ v modelech základů je aktuálním výzkumným tématem a závisí na datech a hyperparametrech modelů. Je důležité masivně rozvíjet multidisciplinární výzkum vzniku a limitů generativní umělé inteligence a opatření, která mají být zavedena k jejich kontrole.
Konečně je to nutné vzdělávat ve škole o rizicích a etice, stejně jako o programovánía také školit a demystifikovat systémy umělé inteligence, aby je mohly používat a inovovat zodpovědně a zároveň si uvědomovat etické, ekonomické, společenské důsledky a environmentální náklady.
Francie by mohla hrát významnou roli v Evropě s ambicí stát se laboratoří umělé inteligence pro média studiem etických a ekonomických otázek ve službách obecného dobra a demokracií.
Tento příspěvek k The Conversation France rozšiřuje zásah autora na Jéco 2023 které se konaly v Lyonu od 14. do 16. listopadu 2023.
Laurence Devillers, profesor umělé inteligence, Univerzita Sorbonna
Tento článek je publikován z Konverzace pod licencí Creative Commons. Čístpůvodní článek.
Názory vyjádřené v tomto článku nemusí nutně odrážet názory InfoChrétienne.