„Zlatá éra“ AI môže skončiť skôr, ako sme čakali. Hrozí vyčerpanie najcennejšieho zdroja

11. augusta 2024 o 16:52

Odvetvie umelej inteligencie naráža na nečakaný problém
Dochádzajú zdroje na trénovanie jazykových modelov

Ilustračné foto - AI Canva/PhonlamaiPhoto´s

Odvetvie umelej inteligencie naráža na nečakaný problém
Dochádzajú zdroje na trénovanie jazykových modelov

Výskumná skupina Epoch AI nedávno zverejnila štúdiu, ktorá predpovedá, že technologickým spoločnostiam by mohli do konca tohto desaťročia – približne v rokoch 2026 až 2032 – dôjsť verejne dostupné dáta na trénovanie jazykových modelov umelej inteligencie.

Tamay Besiroglu, autor tejto štúdie, prirovnal situáciu k „zlatej horúčke,“ ktorá postupne vyčerpáva obmedzené prírodné zdroje. Upozorňuje, že takéto obmedzenie dát môže výrazne spomaliť súčasný dynamický pokrok v oblasti umelej inteligencie.

„Je tu vážna prekážka,“ cituje APnews Besiroglu. „Ak začnete narážať na tieto obmedzenia týkajúce sa množstva údajov, ktoré máte, potom už nebudete môcť efektívne škálovať svoje modely. A škálovanie modelov bolo pravdepodobne najdôležitejším spôsobom rozšírenia ich schopností a zlepšenia kvality ich výstupu.“

Narážajú na limity

Výskumníci predstavili svoje prognózy ešte v roku 2021, krátko pred spustením ChatGPT. V pracovnom dokumente sa uvádzalo, že do roku 2026 by mohol nastať nedostatok vysokokvalitných textových dát potrebných na trénovanie AI modelov.

Odvtedy nastali výrazné zmeny vrátane vývoja nových metód, ktoré umožnili výskumníkom efektívnejšie spracovať dostupné údaje, zahrňajúce aj možnosť opakovane trénovať na rovnakých dátových súboroch.

Tieto metódy však narážajú na svoje limity a podľa najnovšieho výskumu Epoch AI by verejne dostupné textové údaje mohli byť vyčerpané v priebehu nasledujúcich rokov. Najnovšia štúdia bude prezentovaná na tohtoročnej letnej medzinárodnej konferencii o strojovom učení vo Viedni.

Epoch AI, neziskový inštitút financovaný filantropickým hnutím a podporovaný organizáciou Rethink Priorities so sídlom v San Franciscu, sa sústreďuje na riešenie najzávažnejších rizík spojených s vývojom umelej inteligencie.

Falošné dáta

Ako sa uvádza na portáli Medium, v snahe čeliť hroziacemu nedostatku školiacich dát začínajú spoločnosti zamerané na umelú inteligenciu intenzívne skúmať využitie syntetických údajov ako životaschopnej alternatívy k tradičným datasetom.

Syntetické údaje, generované samotnými AI systémami, umožňujú vytvárať nové tréningové materiály bez nutnosti spoliehať sa na obsah vytvorený ľuďmi. Tento inovatívny prístup však prináša so sebou celý rad výziev, najmä pokiaľ ide o kvalitu a integritu takto produkovaných dát.

Jedným z hlavných problémov je možnosť perpetuácie existujúcich nepresností, ktoré môžu byť prítomné v pôvodných tréningových súboroch. Takéto chyby by sa mohli následne preniesť do nových generácií modelov, čím by sa zvýšilo riziko kumulatívnych chýb.

Okrem toho existuje obava z fenoménu známeho ako „degeneratívne učenie,“ pri ktorom sa AI modely učia z vlastných výstupov, čo môže viesť k stagnácii alebo dokonca k zhoršeniu ich výkonnosti. Takýto scenár by mohol výrazne spomaliť pokrok v oblasti umelej inteligencie a narušiť dôveru v jej používanie.

Dátoví makléri

S rastúcim dopytom po kvalitných dátach sa na scéne objavuje nové a dynamické odvetvie dátových maklérov. Tieto spoločnosti sa špecializujú na identifikáciu, zhromažďovanie a licencovanie unikátnych dátových zdrojov, ktoré boli doteraz len málo využívané alebo skryté v archívoch a databázach.

Rovnako ako ropné spoločnosti v minulosti hľadali nové ložiská, technologické firmy dnes pátrajú po hodnotných údajoch, ktoré môžu slúžiť ako palivo na ďalší rozvoj umelej inteligencie. Nový „digitálny prieskum“ je nevyhnutný na posilnenie konkurenčnej výhody na globálnom trhu s AI.

Spoločnosti ako OpenAI už investovali značné prostriedky do licenčných zmlúv s významnými organizáciami, ako sú Shutterstock a Associated Press, aby získali prístup k ich rozsiahlym dátovým archívom.

Ako sa súťaž o prístup k exkluzívnym dátovým zdrojom zintenzívňuje, odvetvie dátových maklérov pravdepodobne zažije rozmach, ktorý prinesie nové príležitosti a výzvy v oblasti umelej inteligencie.

Čítajte viac z kategórie: Inovácie a Eko

Zdroje: APnews, Medium