Tech

Il training dei dati dell'IA ha un prezzo che solo Big Tech può permettersi

I dati sono al centro dei moderni sistemi di intelligenza artificiale, ma costano sempre di più, rendendoli fuori dalla portata di tutte tranne che delle più ricche aziende tecnologiche.

Lo scorso anno, James Betker, un ricercatore di OpenAI, ha scritto un post sul suo blog personale riguardante la natura dei modelli di intelligenza artificiale generativa e dei set di dati su cui sono addestrati. In esso, Betker ha affermato che i dati di addestramento - non il design, l'architettura o qualsiasi altra caratteristica di un modello - sono la chiave dei sistemi di intelligenza artificiale sempre più sofisticati e capaci.

...

Se c'è un raggio di sole tra le tenebre, sono gli sforzi di poche iniziative indipendenti, non a scopo di lucro, per creare enormi set di dati che chiunque può utilizzare per addestrare un modello di intelligenza artificiale generativa.

EleutherAI, un gruppo di ricerca no-profit che è nato come un collettivo Discord informale nel 2020, sta lavorando con l'Università di Toronto, AI2 e ricercatori indipendenti per creare The Pile v2, un insieme di miliardi di passaggi di testo principalmente provenienti dal dominio pubblico.

A inizio anno, la startup di intelligenza artificiale Hugging Face ha rilasciato FineWeb, una versione filtrata del Common Crawl - l'omonimo dataset mantenuto dal non-profit Common Crawl, composto da miliardi di pagine web - che Hugging Face afferma migliorare le prestazioni del modello su molti benchmark.

Alcuni sforzi per rilasciare set di dati di addestramento aperti, come i set di immagini del gruppo LAION, si sono scontrati con il copyright, la privacy dei dati e altre sfide etiche e legali altrettanto serie. Ma alcuni dei più dedicati curatori dei dati hanno promesso di fare meglio. Ad esempio, The Pile v2 rimuove il materiale protetto dal copyright problematico trovato nel suo dataset progenitore, The Pile.

La domanda è se queste iniziative aperte possano sperare di mantenere il passo con le Big Tech. Finché la raccolta e la cura dei dati rimangono una questione di risorse, la risposta è probabile che sia no, almeno finché una svolta nella ricerca non livelli il campo da gioco.

Related Articles

Back to top button Back to top button