Limiti di dati per l’apprendimento AI: nuova analisi sugli stock

Studio stima lo stock di dati testuali umani usabili per l’addestramento AI.

Big Data e AI

| Martedì, 18 giugno 2024 A complex neural network hologram representing data constraints, with a background of binary code.

La scalabilità nei modelli AI potrebbe incontrare un nuovo ostacolo: la disponibilità di dati di allenamento di alta qualità. Secondo uno studio recente, l’effettiva disponibilità di dati testuali umani si attesta intorno ai 300 trilioni di ’token’, con un intervallo di confidenza del 90% tra 100T e 1000T. Questa stima include solo i dati di sufficiente qualità per essere utilizzati nell’addestramento e considera la possibilità di addestrare i modelli per più ’epoche’. Questo potrebbe rappresentare un nuovo vincolo per la crescita esponenziale delle capacità computazionali dell’AI, soprattutto considerando che i modelli linguistici più avanzati si basano su enormi quantità di testo generato dall’uomo.

Limiti di dati per l’apprendimento AI: nuova analisi sugli stock

Potrebbe interessarti anche...