Limiti di dati per l’apprendimento AI: nuova analisi sugli stock
La scalabilità nei modelli AI potrebbe incontrare un nuovo ostacolo: la disponibilità di dati di allenamento di alta qualità. Secondo uno studio recente, l’effettiva disponibilità di dati testuali umani si attesta intorno ai 300 trilioni di ’token’, con un intervallo di confidenza del 90% tra 100T e 1000T. Questa stima include solo i dati di sufficiente qualità per essere utilizzati nell’addestramento e considera la possibilità di addestrare i modelli per più ’epoche’. Questo potrebbe rappresentare un nuovo vincolo per la crescita esponenziale delle capacità computazionali dell’AI, soprattutto considerando che i modelli linguistici più avanzati si basano su enormi quantità di testo generato dall’uomo.