Amazon aggira i limiti di GitHub per raccogliere dati AI
Amazon ha sviluppato una strategia per raccogliere dati ad alta qualità per i suoi modelli di intelligenza artificiale. Riconoscendo GitHub come un’inestimabile fonte di metadati sul codice, Amazon intende accelerare la raccolta dati nonostante le limitazioni della piattaforma. Secondo un memo interno, il gruppo AGI di Amazon ha identificato la necessità di metadati quantitativi e qualitativi da GitHub. Tuttavia, i limiti di scraping di GitHub rappresentavano un ostacolo significativo. Con oltre 150 milioni di repository pubblici, i metodi tradizionali avrebbero richiesto anni per accumulare dati sufficienti. In risposta, Amazon ha proposto un metodo alternativo: incoraggiare i propri dipendenti a creare più account GitHub e condividere le credenziali di accesso. Queste azioni sollevano preoccupazioni etiche riguardo alla privacy dei dati e all’uso appropriato delle risorse della piattaforma.