Comprendere la codifica delle immagini in GPT-4o
Il sistema GPT-4o di OpenAI impiega 170 token per elaborare ogni tessera di immagine 512x512 pixel in modalità alta risoluzione. Questo numero corrisponde a circa 227 parole, avvicinandosi al detto comune che un’immagine vale mille parole. Curiosamente, 170 appare come un magic number, un numero senza spiegazione apparente all’interno del codice. La scelta di 170 potrebbe derivare dal fatto che le tessere di immagini sono rappresentate da 170 vettori di embedding consecutivi, fondamentali per il funzionamento del modello transformer. Nel processo, il modello trasforma le immagini in vettori di dimensioni utilizzabili, permettendo al cuore del transformer di operare efficacemente basandosi sulle similitudini del prodotto scalare.