Comprendere la codifica delle immagini in GPT-4o

GPT-4o richiede 170 token per elaborare ogni tessera 512x512 in modalità alta risoluzione. An image of a futuristic neural network processing colorful 512x512 pixel image tiles, represented in a matrix form, set against a high-tech background showing numbers and code.

Il sistema GPT-4o di OpenAI impiega 170 token per elaborare ogni tessera di immagine 512x512 pixel in modalità alta risoluzione. Questo numero corrisponde a circa 227 parole, avvicinandosi al detto comune che un’immagine vale mille parole. Curiosamente, 170 appare come un magic number, un numero senza spiegazione apparente all’interno del codice. La scelta di 170 potrebbe derivare dal fatto che le tessere di immagini sono rappresentate da 170 vettori di embedding consecutivi, fondamentali per il funzionamento del modello transformer. Nel processo, il modello trasforma le immagini in vettori di dimensioni utilizzabili, permettendo al cuore del transformer di operare efficacemente basandosi sulle similitudini del prodotto scalare.

Potrebbe interessarti anche...