Costo dell’hosting autonomo di Llama-3 8B-Instruct
Quanto costa l’hosting autonomo di un modello LLM come Llama-3 8B-Instruct? TLDR: Costa circa $17 per 1M token quando ospitato su EKS, rispetto a $1 per 1M token con ChatGPT. Tuttavia, ospitare l’hardware autonomamente può ridurre il costo a meno di $0,01 per 1M token, con un periodo di ammortamento di circa 5,5 anni.
Abbiamo eseguito i test su un cluster EKS. Utilizzando un’istanza AWS g4dn.2xlarge con una GPU Nvidia Tesla T4, l’esecuzione non è risultata efficace né per la versione da 8B né per quella da 70B di Llama 3, a causa di problemi di memoria e lentezza. Passando all’istanza g4dn.16xlarge, le prestazioni migliorano notevolmente.
Determinare il miglior hardware è cruciale per ottimizzare i costi e le performance.