MEGALODON: Modello di linguaggio con lunghezza di contesto illimitata
MEGALODON, sviluppato da ricercatori di varie università, è un modello di linguaggio con lunghezza di contesto illimitata e complessità computazionale lineare. Al posto della classica attenzione multi-testa, MEGALODON utilizza un’attenzione per blocchi, migliorando la scalabilità durante l’addestramento dei contesti lunghi. Nei benchmark standard, come WinoGrande e MMLU, MEGALODON ha superato il modello Llama 2 con gli stessi parametri e dati di addestramento. I risultati evidenziano miglioramenti significativi nella modellazione di sequenze a contesto lungo. Inoltre, il modello ha introdotto la parallelismo sequenziale per migliorare la scalabilità e l’efficienza computazionale. Questo rappresenta una potenziale direzione futura per il pretraining multi-modale su larga scala. MEGALODON si distingue per l’uso di una media mobile esponenziale complessa (CEMA), che lo rende equivalente a un modello di spazio di stato semplificato con matrice di stato diagonale.