Nafilali hrpu mnogojezgrenih procesora, i puno memorije.
Ah da , i troši puno manje el energije, nego odgovarajući gpu-stock, koji bi postigao te brzine, ako sam dobro shvatio (mogu se i trenirati LLM modeli na njemu).
Što se inferencije (zaključivanja) tiče, piše da je
500k tokena u sekundi.
Za usporedbu, kod single h100 GPU, je inferencija:
"On a single NVIDIA H100 GPU, tokens per second (TPS) for inference can range from 250–300 tokens/second for a single batch to over 20,000 tokens/second in optimized, high-throughput scenarios. However, this figure is highly variable and depends on a number of factors, including the model size, optimization software, precision level, and batch size."
Što se tiče brzine učenja (treniranja), mislim da je neka greška u tekstu, jer se to ne izražava u token/sec.

