Nvidia объявила о том, что суперкомпьютерный кластер Colossus компании xAI, состоящий из 100 000 графических процессоров Nvidia Hopper Tensor Core в Мемфисе, штат Теннесси, достиг такого огромного масштаба благодаря использованию сетевой платформы Nvidia Spectrum-X Ethernet, которая разработана для обеспечения высочайшей производительности для многопользовательских гипермасштабируемых фабрик ИИ с использованием стандартизированного Ethernet для сети удаленного прямого доступа к памяти (RDMA).
Colossus, крупнейший в мире суперкомпьютер с искусственным интеллектом, используется для обучения семейства крупных языковых моделей Grok компании xAI, а чат-боты предлагаются в качестве функции для подписчиков X Top fee. xAI находится в процессе удвоения размера Colossus до общего числа 200 000 графических процессоров Nvidia Hopper.
В пресс-релизе говорится, что xAI и Nvidia построили вспомогательное оборудование и современный суперкомпьютер всего за 122 дня, вместо типичного срока для систем такого размера, который может занять от нескольких месяцев до нескольких лет. С момента, когда была установлена первая стойка, до начала обучения прошло 19 дней.
При обучении чрезвычайно большой модели Grok суперкомпьютер Colossus достигает беспрецедентной производительности сети. На всех трех уровнях сетевой структуры система испытала нулевую задержку приложений или потерю пакетов из-за столкновений потоков. Она сохранила 95% пропускной способности данных, обеспечиваемой контролем перегрузки Spectrum-X. Такого уровня производительности невозможно достичь при масштабировании с помощью стандартного Ethernet, который создает тысячи коллизий потоков, обеспечивая при этом лишь 60% пропускной способности данных.
Nvidia
«xAI построила самый большой и мощный суперкомпьютер в мире, — заявил представитель xAI. — Графические процессоры Nvidia Hopper и Spectrum-X позволяют нам раздвинуть границы обучения моделей ИИ в огромных масштабах, создавая сверхбыструю и оптимизированную фабрику ИИ на основе стандарта Ethernet».
Ранее глава Nvidia назвал Илона Маска сверхчеловеком, комментируя скорость создания суперкомпьютера Colossus.