GTC 2020 Keynote

24.05.2020

На прошлой неделе NVIDIA выложила GTC Keynote 2020. Несмотря на то, что в этом году презентация была онлайн, в плане анонса новых продуктов она была одной из самых интересных за последние годы.

🔹 Начну с самого важного – нового чипа A100. Как и V100 в 2017 году, новый флагманский чип NVIDIA на архитектуре Ampere превзошел даже самые оптимистичные ожидания аналитиков индустрии. По сравнению с V100 NVIDIA увеличила кол-во потоковых мультипроцессоров с 80 до 108, вычислительных блоков FP32 ­– с 5,120 до 6,913, FP64 – с 2,560 до 3,456, пропускную способность памяти – с 900 Гб/с до 1,555 Гб/с. Кол-во тензорных ядер уменьшилось с 640 до 432, однако теперь каждое ядро в 4 раза мощнее ядра на V100. Но самое важное, что тензорные ядра третьего поколения будут теперь поддерживать операции TF32 и FP64.

Все эти и другие изменения позволили увеличить до 10 раз производительность вычислений одинарной точности по сравнению с V100, до 2,5 раз – вычисления FP64 и вычисления смешанной точности (FP16/FP32). В дополнение к этому технология structural sparsity обеспечит дополнительный прирост мощности для разреженных моделей (до 2Х).

Точный прирост производительности будет разным для каждой задачи. На примере  нейронных сетей BERT A100 превосходит V100 в 6 раз при задачах тренировки и в 7 раз в задачах инференса, в высокопроизводительных вычислениях (HPC) прирост составил от 1,5 до 2,1 раз (на примере популярных приложений для моделирования физики, симуляции молекулярной динамики, георазведки и инженерных задач).

Далее NVLink третьего поколения удваивает скорость обмена данными между GPU по сравнению со вторым поколением, что позволяет еще более эффективно использовать несколько GPU как один большой и, соответственно, улучшает масштабируемость платформ NVIDIA.

Уже с V100 NVIDIA полностью доминировала на рынках ускорителей для высокопроизводительных вычислений (HPC) и тренировки нейронных сетей AI (доля рынка у NVIDIA — свыше 90%). Чип трехлетней давности до сих пор оставался самым мощным для этих целей, и никто так и не смог составить ему конкуренцию. Можете себе представить, какое преимущество будет у NVIDIA с новым A100.

🔹 V100 подходил также и для инференса (если просто – использование обученной нейронной сети для выполнения какой-либо задачи). Но он был слишком дорогим для этих сравнительно менее сложных задач, поэтому NVIDIA предлагала более доступный чип T4. Это был успешный продукт, который позволил NVIDIA занять сильные позиции на рынке. Однако с A100 клиентам больше не нужно покупать отдельный чип для инференса. Технология MIG (multi-instance GPU) позволяет «разделить» А100 на семь отдельных GPU, каждый из которых сможет выполнять отдельные, менее трудоемкие задачи, в том числе инференс. Это позволит покупателям упростить инфраструктуру дата-центра, сделать ее более гибкой и универсальной для различных задач и повысить утилизацию мощностей.

Вообще, этот шаг NVIDIA оказался самым неожиданным и интересным. В то время, как остальные игроки индустрии работают над продуктами, специализированными для каждой задачи, NVIDIA делает ставку на универсальность A100. Эта технология по оценкам многих аналитиков индустрии является наиболее перспективной и позволит NVIDIA серьезно усилить свои позиции на рынке облачного инференса. Ведь теперь любой чип конкурента, заточенный только под инференс, должен серьезно превосходить A100 в этой задаче, чтобы убедить клиентов покупать его. В противном случае, они предпочтут A100, который способен выдавать высокий уровень производительности еще и в графических приложениях, HPC вычислениях, тренировке AI и т.п.

🔹NVIDIA сделала множество анонсов об обновлении их и так уже очень широкого набора софта. Однако наиболее важным, на мой взгляд, является поддержка ускорения Apache SPARK, самой популярной платформы для обработки данных. Ей пользуются сотни тысяч разработчиков и многие компании, начиная с банков, телекоммуникационных компаний и заканчивая техгигантами вроде Microsoft или IBM. Поэтому это важный шаг, который открывает для NVIDIA огромный рынок и, опять же, делает А100 еще более универсальным.

🔹 Как и прежде с DGX-2, NVIDIA предлагает полное решение для клиентов – DGX A100, внутри которого 8 чипов A100, сетевые чипы Mellanox, CPU от AMD, 15TB памяти и набор софта для работы с данными и AI. Системы DGX-2 завоевали большую популярность среди разработчиков. Видимо, поэтому на этот раз NVIDIA пошла еще дальше в плане end-to-end решений и предлагает DGX SuperPOD, кластер из 140 систем DGX A100, который способен выдать 350 PFLOPS вычислительной мощности FP16. И этот кластер может быть установлен менее, чем за месяц вместо многих месяцев и даже лет, которые требовались прежде для разработки дизайна и установки систем с сопоставимой мощностью.

🔹Конечно, только на A100 NVIDIA не остановилась и представила новые решения для периферийных AI вычислений: EGX A100 для крупных периферийных дата-центров (может, например, использоваться для обработки информации с сотен камер в аэропорту) и маленький, размером с кредитную карту, EGX Jetson Xavier NX для использования в самих устройствах, камерах, дронах, фабричных роботах и т.п. Самая главная особенность устройств NVIDIA семейств EGX – это то, что они используют один и тот же программный стек для облачных и периферийных вычислений, что позволяет разработчикам быстро масштабировать используемые решения.

Многие крупные компании, такие как Intel, AMD, Google, Amazon, Samsung, Huawei, Alibaba, а также десятки хорошо финансируемых стартапов хотят оторвать свой кусок от перспективного рынка железа для AI. Однако до сих пор несмотря на все обещания, анонсы и заявления, никто так и не смог cоставить NVIDIA достойную конкуренцию. И что-то мне подсказывает, что в ближайшие годы и не смогут. Ни у кого нет такой широкой продуктовой линейки первоклассных продуктов и крупной, развитой экосистемы. Но самое важное, что NVIDIA не собирается стоять на месте, а, наоборот, задает очень высокий темп инноваций. Так что я думаю, в ближайшие несколько лет NVIDIA так и будет доминирующим игроком на рынках графических вычислений, HPC, тренировки AI, и одновременно будет отвоевывать все большую долю с быстрорастущего рынка инференса (который однажды обещает быть в 4-5 раз больше рынка AI training), дополнительно еще отжимая у CPU прочие рынки, которые пока не используют аппаратное ускорение.

longtailФундаментальный анализ компаний
Портал о долгосрочных инвестициях в акции
https://longtailers.ru/wp-content/uploads/2019/04/img-footer-map.png
longtail в социальных сетях
https://longtailers.ru/wp-content/uploads/2019/04/img-footer-map.png
longtailв социальных сетях