Нa кoнфeрeнции Hot Chips 33 кoмпaния Samsung сooбщилa o плaнax встрaивaть ускoритeли вычислeний вo всe типы oпeрaтивнoй пaмяти oт смaртфoнoв дo кoмпьютeрoв, видeoкaрт и сeрвeрoв. Этo пoзвoлит увeличить прoизвoдитeльнoсть плaтфoрм и снизить иx энeргoпoтрeблeниe. Самое приятное, что чипы памяти с ускорителями можно использовать вместо обычной памяти, а программная поддержка довольно простая, что уже заинтересовало разработчиков CPU и GPU.
Память PIM (processing-in-memory, вычисления в памяти) применительно к чипам HBM2 компания Samsung показала в феврале этого года. Каждый чип HBM2 вооружался программируемым ИИ-ускорителем производительностью 1,2 терафлопс (FP16) и мог обрабатывать хранящиеся в памяти данные непосредственно, не перегоняя их в центральный процессор и обратно. Сегодня компания сообщила, что работает над вооружением ускорителями расчётов всех основных типов оперативной памяти, что обещает появление PIM-блоков в подсистемах ноутбуков, видеокарт и так далее.
Следует сказать, что сегодня PIM-ускоритель забирает под себя примерно половину площади кристалла памяти, что не очень приятно с точки зрения наращивания объёмов. В будущем Samsung обещает уменьшить ускоритель, представляя всё более и более плотные микросхемы ОЗУ всех типов. В частности, для чипов HBM третьего помоления компания обещает ту же ёмкость для PIM-HBM3, что и для обычных микросхем HBM3. Можно предположить, что это возможно благодаря стековой структуре этой памяти.
Слои HBM-PIM (теперь это бренд Samsung Aquabolt-XL) вставляются непосредственно в стек HBM2 на ту же самую подложку-контроллер, что и раньше. Тем самым стеки HBM2 проще простого подменить стеками с включением HBM-PIM, заменив одни на другие. Такие гибридные стеки были испытаны компанией Xilinx вместе с продуктами Alveo без каких-либо модификаций процессоров и адаптеров (монтажной платы или интерпозера). По сообщению партнёров, производительность подскочила в 2,5 раза с одновременным снижением потребления энергии на 62 %. Такую же операцию, уверяют в Samsung, можно провести с GPU и CPU со сходной компоновкой и разработчики этих решений уже заинтересовались предложением компании.
Для самых нетерпеливых Samsung предлагает готовое решение в виде модулей AXDIMM DDR4 (Acceleration DIMM). Модули имеют буфер, который помогает обрабатывать данные в памяти, одновременно работая со всеми рангами DRAM на планке. Такой модуль устанавливается в обычный сервер в стандартный слот памяти. Всю работу — обработку данных в памяти с точностью FP16 с применением стандартных процедур TensorFlow и Python — модуль обеспечивает самостоятельно, а Samsung делает всё возможное, чтобы обеспечить поддержку других программных инструментов.
Компания заявляет, что её тесты (проведённые на рабочей нагрузке Facebook AI) показали увеличение производительности в 1,8 раза, снижение энергопотребления на 42,6 % и уменьшение задержки хвоста на 70 % с 2-ранговым комплектом. Всё это повторим, без доработок в стандартном сервере, что, безусловно, впечатляет.
В мобильных платформах, если говорить о применении PIM с чипами LPDDR5 и подобной, использование вычислений в памяти принесёт такой же ряд новых возможностей. Пока компания лишь моделирует такие процессы, но со временем они обещают появиться в ноутбуках и даже смартфонах. Например, для памяти LPDDR5X-6400 заявлено повышение производительности в 2,3 раза при рабочих нагрузках по распознаванию речи, в 1,8 раза при преобразовании перевода и в 2,4 раза при генерации текста GPT-2. Эти улучшения производительности сопровождаются снижением потребления в 3,85, 2,17 и 4,35 раза соответственно. Другой вопрос, когда это выйдет на рынок? Ведь эта технология пока не стала стандартом, утверждённым JEDEC.