На днях на выставке «Цифровая индустрия промышленной России» в Нижнем Новгороде, доцент кафедры компьютерных систем и сетей МГТУ имени Баумана Алексей Попов представил 24-ядерный микропроцессор «Леонард Эйлер» и суперкомпьютер «Тераграф». Созданная командой российских учёных машина предназначена для хранения и обработки графов сверхбольшой размерности и будет применяться для моделирования биологических систем, анализа финансовых потоков, хранения знаний в системах искусственного интеллекта и в других прикладных задачах. Подробно об этом Попов рассказал в эксклюзивном интервью NEWS.ru.
— Алексей Юрьевич, расскажите, как родилась идея создать «Тераграф»?
— Чтобы объяснить, что, собственно, мы придумали и почему нас не устраивают современные ЭВМ, надо понимать, куда идёт вычислительная техника в перспективе ближайших десятилетий. Сегодня много говорится про квантовые компьютеры, и это действительно колоссальный технологический рост, но он лишь частично разрешит проблемы, связанные с точностью решений, с оптимизацией процессов. Человечество слишком многого хочет от цифровых технологий — хочет и хранить информацию, и визуализировать её, и чтобы это было дёшево. Все эти требования противоречивы.
Чтобы понять, что же надо ещё сделать, чтобы улучшить технические параметры вычислительной техники, надо детальнее всмотреться в те задачи, которые стоят перед человечеством. К примеру, есть такая область знаний, как дискретная математика. Это раздел математики, не связанный с привычными арифметическими операциями, а рассматривающий множества и их отношения. Грубо говоря, живой природе не нужна арифметика в нашем её понимании, то есть операции умножения, деления, функции синуса и так далее. Это мы, человечество, придумали математическую абстракцию, которая объясняет все явления с помощью этого математического аппарата. А вот дискретная математика и дискретная оптимизация в природе существуют: птицы выбирают того червяка, который, по их представлению, обладает лучшими параметрами, того, который ближе или толще, или который вкуснее.
Перед человечеством стоит задача создания интеллектуальных систем, то есть искусственного интеллекта, но в такой постановке она выглядит очень неопределённо. Да, мы более-менее научились распознавать лица и объекты в видеопотоке, но этого явно недостаточно. Чего же нам не хватает? Оказывается, мы не знаем, как заставить или научить самостоятельно учиться ту самую систему, которую мы должны использовать как искусственный интеллект. Она должна будет войти в этот мир как ребёнок и начать получать знания. Те системы искусственного интеллекта, которые мы сейчас используем, подразумевают использование нейросетей, «обученных» на определённой выборке данных. В своей работе они выполняют автоматическую классификацию, но не более. Получается, чтобы создать искусственный интеллект будущего, мы должны научиться строить некие нам подобные искусственные субъекты, способные к самообучению.
Почему нам подобные? Потому что мы пока не знаем, как делать не только нас самих, но и более примитивные организмы. Так вот, если мы начнём копировать себя, то должны создать родившегося робота, познающего мир робота, натыкающегося на препятствия, познающего это и впоследствии принимающего это в расчёт. Не стоит думать об этом существе как о каком-то гомункуле. Это именно искусственный интеллект.
Задача одна — в будущем научить вычислительную технику осознавать происходящее, сравнивать то, что она видит и осязает через датчики сейчас, с тем, что у неё заложено в памяти, что уже сохранено. Необходимые данные, которые являются для искусственного интеллекта структурированными и понятными, представляют некоторую суть, сущность, связанную атрибутами, позволяющими анализировать эти связи.
— Насколько я понимаю, ваша разработка будет работать с графами. Объясните популярно, что это такое?
— Графами называется абстрактный способ представления сущностей и их отношений, например, дорог, соединяющих города, и других видов сетей. Визуально графы состоят из «вершин», то есть точек, и соединяющих их «рёбер». Мировым IT-сообществом графы рассматриваются как модель, которая очень важна для искусственного интеллекта будущего. Например, компания Gartner, которая смотрит в будущее развития разных технологий, давно поместила графы знаний в «цикл хайпа» (hype cycle) — понятие, используемое для прогнозирования и объяснения различных тенденций, связанных с появлением какой-либо новой технологии. Сегодня в мире есть исследователи, которые занимаются реализацией систем анализа графов, и это по большей части программные разработки. Но графы в будущем должны быть реализованы лучше, чем сейчас, вычислительная техника должна поддерживать их хранение и обработку.
Есть такая графовая система Neo4j — она занимается хранением и обработкой графов, как это уже стало привычным для управления базами данных. Её создатели говорят о том же, о чём говорим и мы: о необходимости исследования графов знаний и разработке систем на их основе. Мы решаем более сложную задачу. Наш путь — переосмыслить вычислительную технику и создать её заново не для арифметических операций над числами, а для обработки графов. Вот это и есть суть нашего проекта. На текущей стадии сделан микропроцессор, которого обладает набором команд дискретной математики. Это большой шаг, хотя, конечно, не столь фундаментальный, как изобретение принципов квантового компьютинга. Однако мы первые придумали и реализовали эти принципы и набор команд. Это очень важно, потому что если мы пытаемся догнать и повторно изобрести то, что уже сделал кто-то, мы всего лишь догоняем. Когда все услышат про графы, начнут о них думать и уже из каждого утюга будут о них говорить, как сейчас, например, говорят о технологии блокчейн, то всё: если мы об этом услышали, мы опоздали. Мы должны готовиться к новым фундаментальным парадигмам сейчас, действуя с опережением.
— Ваши результаты в этом направлении? Вы действуете с опережением?
— Мы не гонимся за чем-то особенным и громким, не пытаемся брать у государства миллиарды. Тут надо действовать разумно, нужно делать шаг и думать, повторять эксперименты, сравнивать различные варианты.
На данный момент мы создали процессор, который занимает в 200 раз меньше ресурсов кристалла, чем один микропроцессор Intel Xeon, потребляя в 10 раз меньше энергии. При относительно малой тактовой частоте порядка 200 МГц производительность микропроцессора Leonhard превосходит производительность микропроцессоров семейства Intel Xeon (3 ГГц). Для понимания: наш процессор выглядит как карта с интерфейсом PCI Express, рядом с которой располагается так называемый хост-микропроцессор (например, Intel x86). Многие могут сказать, что мы хотим повторить то, что уже было сделано, вытеснить Intel. Нет. Мы пытаемся его дополнить таким образом, чтобы каждый решал свою часть задач. Иными словами, мы пытаемся выяснить, как разрезать пирог вычислительной нагрузки так, чтобы всем достался правильный кусок. Квантовым компьютерам — свой, обычным — свой, графическим ускорителям — свой. Сейчас всё режется в пользу тех, кто имеет большой бюджет и гнёт свою линию.
Мы пытаемся сделать искусственный интеллект будущего и охватить такой масштаб проблем, который ещё пока никто на себя не брал. Супер-ЭВМ на микропроцессоре Leonhard, над которой мы работаем, называется «Тераграф». Он способен обрабатывать графы сверхбольшой размерности до одного триллиона «вершин», которые невозможно представить ни на бумаге, ни на экране компьютера. На существующей технике это сделать можно, если очень постараться, но это будет неэффективно с точки зрения энергозатрат, стоимости и производительности, потому что существующая вычислительная техника к этому не приспособлена. Поэтому мы и стали работать над созданием принципиально новой машины и её архитектуры.
— Хватает ли для такого проекта аппаратного оборудования?
— Мы закупаем нужную нам технологическую платформу, на которой реализуем «Тераграф», используем частично стандартное оборудование, а частично так называемые ПЛИС (программируемые логические интегральные схемы). Мы реализуем процессор со своими особенностями — совершенно новыми связями и логикой. Это кристалл, чип, который изготовлен по удобной для нас технологии программируемых логических интегральных схем.
Всё находится в процессе, который довольно сложен. На выставке ЦИПР у нас многие спрашивали, решили ли мы какие-либо задачи? В ответ я посоветовал обратиться в Intel или AMD — сделали ли они искусственный интеллект? Но они скажут, что занимаются процессорами, а искусственный интеллект будут делать те, кто получит процессор и начнёт на нём решать эти задачи. Мы же должны всем доказать, что мы сделали что-то стоящее, причем на примерах реальных задач.
— Какое практическое применение вашего изобретения? В каких отраслях он может быть задействован?
— Тут стоит сказать про граф знаний — базу, которая использует структурированную модель данных для представления объектов реального мира. Они могут использоваться в разных сферах для хранения взаимосвязанных описаний сущностей.
Если нам, например, надо понять, что происходит в клетке организма, мы должны создать её модель как можно ближе к реальности. Это нам позволит внести в модель клетки те или иные препараты и смотреть, что будет происходить, чтобы убедиться, можно ли это делать с живой клеткой. С живой клеткой мы не получим быстрого результата, а модель живого организма позволит совершить технологический скачок в биологии и медицине.
Также с помощью нашей разработки можно будет сохранять человеческую речь в виде графа знаний. Это очень важный этап на пути к искусственному интеллекту — попытаться структурно представить сказанное человеком. Самый доступный homo sapiens способ коммуницирования друг с другом и окружающим миром — это речь. Ни написанная книга, ни жесты не могут передать знания так же естественно, как человеческая речь. Надо понять суть высказывания, все высказанные человеком факты и сопоставить с ранее накопленными. Речь, которая может быть машинно обработана, — это структурная задача, она требует того, чтобы у нас была модель фактов, а это и есть граф знаний.
Ещё одно практическое применение — предугадывание угроз и аварийных ситуаций, если угодно — искусственная интуиция. Представим, что едет машина и человек, который её ведёт, интуитивно догадывается о грозящей ему опасности. На этом строится принцип вождения — водитель предполагает наличие грозящего наездом и невидимого ему транспортного средства. Как реализовать такое чувство опасности, которое ни на чём пока не основано, но может спасти человека от неприятных последствий? Эту ситуацию можно представить с помощью графа сцены. Представим, что мы построили сцену дорожного движения, у нас закрыт обзор и возникает ситуация, когда едущая рядом машина по какой-то причине тормозит. Мы не знаем из-за чего, мы не видим причины. Но мы тоже сбросим скорость, предполагая, что впереди может быть либо препятствие, либо переходящий дорогу человек. Существующие средства на основе нейронных сетей не могут распознавать сцены на основе невидимых опасностей, которые могут быть совершенно разными. Важным моментом поэтому является предиктивная (прогнозная) аналитика на графах.
— Вы указывали, что ваша супер-ЭВМ работает в том числе и на процессоре Intel. В связи с тем, что Intel, как и многие другие ведущие производители аппаратного оборудования, приостановил работу в России из-за происходящего на Украине, не возникнет ли проблема с реализацией вашей разработки?
— Микропроцессор Intel в нашей системе занимает вторичное место. Он берёт на себя функции инициализации системы и сетевой коммутации, а в графовых задачах его миссия минимальна и не является центральной. Он, если угодно, является сопутствующим сервисным процессором, его можно заменить на любой, например на российские «Эльбрус» или «Байкал». Просто тот образец, который мы представили на выставке ЦИПР, собран с использованием микропроцессора Intel.
— Когда планируете представлять своё детище широкой общественности и уже внедрять его в практическую работу?
— На выставке в Нижнем Новгороде я уже представил одну треть нашей разработки. Первую часть мы закупили в декабре, оставшиеся два узла такие же, оборудование для них докупается последовательно.
Важный момент — мы получили платформу, на базе которой проводятся исследования и разработка. Один узел уже работает, но, как говорится, нет предела совершенству. Вся супер-ЭВМ будет собрана до конца 2022 года, а дальше по плану на протяжении двух лет будет идти работа над созданием демонстрационных прикладных решений по направлениям «Умный город», «Биомедицина» и «Финансы». Если про первые два направления я говорил выше, то по третьему пока не готов комментировать. Могу в двух словах сказать, что речь идёт о поиске транзакций, схожих с различными паттернами злонамеренных финансовых манипуляций — эту тему мы также обнаружили у Neo4j, которую активно волнуют финансовые и биржевые вопросы.
— Какие-либо министерства и государственные ведомства оказывают вам поддержку в научных и практических разработках?
— На протяжении 10 лет в этом направлении мы пользовались своими ресурсами, а теперь нам стали оказывать финансовую помощь. Собственно, мы получили грант по госпрограмме «Приоритет-2030». Нас подержал ректор МГТУ имени Баумана в октябре 2021 года, нам начали выделять финансирование на приобретение необходимого оборудования, которое позволяет реализовать задуманное в масштабе 1:1.