Китайский процессор Phytium Feiteng Tengrui D3000 архитектуры ARM: тестирование производительности

Платформа ПК 7

Этим материалом мы завершаем серию обзоров китайских процессоров — по крайней мере, на какое-то время. Мы уже рассказали о нескольких производителях процессоров для настольных ПК из Китая, был среди них Loongson 3A6000 с собственной архитектурой, Huawei Kirin 9000C на базе ARM-ядер, и даже x86-совместимый Zhaoxin KaiXian KX-7000, но список китайских производителей CPU на этих моделях вовсе не заканчивается. Если не принимать в расчет совсем малоизвестных производителей, то на сегодня из наиболее интересных компаний с такими продуктами осталась еще одна, проделавшая длинный путь по созданию конкурентоспособных процессоров — Phytium Technology. Это китайская компания по производству полупроводниковых решений, не имеющая собственных производственных мощностей, основанная в 2012 году — в виде дочерней компании China Electronics Corporation (CEC). Компания разрабатывает высокопроизводительные микропроцессоры на базе архитектуры ARM, а также ASIC и другие высокопроизводительные чипы, и она является лицензированным разработчиком архитектуры ARM, что немаловажно.

Постепенный развал глобального рынка и санкционные ограничения для неугодных Западу стран увеличили интерес к собственным процессорам. Кроме этого, существуют и ARM-процессоры для легких ПК и ноутбуков в исполнении Qualcomm, в том числе и под управлением операционной системы Windows 11 в специальной версии для ARM-процессоров. Их мы тоже рассмотрим при случае, но сегодня речь об уже втором китайском решении на базе ARM-совместимых ядер. Ранее рассмотренные китайские процессоры не слишком впечатлили нас по сравнению с западными аналогами, но все они достойны внимания уже из-за того, что это полностью китайские продукты, минимально использующие западные разработки и технологии — с оговорками, конечно, потому что все они основаны именно на таких решениях, да еще и многолетней давности. Сегодня мы рассмотрим наиболее современное на сегодня решение Phytium для настольных ПК, сравнив его с конкурентами от китайских компаний, а также старыми процессорами AMD и Intel.

Изображение: Phytium

Причин распространения процессоров с отличными от x86(-64) архитектурами в последние годы несколько — сама ARM доросла до возможностей и мощностей, требуемых для создания полноценных настольных ПК и относительно мощных мобильных решений, но также важно и то, что многие компании, включая китайские, в последние годы серьезно продвинулись в разработке и выпуске собственной микроэлектроники, включая универсальные и графические процессоры. Китай годами вкладывает значительные средства в собственные компании по проектированию и производству процессоров, и приоритетом для них является снижение зависимости от западных полупроводников и последующее достижение полной технологической самодостаточности — в том числе из-за наложенных США санкций, запрещающих не только продажу некоторых западных микрочипов, но и запрет на передачу технологий их производства, и даже само производство на фабриках тайваньской компании TSMC, которая производит львиную долю современных кристаллов.

Компания Phytium Technology занимается не только разработкой процессоров, но и научными исследованиями в области полупроводниковых технологий, чтобы улучшать свои продукты, предназначенные и для коммерческого рынка и для государственных структур. Неудивительно, что правительство Китая спонсирует Phytium, как и другие рассмотренные нами ранее компании в этой сфере, чтобы они внедряли инновационные решения в своих разработках. За годы своего существования, компания получила множество наград от государственных органов и даже успела привлечь к себе внимание со стороны Запада — одной из первых угроз для микропроцессорной индустрии в США посчитали именно Phytium, поместили ее в санкционный список в 2021 году, и тем самым серьезно осложнили китайцам дальнейшую работу, но не прекратили развитие компании, которая продолжила выпускать передовые (для Китая) решения в виде универсальных процессоров.

А всё из-за того, что Phytium участвовала в разработке суперкомпьютеров Tiahne, входивших в свое время в рейтинг мощнейших суперкомпьютеров мира. Тайваньской TSMC запретили производить процессоры для Phytium Technology, объяснив это тем, что их разработки применяются в китайских суперкомпьютерах, мощности которых используются в том числе и в военных целях. По мнению США, компания имеет тесные связи с китайскими военными, как и Huawei и другие китайские компании, связанные с высокопроизводительными вычислениями и суперкомпьютерами, которые также теперь находятся под санкциями. Но началось всё еще раньше — в далеком 2016 году, еще при президентстве Барака Обамы, когда китайские суперкомпьютерные центры в Гуанчжоу и Тяньзине, а также институт NUDT, разработавший суперкомпьютер Tianhe-2А, были внесены в черный список организаций. Но давайте вернемся к компании и их процессорам.

Краткая история процессоров Phytium

Изначально процессоры FeiTeng, а именно так называются все процессоры компании Phytium Technology, разрабатывались исключительно для суперкомпьютерных приложений, их было несколько поколений. Первое поколение реализовывало архитектуру, совместимую по машинному коду с Intel Itanium 2. Второе поколение это система-на-чипе FT64, состоящая из процессора общего назначения и специализированного процессора для потоковых вычислений. А процессор под наименованием FeiTeng-1000 — это уже третье поколение процессоров семейства, и о нем мы еще поговорим ниже. Интересно, что первые процессоры FeiTeng были разработаны корпорацией China Electronics Corporation (CEC), это были решения, совместимые с архитектурой LA64 на базе набора команд VLIW — архитектуры со сверхдлинными машинными (командными) словами. Устройства под названием FT64 были 64-битными системами-на-чипе и применялись в виде аппаратных ускорителей в китайских суперкомпьютерах.

Затем CEC отказалась от архитектуры LA64 и перешла на архитектуру SPARCv9 с набором инструкций RISC, выпустив в 2011 году процессоры FeiTeng-1000. Они производились по 65 нм техпроцессу и состояли из 350 млн. транзисторов, и также предназначались для суперкомпьютеров — в Tianhe-1A было установлено 2048 процессоров FeiTeng-1000, каждый из которых имел по 8 ядер и поддерживал исполнение до 64 потоков, а работал чип на частоте до 800—1000 МГц. Из других особенностей — три канала HyperTransport, четыре контроллера DDR3 с частотой 400 МГц и восемь линий PCIe 2.0. В состав Tianhe-1A также входили 7168 ускорителей Nvidia Tesla M2050 и 14336 процессоров Intel Xeon X5670, а FeiTeng-1000 использовались для управления сервисными узлами.

Далее были выпущены процессоры FeiTeng-1500 и FeiTeng-2000, которые предназначались для использования в следующих поколениях суперкомпьютеров. В Tianhe-2 было установлено более 4000 уже 16-ядерных процессоров Galaxy FT-1500, изготовленных по 40 нм техпроцессу и работающих на частоте 1,8 ГГц, каждое их ядро может исполнять до 8 потоков и поддерживает 256-битные SIMD-операции. У каждого ядра есть кэши 32 КБ L1 и 512 КБ L2, и у всех ядер есть общий L3-кэш объемом 4 МБ. FT-1500 также содержит линии для межпроцессорных связей, четыре контроллера DDR3-памяти,
два контроллера PCI-Express и 10-гигабитный Ethernet.

Изображение: Phytium

Позднее сама CEC отказалась от выпуска процессоров, производя менее сложные электронные компоненты, а наработки FeiTeng были переданы специально созданной дочерней компании — Phytium Technology. Наработки SPARC позволили компании сразу же выпустить следующие чипы линейки FeiTeng для китайских исследовательских центров и суперкомпьютеров Tiahne, но это продлилось недолго — было принято решение в очередной раз изменить набор команд, и новой архитектурой стала собственная разработка на основе ARMv8, но с измененными блоками для целочисленных вычислений и вычислений с плавающей запятой, получившей наименование FTC. Процессоры серии FT-1500A, выпущенные в 2016 году, использовали уже ARM64-совместимые ядра FTC660, спроектированные самой Phytium, и содержали до 16 вычислительных ядер.

Эта смена архитектуры позволила компании Phytium плавно перейти на более востребованную и передовую архитектуру ARM для выпуска самых современных решений, предназначенных одновременно и для серверных, и для настольных и мобильных систем. Далее были выпущены модели FT-2000 и FT-2000+, а с 2020 года Phytium выпускали серверные процессоры линейки S2500, а также настольные решения D2000 — на основе в очередной раз модернизированных ядер FTC663, произведенных по 16 нм техпроцессу. Кроме этого, примерно в то же время компания поделилась и своими планами на будущее, которые впоследствии пришлось серьезно корректировать — как раз из-за санкций США. А планов было громадье, как видите — компания должна была выпустить решения с ядрами FTC67X еще в 2020 году, а совершено новое поколение — в 2024 году. В реальности всё притормозилось, и планы пришлось менять на ходу.

Изображение: CNBeta

Но вернемся к Phytium D2000 — это восьмиядерный ARM-процессор, предназначенный для высокопроизводительных ПК. Это как бы производная от серверного FeiTeng-2000/4, представленного летом 2020 года, у которой вдвое больше ядер, и его также можно использовать в суперкомпьютерах. Модель D2000 имеет восемь ядер FTC663, совместимых с ARMv8. Ядро FTC663 имеет три конвейера с внеочередным исполнением команд, динамическим предсказателем ветвлений, а также улучшенные блоки для целочисленных вычислений и операций с плавающей запятой, с поддержкой инструкций Advanced SIMD от ARM. Энергопотребление процессора составляет до 25 Вт при работе на частоте до 2,5—2,6 ГГц, так что он больше похож на процессор для встраиваемых и мобильных систем, чем для настольных ПК.

Каждая пара вычислительных ядер имеет общий кэш второго уровня объемом 2 МБ, а все восемь ядер — кэш третьего уровня с объемом 4 МБ. Возможности ввода-вывода D2000 включают двухканальный (128-битный) контроллер памяти DDR4-3200, 34 линии PCIe 3.0, два гигабитных сетевых порта, 32 линии GPIO, интерфейсы CAN, UART, I2C, SPI, а также LPC. У системы-на-чипе есть встроенная поддержка звука, а вот встроенной графики нет. Кстати, D2000 производились уже на неназванном китайском производстве при помощи 14 нм техпроцесса, тогда как предыдущие модели Phytium делала тайваньская TSMC на 16 нм производстве, а вот на их более совершенные производства китайцам выйти уже не дали.

Изображение: Phytium

В последние годы компания отошла от сектора высокопроизводительных вычислений и суперкомпьютеров, сконцентрировав свои силы на разработке серверных и десктопных процессоров, и актуальными сейчас являются серии S5000C и D3000, и именно последний мы сегодня рассматриваем. О нем мы поговорим позже, а серверная линейка процессоров Feiteng имеет собственное имя Tengyun, и процессоры серии S5000C — это высокопроизводительные серверные решения с 64, 32 и 16 ядрами, вышедшие в 2023 году и предназначенные для корпоративных и государственных заказчиков.

Процессоры S5000C используют ядра FTC862 и совместимы с наборами команд ARMv8.2, имеют достаточно высокую производительность целочисленных вычислений и операций с плавающей запятой, а также поддерживают аппаратную виртуализацию, национальные алгоритмы шифрования SM2, SM3, SM4 и спецификацию фирменной архитектуры безопасности процессора PSPA 1.0 (Phytium Security Platform Architecture 1.0). Объем кэш-памяти L3 в процессорах серии S5000C достигает 32 МБ, а интересной особенностью чипов является поддержка аналога Hyper-Threading, что нечасто встречается в китайских процессорах и помогает во множестве задач, включая облачные вычисления, обработку больших массивов данных, ИИ-вычислениях и т.д.

Изображение: Baidu

Изначально компания планировала выпуск решений серии S5000C на 7 нм техпроцессе TSMC, чтобы в старшей модели было как можно большее количество ядер, да и тактовая частота была максимальной. FTC870 должен был иметь до 80 ядер и частоту до 3 ГГц, а также 64 МБ L3-кэш, восьмиканальный контроллер DDR5-4800 и 64 линий PCIe 5.0. Решение должно было конкурировать с аналогичными CPU, использующими ядра дизайна Arm Neoverse N1 или даже Neoverse N2, но из-за санкционного давления со стороны США реализовать проект не получилось, поэтому техпроцесс реально вышедших новых решений не сильно изменился — это 14 нм, да и максимальное количество ядер осталось тем же, что и в предыдущем семействе серверных CPU. Но новые решения Phytium всё равно получили кратный прирост по производительности — S5000C получились примерно вдвое быстрее по сравнению с процессорами предыдущего поколения S2500.

Так что в 2024 году процессоры Phytium всё же добились значительного прогресса в производительности и функциональности, а также расширения сферы их применения. Серверный чип Tengyun S5000C был выпущен на рынок и используется в государственном и финансовом секторах, в энергетике и других критически важных отраслях. Процессор для настольных компьютеров Tengrui D3000 также получил существенно возросшую вычислительную производительность по сравнению с предшественником и расширил спектр применений. Общий объем продаж процессоров серии Phytium в прошлом году превысил 10 миллионов, решения компании широко применяются в различных устройствах, от терминалов до облачных систем, и способствуют переходу китайских процессоров от минимально пригодных для использования к более-менее удобным для пользователей.

В июле 2025 года компания сообщила о том, что их процессоры используются в аэропорту Цзинань Яоцян — большом авиаузле Восточного Китая со среднесуточным пассажиропотоком более 100000 человек. Новые версии киосков самообслуживания, применяемых в аэропорту, получили на 100% отечественное оборудование и программное обеспечение на смену традиционных CPU и операционных систем Microsoft, и это стало первым крупным применением процессоров Phytium на рынке приложений для авиакомпаний. В системе используется не самый новый процессор модели D2000 с операционной системой Kylin и программным обеспечением TravelSky KIOSK, которое позволяет пройти стандартную процедуру самостоятельной регистрации, а также поддерживает такие услуги, как изменение расписания, печать маршрутной квитанции и оплата повышения класса обслуживания.

Также можно отменить применение решений Phytium на линиях городского железнодорожного транспорта в китайских городах: Тяньзинь, Чунцинь, Шэньчжэнь, Хэфэй и Гуйян. CPU собственного производства применяются в системе автоматического сбора платы за проезд, а это ежедневные поездки почти 80 миллионов жителей этих городов. Стабильность работы системы очень важна, так как пассажиропоток в часы пик увеличивается в сотни раз по сравнению с остальным временем, и это предъявляет высокие требования к аппаратному и программному обеспечению. Линии метро оснащены процессорами Phytium Tenglong E2000 для встраиваемых систем, работающими под управлением встроенной операционной системы KylinOS V10 и управляющим компьютером от Shucheng Tech. Этот процессор разработан для промышленных применений и интернета вещей, он поддерживает архитектуру платформы безопасности PSPA, повышающую безопасность на аппаратном уровне.

Также отметим, что в октябре прошлого года система управления на базе процессоров FT-2000/4 была развернута на трех энергоблоках мощностью по 8,73 МВт на электростанции в африканской Эритрее — это стало первым зарубежным применением полностью китайской системы управления в международных энергетических проектах. В общем, компания довольно серьезная, их продукция широко применяется в разных сферах.

Особенности процессора Feiteng Tengrui D3000

Сегодня нас больше интересуют настольные процессоры, и конкретно модель Feiteng Tengrui D3000 в частности. Сначала разберемся с длинным названием — если к нему добавить еще и имя компании, то получится Phytium Feiteng Tengrui D3000, что уж слишком длинно для того, чтобы постоянно так писать. Напомним, что FeiTeng называются все процессоры компании, а Tengrui — это семейство именно настольных CPU. Но для удобства мы будем называть рассматриваемый сегодня процессор кратко — Phytium D3000.

Это самый современный настольный CPU компании, вышедший в 2024 году и содержащий восемь ядер архитектуры FTC862, специально разработанный для высокопроизводительных ПК, ноутбуков и компактных серверов. Настольные решения Phytium D3000 вышли несколько позднее серверных S5000C, о которых мы уже поговорили выше, и переняли их преимущества, получив и некоторые улучшения. Тактовая частота процессора составляет невысокие 2,5 ГГц, он имеет встроенный двухканальный контроллер памяти DDR4-3200/DDR5-5600 объемом до 64 ГБ, а из интересных отличительных особенностей процессора D3000 отметим наличие 8 МБ кэш-памяти четвертого уровня в качестве системного кэша.

Изображение: Phytium

Архитектура ядра FTC862 обеспечивает совместимость с 64-разрядным набором команд ARMv8, процессор поддерживает расширенный набор SIMD-инструкций ARM NEON, а также аппаратную виртуализацию. Для обеспечения безопасности, Phytium интегрировала улучшенную спецификацию архитектуры безопасности PSPA 2.0, а также китайские национальные алгоритмы шифрования SM2, SM3 и SM4, что жизненно важно для применения в государственных структурах. Рассматриваемый настольный CPU имеет поддержку 28 линий PCIe 5.0, пары сетевых интерфейсов и трех SATA 3.0 портов, он подходит для широкого спектра применений, включая настольные ПК, моноблоки, ноутбуки, терминалы и даже некоторые типы серверов.

Phytium D3000 обеспечивает значительное улучшение производительности по сравнению с предшественником. К сожалению, об архитектурных изменений в D3000 по сравнению с D2000 в публичном доступе вообще нет никаких данных, а наиболее подробные сведения есть лишь по предыдущему решению — процессору D2000, который состоит из восьми ядер FTC663, объединенных в кластеры по два ядра. Так что мы будем описывать в основном его, изредка останавливаясь на возможных улучшениях в D3000. А вот по D2000 на сайте компании есть довольно подробная документация для специалистов.

Изображение: Baidu

Ядро FTC663 отличается не самой «широкой» микроархитектурой с возможностью одновременного выполнения трех команд и поддержкой внеочередного выполнения. Это меньше, чем у западных архитектур для настольных компьютеров даже десятилетней давности. В целом, ядро FTC663 очень похоже на далеко не самое новое ядро ARM Cortex A72 — возможно, именно оно и было взято в качестве основы для дальнейших улучшений. Исполнительные устройства китайского ядра почти идентичны тому, что есть в Cortex A72 — оба имеют по четыре специализированных канала ALU, два из которых обрабатывают простые целочисленные операции, еще один занимается ветвлениями, и последний — сложными целочисленными операциями. Такое устройство упрощает планирование, но не слишком эффективно работает, так как канал сложных целочисленных операций будет загружен работой меньше других.

Изображение: Chips and Cheese
Изображение: Chips and Cheese

Ядро FTC663 отличается невысокими возможностями по выполнению операций с плавающей запятой. Пиковая производительность векторных и FP-операций идентична Cortex A72, большинство исполнительных блоков имеют разрядность в 64 бита, а 128-битные операции требуют двух тактов — в то время как целочисленные ALU имеют разрядность 128 бит. К этому добавляется и сравнительно низкая тактовая частота D2000. ARM Neoverse N1 также имеет два FP-конвейера, но использует 128-битные исполнительные блоки, и может выполнить по две 128-битные инструкции за такт, а FTC663 только одну. Про Skylake и не говорим, он обеспечивает очень высокую производительность векторных операций из-за поддержки AVX2 и полноразмерных 128-битных исполнительных блоков.

Как и ядро Cortex A72, FTC663 имеет два конвейера данных — для загрузки и сохранения. Но Phytium реализовали в своем ядре унифицированный планировщик AGU, который должен быть эффективнее распределенного планировщика ARM, так как типичный код имеет больше операций загрузки, чем операций сохранения, и планировщик загрузки AGU в A72 частично будет простаивать. Phytium решили часть этой проблемы, но у их ядра ресурсы памяти для выполнения всё равно ограничены, а аналогичные высокопроизводительные ядра западных компаний используют более мощные конфигурации AGU — тот же Neoverse N1 имеет два конвейера, способных обрабатывать операции загрузки и сохранения, а конфигурация AGU в Skylake поддерживает по две операции загрузки и одну сохранения за каждый такт. Да и блок загрузки/сохранения LSU, обеспечивающий правильный порядок выполнения операций с памятью, у Phytium менее совершенен, по сравнению даже со старыми процессорами Intel, AMD и ARM. LSU в FTC663 не может определить, зависимы ли операции с памятью, и не может выполнить операции загрузки, пока все предыдущие адреса сохранения не будут известны и проверены на перекрытия, что добавляет дополнительную задержку.

Хорошее предсказание ветвлений очень важно для современных высокопроизводительных архитектур, и Phytium занимаются решением задачи уже несколько лет, начиная с ядер Xiaomi в их решениях многолетней давности. И в FTC663, по сравнению с Cortex A72, действительно есть возможность обработки более длинных цепочек, но при большом количестве ветвлений блок предсказаний FTC663 работает даже хуже, чем в A72. Скорее всего, в процессоре Phytium больше хранилище для истории ветвлений, и с длительным отслеживанием истории для точного предсказания Phytium должен быть лучше решения ARM, но при большом количестве ветвей и умеренной длине истории, A72 даже может оказаться предпочтительнее.

А уж по сравнению с такими решениями, как Skylake и Neoverse N1, предсказатель ветвлений в FTC663 и вовсе крайне слаб — эти ядра имеют заметно более эффективные предсказатели, способные распознавать очень длинные паттерны и лучше работают с большим количеством ветвей. В реальных задачах ядро FTC663 отстает не только от Skylake и N1, что логично, так как это меньшее ядро с пониженными требованиями к производительности, но и от Cortex A72, обладающего одним из худших предсказателей для ядер с поддержкой внеочередного выполнения того времени. И хотя ядро FTC663 имеет лучшую способность к переупорядочиванию, но это преимущество нивелируется более частыми ошибками предсказаний.

Буфер целевых ветвлений (branch target buffer — BTB) в Phytium D2000 по схеме очень похож на BTB в Cortex A72 — даже советы по оптимизации программного обеспечения для Cortex A72 и FTC663 совпадают, а Neoverse N1 и Skylake гораздо быстрее в отслеживании принятых ветвлений, что позволяет поддерживать гораздо более высокую скорость исполнения кода с большим количеством ветвлений. Предсказание косвенных ветвлений работает у Phytium также на уровне A72, и оба ядра уступают ядрам ARM и Intel по этим возможностям. В целом, предсказатель ветвлений в FTC663 не очень хорош, и даже Haswell более чем 10-летней давности превосходит его по всем показателям. Решение Phytium может сравниться только с посредственным предсказателем ARM времен Cortex A72, но затем ARM многое изменила в своих следующих ядрах, и в Neoverse N1 появился куда более быстрый и точный предсказатель. Вероятно, Phytium пришлось пойти на слишком большие компромиссы в FTC663, которые были исправлены лишь в FTC862, на котором основан процессор D3000.

Слабости D2000 хорошо видны по результатам в архиваторе 7-Zip, который использует собой сильно разветвленную нагрузку, состоящую почти целиком из скалярных целочисленных инструкций. Небольшое количество инструкций позволяет разместить их в большинстве кэшей инструкций первого уровня, что обеспечивает высокий процент попаданий. Phytium D2000 в этом тесте показывает довольно слабые результаты, значительно отставая от конкурентов, несмотря на большее количество ядер — это демонстрирует слабость архитектуры ядер FTC663, которая имеет далеко не лучший предсказатель ветвлений для современных архитектур с внеочередным выполнением команд. Именно в таких тестах, где 15% и больше выполняемых инструкций являются ветвлениями, это сказывается на результате больше всего.

Но в ядрах FTC862, на которых основан процессор D3000, предсказание ветвлений значительно улучшили, и показатель IPC этого решения совсем не так плох, если учесть его сравнительно невысокую тактовую частоту в 2,5 ГГц. И если однопоточная производительность D2000 была очень далека от показателей западных процессоров, то в D3000 положение заметно улучшилось, и он не просто догнал, но и перегнал тот же Zen 1 по IPC по крайней мере в 7-zip. Высокая однопоточная производительность важна потому, что в настольных компьютерах, как правило, выполняются клиентские нагрузки, которые не слишком хорошо масштабируются с увеличением числа ядер, по сравнению с серверным ПО.

Если не учитывать слабости предсказателя ветвлений, пропускная способность выборки кода Phytium D2000 также схожа с Cortex A72. FTC663 имеет L1-кэш инструкций объемом 48 КБ, как и ядро ARM, и у обоих наблюдается резкое падение скорости исполнения при выборке кода из L2-кэша, хотя у FTC663 этот показатель чуть лучше. Ядро Phytium D2000 поддерживает скорость в одну инструкцию за такт при выполнении кода из L2-кэша, используя схему предварительного декодирования, подобную A72. Neoverse N1 же может загружать данные из L2-кэша почти с той же скоростью, что Phytium из L1-кэша, а Skylake поддерживает высокую пропускную способность по загрузке инструкций даже из L3-кэша. Также современные архитектуры ARM и Intel обладают большим объемом кэш-памяти, и в сочетании с раздельными BTB, их ядра могут поддерживать высокий показатель IPC, даже если код выпадает из кэша инструкций. FTC663 в таких случаях испытывает трудности, частично исправленные в FTC862.

Внеочередное исполнение команд позволяет процессору избежать снижения производительности при исполнении инструкций с большой задержкой, для чего предусмотрены очереди и буферы, отслеживающие инструкции на разных этапах выполнения. Механизм выполнения команд FTC663 кажется улучшенной версией Cortex A72, он имеет буферы размера почти как у Neoverse N1, но явно уступающие буферам Skylake. Ядро FTC663 обладает схожей возможностью переупорядочивания инструкций загрузки, ветвления и установки флагов по сравнению с A72, эти процессоры используют 64-битные регистры с плавающей запятой/векторные регистры и выделяют несколько регистров для обработки 128-битных инструкций NEON.

Разработчики Phytium увеличили размеры регистровых файлов и буферов переупорядочивания в FTC663, что дало преимущество перед A72 в производительности переупорядочивания. Также был увеличен размер очереди сохранения FTC663 до 28 записей — почти вдвое больше 15 записей у A72. Но китайские специалисты не исправили несколько важных недостатков A72 — недостаточную очередь загрузки и количество переименований для регистра флагов. Кроме этого, ядро FTC663 имеет те же проблемы неэффективного распределения векторных регистров, что и у A72, и получить преимущество от увеличенной емкости переупорядочивания ему непросто. У ядер Neoverse N1 и Skylake распределение ресурсов лучше сбалансировано, и на практике они обеспечивают лучшую производительность переупорядочивания. Также A72 и FTC663 неэффективны из-за распределения 128-битных регистров, каждый такой случай требует выделения более двух 64-битных регистров, что приводит к низкой пропускной способности переупорядочивания для 128-битного кода NEON. Это также было исправлено в ядрах FTC862, на котором основан процессор D3000, судя по косвенным данным.

А вот более старое ядро FTC663 очень похоже на Cortex A72, и хотя местами оно получило определенные улучшения, позволяющие избежать части потерь в эффективности, эти улучшения нельзя назвать существенными. Да и мало просто сделать хорошее ядро, нужно еще и обеспечить ему быстрый доступ к данным. Phytium D2000 имеет трехуровневую иерархию кэш-памяти — каждое ядро имеет собственную кэш-память L1D объемом 32 КБ, а каждый кластер из пары ядер имеет L2-кэш объемом 2 МБ, весь же чип имеет общий L3-кэш объемом 4 МБ. Задержка L1 составляет четыре такта, как у других процессоров, но так как FTC663 не отличается высокой тактовой частотой, то оно всё равно уступает своим условным конкурентам.

Задержки быстро ухудшаются при следовании по иерархии кэша, L2-кэш у FTC663 имеет вполне разумный объем, но для доступа требует более 20 тактов, что дает почти такую же задержку, как для куда большего по объему L3-кэша Skylake. А для кэша третьего уровня задержка становится и вовсе печальной — порядка 50 тактов, судя по тестам западных коллег. Фактическая задержка составляет более 20 нс, и это печально. По задержку памяти вообще речи нет, это чуть ли не 160 нс (по тем же западным тестам)! Это даже хуже, чем у старых серверных систем, обращающихся к данным из DDR3-памяти, подключенной к другому сокету. Понятно, что Phytium D2000 сильно страдает от более высоких задержек по всей подсистеме памяти, по сравнению с условными конкурентами. И понятно, что с этим в D3000 нужно было что-то делать.

Пропускная способность подсистемы кэша FTC663 такая же невысокая, как и у Cortex A72. Даже древние Skylake и N1 значительно опережают и FTC663 и A72, наглядно показывая, насколько до сих пор отстают от западных решений китайские процессоры. Также на Phytium сказываются двухъядерные кластеры ядер — их объединили, чтобы избежать узких мест в пропускной способности L2-кэша, но ARM и Intel уже давно используют более продвинутые реализации общего кэша с кольцевыми или сеточными межсоединениями, обеспечивающими лучшее масштабирование пропускной способности при многопоточных нагрузках. А двухъядерные кластеры Phytium D2000 значительно замедляют операции когерентности кэша при пересечении границ кластера, и хотя большие межъядерные задержки слабо влияют в большинстве приложений, другие архитектуры добились куда меньших задержек благодаря использованию той же кольцевой шины, и даже межкластерные потери у Zen 2 значительно ниже, чем у D2000.

Поэтому в случае более современного процессора D3000 компанией Phytium были сделаны некоторые оптимизации и изменения в подсистеме доступа к данным, хотя и далеко не все, что хотелось бы улучшить. Мы уже говорили выше о поддержке более быстрой DDR5-памяти, но этим дело не ограничилось. Рассмотрим уровни кэшей уже D3000 и их примерные задержки, они не сильно изменились на удивление:

  1. L1-кэш — каждое из ядер имеет собственный кэш первого уровня, по 32 КБ для инструкций и 32 КБ для данных. Задержка у этого уровня кэша всего лишь около 4 тактов или 2 нс.
  2. L2-кэш — кэш второго уровня разделяется на каждую пару ядер, по два ядра объединены в кластер с общим L2-кэшем объемом 2 МБ — задержка доступа до 20 тактов.
  3. L3-кэш — общий кэш третьего уровня объемом 8 МБ, обслуживающий все восемь ядер, с чуть более высокой латентностью (задержка около 36 тактов), но большим объемом.
  4. L4-кэш — это новинка D3000, дополнительный кэш последнего уровня объемом в 8 МБ работает в роли системного кэша между процессорными ядрами и оперативной памятью, он снижает задержки и увеличивает эффективную пропускную способность. Доступ к оперативной памяти DDR4/DDR5 имеет сниженную задержку по сравнению с D2000, оценочно ближе к 70-80 тактам.

Во время своего выхода модель Phytium D2000 подходила для встраиваемых систем, но уже тогда была не слишком конкурентоспособна на рынке настольных и мобильных ПК. И в однопоточных и в многопоточных задачах процессор проигрывал даже старому Intel Core i5-6600K с вдвое меньшим количество ядер, а более современные решения AMD и Intel были в несколько раз лучше буквально во всем. Кроме этого, судя по фотографиям и слайдам Phytium, площадь кристалла D3000 составляет 132 мм², а это больше, чем 122 мм² для Skylake. И это при том, что ни D2000 ни D3000 не являются полностью китайскими разработками с нуля, а имеют корни ядра Cortex A72, включая и некоторые специфические особенности, описанные выше.

Прирост производительности D3000 был обеспечен при помощи некоторых архитектурных улучшений и увеличения размеров важных внутренних структур, вроде очередей загрузки, которые в D2000 были слишком малы. Также были улучшены предсказатели ветвлений и кэши на многих уровнях, появился даже уникальный L4-кэш, работающий в качестве системного. И хотя у нас нет подробных данных об архитектурных изменениях, зачастую кратный прирост производительности D3000 по сравнению с D2000 говорит об огромной работе, проделанной китайской компанией — к сожалению, деталей они не раскрывают совсем.

В портфолио Phytium Technology есть и другие современные процессоры. Например, мобильный процессор D3000M стал первым CPU компании, специально разработанным для ноутбуков. Эта система-на-чипе включает восемь высокопроизводительных процессорных ядер FTC862 собственного дизайна, работающих на максимальной тактовой частоте уже 2,9 ГГц, а также контроллер LPDDR5x-памяти, PCIe 4.0 интерфейс, встроенный графический процессор и нейронный процессор NPU, что делает его универсальным решением для ноутбуков. По первым данным, процессор обеспечивает достаточную производительность для китайских ноутбуков, поддерживает время автономной работы до 8—10 часов, и он стал одним из первых китайских процессоров, полностью совместимых с KylinOS V11.

А рассматриваемый Feiteng Tengrui D3000 на момент своего выхода считался самым производительным настольным процессором Китая с ARM-архитектурой, что мы сегодня и проверим. Первые результаты тестов предполагаемого «D3000» от энтузиастов из Китая в SPEC2006 и SPEC2017 показывали, что его одноядерная производительность в 2-2,5 раза выше одноядерной производительности предыдущего поколения D2000, да и общая производительность примерно настолько же выше. Причем однопоточная производительность в целочисленных тестах повысилась раза в полтора, а операции с плавающей запятой — примерно втрое. По тестам китайских коллег, D3000 должен был обгонять как минимум большинство китайских процессоров этого же позиционирования, и отлично показывать себя при выполнении повсеместных задач типа офисного ПО или обработки изображений.

Изображение: CNBeta

Но это были предварительные тесты инженерных образцов с ядрами FTC870 и частотой в 3 ГГц, а в вышедшем на китайский рынок процессоре D3000 мы получили ядра FTC863 (видимо, отличающиеся в худшую сторону по производительности), работающие на частоте всего лишь 2,5 ГГц в нашем случае, так что можно смело «урезать осетра», и уж тем более китайского. Да и наши тесты далее покажут, что всё не так хорошо у Phytium, как хотелось бы.

Все процессоры Feiteng совместимы с большинством китайских операционных систем на основе Linux, в том числе уже известные нам Kylin и UOS. Но процессоры компании совместимы не только с китайскими ОС, но и с международными дистрибутивами Linux, такими как Debian и Red Hat. Кроме этого, компания разработала программную платформу PhyFusion для запуска программного обеспечения, предназначенного для x86-архитектуры. Это программная платформа для работы в нескольких рабочих средах, поддерживающая плавное переключение между рабочими столами, с объединением файловых систем, окон приложений, совместным использованием графических процессоров и т.п. Она работает на процессорах Phytium FT-2000/4, D2000 и D3000 под управлением операционных систем Kylin и UOS.

В последние годы компания Phytium также зарекомендовала себя и в роли серьезного игрока в развитии ИИ, способствуя глубокой интеграции отечественных чипов и технологий ИИ. Не так давно было объявлено, что процессоры Tengyun S5000C и Tengrui D3000 добились поддержки всего спектра больших языковых моделей (LLM) DeepSeek. Это касается как центров обработки данных, так и конечных терминалов, и эффективность локального развертывания сопоставима с эффективностью решений на основе аналогичных западных архитектур. Но тут есть определенные оговорки, конечно же, потому что сами по себе процессоры с восемью ARM-ядрами вряд ли справятся с такими сложными задачами.

Еще в июле 2023 года Phytium вместе с партнерами по экосистеме запустили полностью локализованное решение для вычислительного центра, а в 2024 году модель DeepSeek-V2.5 236B работала на платформе Phytium Tengyun S5000C. Благодаря восьми дополнительным ИИ-ускорителям, эта система на базе Tengyun S5000C якобы обеспечивает производительность на уровне 80% от производительности аналогичных западных решений. Весной 2024 года DeepSeek представила модели DeepSeek-V3 и R1, которые совершили определенную технологическую сенсацию благодаря сочетанию производительности и экономичности, предлагая более эффективные и гибкие решения для локального развертывания. Компания Phytium произвела локальное развертывание на Tengyun S5000C и Tengrui D3000 в своей лаборатории, проверив в деле интегрированное решение для создания интеллектуальных вычислительных сред DeepSeek LLM на отечественной платформе.

В центрах обработки данных серверы на базе Tengyun S5000C могут взаимодействовать с несколькими ИИ-ускорителями для развертывания разных версий моделей DeepSeek, включая и полные. Лаборатория ИИ компании Phytium провела испытания очищенной версии DeepSeek-R1-Distill-Llama-70B на односерверной платформе с 8 ИИ-ускорителями, достигнув скорости вывода 22 токена/с, что сопоставимо с решениями, использующими западные архитектуры. Полная версия модели DeepSeek R1 671B может быть развернута на кластере из четырех таких серверов с 32 ИИ-ускорителями, а пользовательские терминалы на основе процессора Tengrui D3000 и одного ИИ-ускорителя могут локально развернуть очищенную версию модели DeepSeek-R1 7B для создания локальных решений.

Аппаратное обеспечение

Для проведения тестов производительности мы использовали готовую компактную систему Kaitian M90f G1s на основе процессора Phytium D3000 — китайский ПК компании Lenovo, содержащий полный набор аппаратного обеспечения на основе системной платы Kaitian с длинным названием KFD3000ZX200DMMB1 и впаянного на нее процессора компании Phytium, а также предустановленную операционную систему UOS.

Изображение: Lenovo

Подразделение Lenovo Kaitian Technology Co. совместно с Phytium Technology выпустили компактный ПК под названием Lenovo Kaitian M90f G1s, основанный на процессоре Feiteng Tengrui D3000. Lenovo заявила использование DDR5-памяти и возможности встроенного ИИ-помощника, якобы оптимизированного для работы с процессорами Phytium, что бы это ни значило с учетом всего того, что мы писали выше — для локальной работы нейросетей требуется дополнительный ИИ-ускоритель, без него процессор вряд ли справится.

Система Lenovo предназначена для компаний, использующих не слишком мощные ПК в форм-факторе microATX с поддержкой низкопрофильных карт расширения. Применяемая системная плата предлагает два слота DIMM для DDR5-памяти, один слот PCIe x16, один PCIe x1 и два PCIe x1, также есть три порта SATA и пара разъемов M.2, что дает неплохие возможности по расширению функциональности. Тестовая система имеет вполне привычную конфигурацию с 16 ГБ памяти и 512 ГБ твердотельным накопителем, но наверняка у Lenovo есть и другие варианты, как и для всех аналогичных систем, с выбором объема и того и другого — и накопитель и модули оперативной памяти тут легко заменить или дополнить, они тут абсолютно стандартные, в отличие от системы Huawei на базе Kirin 9000C со встроенной на чип памятью, которую невозможно расширить.

Модуль памяти Hynix HMCG78AGBUA081N объемом 16 ГБ в нашей системе лишь один, и работает он в одноканальном режиме DDR5-4000 — судя по всему, скорость передачи данных из памяти по умолчанию зафиксирована в UEFI на этом уровне, так как сам модуль легко может и 5600 МТ/с, но поменять это значение не получится — в BIOS вообще нет настроек. Также в систему установлен твердотельный NVMe-накопитель YMTC YMSS2CB06D25MC объемом 512 ГБ, а еще один NVMe-накопитель можно установить в дополнительный разъем M.2 при необходимости. Системная плата предлагает дополнительно три порта SATA 3.0, и все они свободны.

Так как процессор Phytium D3000 не имеет встроенного графического ядра, в ПК Lenovo на его основе установлена внешняя видеокарта дочерней компании Zhaoxin — Glenfly Arise1020. Это точно такая же видеокарта, как и в системе, которую мы использовали для тестов процессора Zhaoxin KX-7000, и если там она была не особо нужна при наличии неплохого встроенного GPU, то в сегодняшнем случае видеокарта обязательна. Впрочем, ничего особенного от нее ждать не нужно — это очень простая и слабая видеокарта с 2 ГБ медленной видеопамяти, достаточная для вывода 2D-картинки, декодирования видео в самых распространенных форматах, а вот на 3D-рендеринг мы бы особо не рассчитывали, разве что на самый простой.

Модель ПК предлагает довольно широкий набор разъемов, на передней панели размещены: один разъем USB-C, четыре разъема USB-A, совмещенный аудиоразъем 3,5 мм (наушники/микрофон), а на задней: разъемы VGA и HDMI внешней видеокарты, 4+2 разъема USB-A, разъем RJ45 и аудиоинтерфейс: микрофон, стереовыход, аудиовход. Встроенная поддержка беспроводных сетей Wi-Fi и Bluetooth отсутствует, но ее можно легко организовать установить при помощи дополнительного модуля в соответствующий разъем M.2 — возможно, в каких-то конфигурациях этого ПК он уже предустановлен на системную плату.

PCI bridge Phytium Technology Co., Ltd. Device dc01 (prog-if 00 [Normal decode])
PCI bridge Phytium Technology Co., Ltd. Device dc01 (rev 01) (prog-if 00 [Normal decode])
PCI bridge Phytium Technology Co., Ltd. Device dc01 (rev 02) (prog-if 00 [Normal decode])
PCI bridge Phytium Technology Co., Ltd. Device dc01 (rev 04) (prog-if 00 [Normal decode])
PCI bridge Phytium Technology Co., Ltd. Device dc01 (rev 05) (prog-if 00 [Normal decode])
PCI bridge Phytium Technology Co., Ltd. Device dc01 (rev 06) (prog-if 00 [Normal decode])
PCI bridge Phytium Technology Co., Ltd. Device dc01 (rev 07) (prog-if 00 [Normal decode])
Non-Volatile memory controller Yangtze Memory Technologies Co.,Ltd Device 1071 (rev 01) (prog-if 02 [NVM Express])
VGA compatible controller Glenfly Tech Co., Ltd. Arise1020 (prog-if 00 [VGA controller])
Audio device Glenfly Tech Co., Ltd. Arise1020 High Definition Audio Controller
PCI bridge Zhaoxin ZX-200 Upstream Port of PCI Express Switch (prog-if 00 [Normal decode])
PCI bridge Zhaoxin ZX-100/ZX-200 PCI Express Root Port (rev 01) (prog-if 00 [Normal decode])
PCI bridge Zhaoxin ZX-100/ZX-200 PCI Express Root Port (rev 01) (prog-if 00 [Normal decode])
PCI bridge Zhaoxin ZX-100/ZX-200 PCI Express Root Port (rev 01) (prog-if 00 [Normal decode])
PCI bridge Zhaoxin ZX-100/ZX-200 PCI Express Root Port (rev 01) (prog-if 00 [Normal decode])
PCI bridge Zhaoxin ZX-100/ZX-200 PCI Express Root Port (rev 01) (prog-if 00 [Normal decode])
PCI bridge Zhaoxin ZX-200 Downstream Port of PCI Express Switch (prog-if 00 [Normal decode])
Ethernet controller Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (rev 15)
PCI bridge Zhaoxin ZX-200 PCIE P2C bridge (rev 03) (prog-if 00 [Normal decode])
SATA controller Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G StorX AHCI Controller (prog-if 01 [AHCI 1.0])
USB controller Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G Standard Universal PCI to USB Host Controller (rev a0) (prog-if 00 [UHCI])
USB controller Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G Standard Universal PCI to USB Host Controller (rev a0) (prog-if 00 [UHCI])
USB controller Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G Standard Universal PCI to USB Host Controller (rev a0) (prog-if 00 [UHCI])
USB controller Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G Standard Enhanced PCI to USB Host Controller (rev 90) (prog-if 20 [EHCI])
USB controller Zhaoxin ZX-200 USB eXtensible Host Controller (prog-if 30 [XHCI])

Судя по информации об устройствах в системе, SATA- и USB-контроллеры в системе — Zhaoxin! Так как сам рассматриваемый CPU не имеет полной поддержки современных портов, судя по всему, то на плате дополнительно установлен чипсет Zhaoxin ZX-200, содержащий необходимые контроллеры, а также обеспечивающий работу еще нескольких линий PCIe 2.0 в дополнение к возможностям Phytium D3000. Вот такая китайская коллаборация.

Корпус имеет возможности установки четырех низкопрофильных карт расширения, а системная плата предлагает полноразмерный слот PCIe x16, а также один x4 и пару x1 для установки плат расширения. Дополняет ПК вполне достаточный блок питания невысокой мощности, а компактный корпус достаточно удобен и просторен для столь простой по современным меркам системы. В комплекте поставляются простенькие модели проводных клавиатуры и мыши бренда Lenovo. Полностью поддерживаются операционные системы: Kylin OS и Tongxin UOS Desktop — возможна предустановка одной из них.

Для охлаждения китайского процессора в версии для настольных ПК, используется относительно несложная по современным меркам система охлаждения, состоящая из алюминиевого радиатора среднего размера и вентилятора, выдувающего воздух за пределы корпуса — в отличие от большинства рассмотренных китайских систем, довольствующихся алюминиевым радиатором меньшего размера с обычным вентилятором. Такого кулера достаточно для охлаждения Phytium D3000, который не нагревался выше 65 °C при проведении наших тестов, если верить встроенному датчику и системе мониторинга. Но Lenovo всё же установила не самый простой воздушный кулер в свою систему, по сравнению с тем же ПК от Huawei на базе Kirin 9000C, не говоря уже о Zhaoxin KX-7000, для которого потребовался заметно более эффективный кулер с медными тепловыми трубками и мощным вентилятором.

Такая система охлаждения процессора обеспечивает не очень высокий уровень шума, и даже при активной нагрузке на CPU ее почти не слышно, вентилятор лишь чуть шелестит. Эффективности охлаждения хватает для охлаждения процессора Phytium D3000, и этот китайский CPU не обладает слишком жарким характером, вся система целиком в наших тестах потребляла до 70 Вт — по сравнению с 120 Вт в случае ПК с Zhaoxin или 86 Вт с Intel Core i3-12100, к примеру. Хотя максимальный уровень потребления одного лишь процессора в теории может достигать 70 Вт, судя по данным из BIOS:

Применяемая системная плата KaiTian с очень длинным наименованием (см. скриншот настроек BIOS выше) имеет очень скудные возможности по настройке в BIOS Setup, никакого разгона и изменения важных для производительности параметров среди них нет, так что даже заходить в настройки особого смысла не имеет. Можно лишь посмотреть конфигурацию системы, установленного в ней процессора, а также версию BIOS, больше ловить там нечего. Очень бы помогла настройка частоты работы и таймингов DDR5-памяти, но ее в меню настроек не оказалось, как и многих других привычных по решениям AMD и Intel параметров.

Единственное, что мы смогли дополнительно исследовать — двухканальный режим работы памяти. В системе Lenovo установлен единственный модуль DDR5-5600 объемом 16 ГБ, поэтому процессор Phytium D3000 работает в одноканальном режиме. Но так как CPU поддерживает работу с двумя каналами памяти, то мы решили исследовать и производительность в двухканальном режиме, установив в ПК пару имеющихся у нас DDR5-4800 модулей. В обоих случаях тактовая частота памяти была ограничена значением в DDR5-4000, как видно по выводу системной информации встроенной утилитой, так что в теории производительность ПК могла бы быть еще выше.

Программное обеспечение и впечатления от работы

Чисто теоретически Phytium D3000 можно попробовать заставить работать под управлением специальной ARM-версии Windows 11, мы пока что не пробовали это сделать, но официально поддерживаются две знакомые уже специальные версии Linux: Kylin и Unity OS (UOS), и попавшая к нам система Huawei имеет предустановленной системой вторую. Это операционная система китайской разработки от компании Tongxin Software, основанная на дистрибутиве Deepin, мы уже не раз рассматривали эту систему в своих материалах о китайских процессорах. Так как она для нас совсем не нова, то очень кратко расскажем о ней, а также некоторых впечатлениях и возможностях.

Операционная система UOS

UOS — операционная система на базе дистрибутива Deepin, основанного на Debian, разработанная компанией UnionTech по заказу правительства КНР для замещения иностранных операционных систем. Есть варианты для настольных и для серверных систем, первые версии вышли еще в 2019 году. UOS также ориентирована на китайский рынок и предназначена для замены Microsoft Windows, поддерживает аппаратные платформы Zhaoxin, Loongson, Sunway, а также процессоры на базе архитектуры ARM. Существует и версия для x86-64-совместимых процессоров.

Для уже работавших с современными системами, UOS выглядит... обычно. Она имеет современный интерфейс, схожий с тем, что появился в Windows 11, и довольно неплохой набор предустановленных приложений. Есть среди них и встроенный умный помощник на основе искусственного интеллекта, использующий различные облачные сервисы — его проверка и тестирование не входит в наши планы, так как вычисления производятся не локально, а на это способны вообще все современные устройства, включая смартфоны.

Операционная система UOS

Некоторым неудобством традиционно для UOS является тот момент, что для получения прав суперпользователя (root) в системе необходимо зарегистрироваться при помощи телефона, электронной почты или мессенджера WeChat — и в нашем случае сработал только последний вариант. Также может напрягать неполный перевод с китайского языка для части ПО, включая магазин приложений, но с этим вполне можно жить — лишь в редких случаях нам пришлось переводить текст онлайн-переводчиком при помощи камеры мобильного телефона. Ну а системный монитор выглядит вообще шикарно, не хуже более привычных аналогов:

Системный монитор UOS

В составе операционной системы есть всё самое необходимое для базовой работы, включая интернет-браузер, медиаплеер и магазин приложений. Система выглядит современно и предоставляет все основные возможности, необходимые для типичного домашнего и офисного пользователя. Магазин достаточно продвинутый удобный, он предлагает широкий набор ПО для разных применений, в нем есть разделы по категориям, рейтингу и т. п., поддерживается автоматическое обновление, есть отзывы пользователей — всё как обычно, вполне на хорошем современном уровне. Встречается немного китайских иероглифов, но это не сильно мешает.

Более того, в ARM-версии магазин приложений выгодно отличается от ранее рассмотренной нами LoongArch64-версии, и количество представленных в этом магазине программ куда больше, хотя x86-версии в случае системы на базе Zhaoxin KX-7000 магазин всё же уступает, в свою очередь — чем сильнее распространена система команд, используемая процессором, тем больше для него существует ПО, включая различные версии. К примеру, в отличие от UOS на базе Loongson, и для x86 и для ARM сразу же предлагается полноценный офисный пакет — LibreOffice довольно свежей версии.

Это достаточно продвинутый офисный пакет, который предлагает всё необходимое для работы: редакторы текста и таблиц, программа для создания презентаций и т. п., и работать в нем на системе с процессором Phytium вполне комфортно, никаких проблем мы не ощутили даже по сравнению с более мощными современными западными системами, которые будут более отзывчивыми и плавными, конечно же, но для типичной работы в офисном пакете это не так важно. Кстати, в отличие от Kirin 9000C, в систему уже установлено 16 ГБ памяти, пусть и одной планкой в одноканальном режиме, и это заметно повышает комфорт работы по сравнению с 8 ГБ у процессора Huawei, которых порой не хватает в современных многозадачных системах.

Вроде бы всё неплохо, но мы во второй уже раз делаем одно и то же замечание тестовой системе производства Lenovo — по какой-то причине они не предустанавливают в UOS нормальный видеодрайвер для штатно установленной внешней видеокарты Arise1020! Почему-то они используют какой-то стандартный драйвер без поддержки аппаратного ускорения для некоторых операций, и поэтому работа ПК была не слишком плавной как минимум в 4K-разрешении, да и при просмотре видеороликов — понятное дело, ведь аппаратное видеодекодирование в таком случае не работает вовсе. Мы нашли в китайских форумах обновленный видеодрайвер для видеокарты, и после его установки всё более-менее наладилось. Хотя гладко работали не все видеоформаты и не всегда в 4K-разрешении, но на такое разрешение система и в принципе вряд ли всерьез рассчитана.

До установки корректного видеодрайвера для Linux, в тесте GLmark2 при разрешении Full HD внешняя видеокарта набрала лишь 80 очков, тогда как с драйвером уже 1200 баллов — разница налицо. Впрочем, старенькая Radeon RX 480 в этой системе набирает более 4500 очков в этом же тесте, так что даже старый графический процессор AMD намного быстрее этой китайской видеокарты. Но не во всех применениях, в 2D-операциях и эта видеокарта от Zhaoxin оказалась вполне полезной, заметно ускорив обработку графики:

HardInfo — GPU Drawing
Himarks
Arise 1020 (Phytium D3000 с двухканальной памятью) 12225
Arise 1020 (Phytium D3000 с одноканальной памятью) 11106
Kirin 9000C 1144
Radeon RX 480 13152
Arise 1020 (Zhaoxin KX-7000) 9642

Если рассматривать тест графики GPU Drawing из утилиты HardInfo, то полученные на системе с Phytium D3000, не имеющим интегрированного графического ядра, 11106 баллов для внешней видеокарты в случае одноканальной DDR5-памяти и аж 12225 баллов в двухканальном режиме — это почти на уровне Radeon RX 480. С учетом того, что получается обычно на встроенных в процессоры GPU, это действительно неплохой уровень, хотя 3D-возможности этого решения минимальны.

С одной из наиболее распространенных задач современного ПК — просмотром видеороликов различных форматов в высоких разрешениях, у системы на основе Phytium D3000 всё оказалось неплохо, так как внешняя видеокарта имеет специализированные блоки для аппаратного ускорения декодирования видеоданных, разгружающие остальные компоненты системы, и этот GPU вполне официально поддерживает аппаратное ускорение декодирования видеоданных в наиболее востребованных форматах — но при соответствующей программной поддержке, которой по умолчанию нет, как так Lenovo почему-то не установила необходимые драйверы.

Понятно, что без них декодирование видео работает не слишком хорошо, мягко говоря, ведь сравнительно слабому CPU справиться с программным декодированием не так уж просто — в итоге мы видели как пропуски кадров, так и загрузку CPU до 90% и даже более. Но с установленным дополнительно драйвером, предустановленный в ОС медиаплеер справлялся с декодированием большинства 4K-роликов в разных форматах, включая H.265, загрузка CPU в этом случае была невысокой, даже для роликов высокого битрейта и современных форматов — порядка 20%. А главное, что пропали пропуски кадров, и ролики стало приятно смотреть.

Программное декодирование
Аппаратное декодирование

В целом, и эта китайская система вполне работоспособна, и с некоторыми дополнительными действиями в виде установки драйвера и дополнительного подбора ПО (медиаплеера и офисного пакета, например) она обеспечит достаточный комфорт для нетребовательных пользователей при использовании несложных программных продуктов, не слишком больших документов и не слишком активной работе фоновых задач, занимающих большие объемы памяти. Желательно также работать в разрешении Full HD ну или 2K, но не в 4K, в котором всё же были заметны притормаживания из-за очень слабой внешней видеокарты. Итог в целом аналогичен тем выводам, что мы делали в обзоре остальных китайских CPU — их мощности в целом хватает для разрешения Full HD, но для 4K они плохо подходят.

Тестирование производительности

Тестовые системы и условия

При тестировании мы использовали готовый китайский ПК на основе процессора Phytium D3000, который содержит перечисленный выше набор аппаратного обеспечения, равно как и другие китайские CPU. А вот западные процессоры AMD и Intel, взятые для сравнения, просто использовали подходящий для них набор комплектующих. Конкуренты для очередного китайского CPU, который вряд ли покажет в разы более высокую производительность, остались теми же, что и в более ранних статьях по китайским решениям, начиная с Loongson.

Так как процессоров типа Intel Core i3-10100 у нас давно нет в наличии, то мы взяли минимальную конфигурацию из имеющихся у нас систем на основе процессоров Intel и AMD: Core i3-12100 с памятью DDR5, а также «Ryzen 5 1500X». Почему в кавычках — мы его «эмулировали» при помощи процессора Ryzen 7 1700, выставив в BIOS Setup режим 2+2 ядра, ведь в четырехъядерном процессоре Ryzen 5 1500X заблокирована как раз половина ядер, да не в одном блоке CCX, а отключены по паре ядер в каждом из них, что позволило процессору сохранить весь объем в 16 МБ L3-кэша, зато оставило узкое место в виде сниженной скорости передачи данных между ними по Infinity Fabric. Также для полноценной имитации четырехъядерного Ryzen первой серии мы выставили соответствующий лимит энергопотребления, и у нас получился практически полноценный Ryzen 5 1500X.

Для процессоров AMD Ryzen и Intel Core мы использовали имеющиеся тестовые системные платы и типичную для них память DDR4 и DDR5, соответственно — с настройками из XMP-профилей, а все ограничения процессоров по потреблению энергии были выставлены в соответствии с их спецификациями, а не так, как хотят производители системных плат.

Чтобы все процессоры были в более-менее равных условиях, мы тестировали Ryzen 5 и Core i3 под управлением x86-совместимой версии UOS. Возможно, другие версии Linux и/или Windows для x86-64 процессоров дали бы лучшие результаты для x86-процессоров, это нужно учитывать. Выбор же основного тестового ПО остался без изменений — чтобы сравнивать все китайские процессоры с различными архитектурами еще и с западными CPU. Других вариантов нет, ведь нам нужно, чтобы все тесты и методики работали на CPU всех имеющихся архитектур. Поэтому для тестирования мы снова взяли пакет Phoronix Test Suite, использовав как можно большее количество тестов из него, в принципе работоспособных на всех трех архитектурах: LoongArch64, AArch64 и x86_64.

Тестирование дается довольно непросто, какие-то тестовые пакеты не работоспособны на разных архитектурах, другие используют библиотеки и оптимизации исключительно для архитектуры x86-64, и даже не собираются на других. Даже если в коде нет жесткой привязки к архитектуре, то могут возникнуть проблемы со сборкой, отсутствием каких-то библиотек, и даже если их решить, то выбранное ПО всё равно может некорректно работать, или не выдавая результатов вовсе или завершая работу теста с ошибкой. В общем, мы запускали снова все те же тесты из пакета Phoronix Test Suite, которые уже использовали в более ранних статьях.

Синтетические тесты

Производительность памяти и системы кэширования

Как обычно, сначала посмотрим эффективность работы контроллера памяти и системы кэширования, спроектированными инженерами Phytium. К сожалению, привести протестированные процессоры к единым параметрам памяти просто невозможно, поэтому CPU использовались в разных условиях. Нужно просто помнить, что процессоры Phytium, Huawei и Intel поддерживают память DDR5, а AMD, Loongson и Zhaoxin — DDR4. Рассматриваемый сегодня китайский процессор мы тестирует и в одноканальном (на диаграммах отмечено Single) и в двухканальном (Dual) режимах DDR5-4000.

CacheBench
Read, MB/s Write, MB/s Read/Modify/Write, MB/s
Phytium D3000 Dual 9533 18794 38046
Phytium D3000 Single 9531 18792 38045
Zhaoxin KX-7000 8052 15926 31867
Kirin 9000C 9427 36908 72705
Loongson 3A6000 6355 38074 62898
Core i3-12100 16368 82602 128042
Ryzen 5 1500X 9254 44095 83291

Первым идет тест пропускной способности подсистемы кэширования и оперативной памяти CacheBench — часть пакета LLCbench, которая измеряет пропускную способность при чтении, записи и в смешанном режиме чтения, изменения данных и их записи. Судя по предыдущим тестам, на результат больше влияет пропускная способность кэшей, чем оперативной памяти. Это же подтверждается и сегодня, ведь разницы между одноканальным и двухканальным режимами DDR5 мы не обнаружили.

Стало уже привычным делом, что процессор Intel выигрывает во всех режимах, и на это не влияет применение DDR5-памяти, всё дело в быстрых кэшах. Core i3-12100 в разы быстрее по работе с кэшем по сравнению с Phytium D3000: для смешанного режима это 3,4 раза, для записи аж 4,4 раза, и только для чтения — «всего лишь» 1,7 раза. Ryzen 5 1500X не так силен, он опередил рассматриваемый сегодня китайский CPU более чем вдвое лишь в двух из трех подтестов, по чтению данных их результаты оказались близкими, D3000 даже чуточку быстрее.

В этом виновата относительно низкая частота работы D3000, по прошлым тестам мы знаем, что приведенные к частоте в 2,5 ГГц процессоры AMD и Intel заметно медленнее. Но дело не только в частоте, ведь если брать сравнение процессоров Phytium и Huawei, то они близки лишь в режиме чтения, а в остальных вариантах Kirin 9000C почти вдвое быстрее. С Loongson наблюдается примерно то же самое, хотя именно при чтении он уступает сегодняшнему герою почти в полтора раза. В любом случае, производительность системы кэширования — явно не самая сильная сторона процессора Phytium.

MBW
Copy 128 MiB, MiB/s Copy 4096 MiB, MiB/s Copy Fixed 128 MiB, MiB/s Copy Fixed 4096 MiB, MiB/s
Phytium D3000 Dual 11962 10694 11529 10778
Phytium D3000 Single 9198 9076 8663 8229
Zhaoxin KX-7000 7604 7638 5174 5038
Kirin 9000C 17067 17301 17263 0
Loongson 3A6000 8655 9861 8406 9726
Core i3-12100 16395 16313 11764 11662
Ryzen 5 1500X 14394 14797 7433 8795

Второй бенчмарк Memory BandWidth (MBW) — довольно простой тест пропускной способности оперативной памяти для операций копирования, в нем есть несколько режимов, отличающихся объемом данных и режимом копирования — мы выбрали объем в 128 МБ и 4 ГБ. В этом случае уже больше должна сказываться именно пропускная способность оперативной памяти, а не кэша. Но разница между одно- и двухканальным режимами работы памяти для Phytium D3000 оказалась не слишком большой, так как MBW не чисто синтетический тест, он имитирует операции популярного ПО, тогда как многие другие тесты измеряют скорее пиковые показатели ПСП.

Так вот, установка второго модуля DDR5 во второй канал Phytium D3000 дала прирост примерно на треть, что не много, но и не мало. А нулевые показатели в последней колонке системы на основе Kirin 9000C получились из-за недостатка памяти — 8 ГБ для теста не хватает. С памятью D3000 работает сносно, хотя и не слишком хорошо. Он явно обгоняет Zhaoxin KX-7000 с DDR4-памятью и немного опережает Loongson 3A6000 в двухканальном режиме, работающий с DDR4-1866 памятью, но до Kirin 9000C сегодняшнему герою далеко — D3000 уступает решению Huawei до 45%, а ведь они оба используют DDR5-память.

И тут Core i3-12100 уже не быстрейший, так как измеряется эффективная ПСП, и Kirin 9000C использует память DDR5, работающую на более высокой частоте. В Fixed-режимах Phytium D3000 на удивление близок к процессору Intel, а вот в двух других всё же проиграл — видимо, из-за меньшей частоты DDR5-памяти. С Ryzen 5 1500X примерно то же самое, но с учетом того, что он использует пусть и достаточно быструю, но всё же DDR4-память.

RAMspeed
Average Integer, MB/s Average Float, MB/s
Phytium D3000 Dual 33962 33840
Phytium D3000 Single 19914 19909
Zhaoxin KX-7000 14375 14970
Kirin 9000C 35373 35528
Loongson 3A6000 13321 13171
Core i3-12100 37662 37899
Ryzen 5 1500X 22705 24916

RAMspeed — еще один тест производительности оперативной памяти, мы использовали два режима средней скорости передачи данных в двух форматах: целочисленном и с плавающей запятой. В этом тесте измеряется скорее пиковая пропускная способность именно оперативной памяти, судя по разнице между режимами с одним и двумя каналами у Phytium D3000 — она получилась около 70%, что очень неплохо при максимально возможных теоретически 100%.

Использование памяти DDR5 помогло Phytium D3000 быть почти на уровне Kirin 9000C с более высокой частотой памяти, да и от лидера в виде решения Intel многолетней давности, сегодняшний китайский процессор отстал не так много — Core i3-12100 быстрее лишь на 11%. Это можно считать неплохим результатом для Phytium, его контроллер памяти не так уж плох, особенно на уровне контроллера Loongson и Zhaoxin, которые хоть и используют более медленную DDR4, но уступили очень много — в 2,6 и 2,3 раза, соответственно.

Stream
Copy, MB/s Scale, MB/s Triad, MB/s Add, MB/s
Phytium D3000 Dual 40745 41312 40734 38347
Phytium D3000 Single 20559 20454 20149 20104
Zhaoxin KX-7000 23793 15115 13763 13773
Kirin 9000C 28964 29170 29111 29134
Loongson 3A6000 19699 22436 21708 21914
Core i3-12100 58831 58440 58246 58203
Ryzen 5 1500X 38177 24664 28568 28719

Последний тест этого раздела называется Stream — это еще один популярный бенчмарк для тестирования оперативной памяти, предлагающий четыре различных варианта измерения пропускной способности. Важное отличие бенчмарка Stream в том, что он стремится измерять пиковые показатели, а не ПСП в условиях, близких к реальному ПО, как это было в прошлом тесте, к примеру. Что сразу видно по показателям Phytium D3000 в одно- и двухканальном режимах, разница в скорости между ними составила почти идеальные два раза — ровно по теории.

И среди китайских CPU именно Phytium D3000 показал лучший результат. Даже если не брать Loongson и Zhaoxin с довольно печальными показателями ПСП, отставшие до 2 и 3 раз соответственно, наш сегодняшний герой опередил процессор Kirin 9000C на 30%-40%, что весьма ощутимо. Так что среди китайских решений работа с памятью у D3000 неплоха — по крайней мере, если говорить о пиковых показателях ПСП, а не эффективности работы контроллера в сложных условиях.

Но смог ли этот процессор составить конкуренцию Core i3-12100? К сожалению нет, D3000 отстал от него на 42%—53%. А вот Ryzen 5 1500X остался позади, лишь в режиме копирования процессор AMD смог показать близкий результат, в остальных проиграв Phytium D3000 в других подтестах от 43% до 68%. Даже при том, что у него была память DDR4-3200, уступающая около четверти по теоретическим показателям, рассматриваемый сегодня китайский процессор оказался очень неплох даже на уровне западных образцов по пиковой скорости работы с памятью.

Синтетические и общие тесты

Чисто синтетические тесты производительности из различных пакетов могут быть интересны для оценки низкоуровневой производительности в специализированных задачах, хотя некоторые из них претендуют и на определенную универсальность. Эта группа тестов показывает относительную производительность CPU в разных применениях и сценариях.

Core latency
Min core latency, ns Average core latency, ns Max core latency, ns
Phytium D3000 Dual 126,3 188,1 224,4
Phytium D3000 Single 125,6 188,8 226,9
Zhaoxin KX-7000 203,7 215,7 227,1
Kirin 9000C 29,4 283,5 338,1
Loongson 3A6000 31,2 95,8 108,3
Core i3-12100 21,3 74,7 101,5
Ryzen 5 1500X 47,1 167,7 274,3

Core-Latency — тест для измерения задержек между всеми комбинациями ядер процессора, он определяет минимальное, среднее и максимальные значения. Больше всего интересны его результаты при чиплетной организации ядер или группировке ядер в блоки, а также в многопроцессорных системах, когда задержки между ядрами очень сильно отличаются. И так как ядра Phytium D3000 сгруппированы в блоки по четыре, то мы и видим соответствующую разницу по межъядерные задержкам. Естественно, что тут нет разницы при работе с разным количеством каналов памяти.

В отличие от Zhaoxin KX-7000, у которого все ядра равнозначны, у Phytium D3000 есть явная разница в задержках между ядрами. Примерно то же мы видели и у Kirin 9000C — хотя кристаллы их монолитны, внутренняя организация неоднородных ядер привела к повышению максимальной и средней задержек. Но если у процессора Huawei она огромна, то Phytium скорее ближе к многокристальному Ryzen первого поколения. Правда, в отличие от всех процессоров, кроме того же Zhaoxin, минимальная задержка D3000 очень низкая, у Core, Loongson и Kirin она заметно ниже. А вот по максимальной и средней задержке заметно лучше процессоры Intel и Loongson, а Ryzen 5 1500X с организацией из двух блоков CCX имеет несколько меньшую среднюю, но большую максимальную задержку. Всё примерно соответствует теории.

EEMBC CoreMark
it/s
Phytium D3000 Dual 159840
Phytium D3000 Single 159364
Zhaoxin KX-7000 161667
Kirin 9000C 148951
Loongson 3A6000 114771
Core i3-12100 212087
Ryzen 5 1500X 139047

EEMBC CoreMark — это набор синтетических тестов для измерения производительности процессоров и микроконтроллеров, он был создан для замены старого известного теста Dhrystone. Он содержит реализации алгоритмов поиска и сортировки данных, матричные операции, подсчет контрольной суммы и др. Результат отображается в виде единственного значения в количестве повторений за секунду, удобного для сравнения разных систем. От скорости памяти результат почти не зависит.

Процессор Phytium D3000 в этом тесте весьма неплох, он показал скорость на уровне Zhaoxin KX-7000, и быстрее всех остальных участников сравнения, кроме Core i3-12100, который заметно лучше всех. Kirin 9000C на основе ARM-ядер проиграл 7%, а Loongson 3A6000 и вовсе 39%, и даже Ryzen 5 1500X оказался медленнее на 15%. Так что Phytium справляется с этой задачей явно эффективнее большинства китайских процессоров, а Zhaoxin быстрее него из-за большей частоты и энергопотребления.

Swet
Mops/s
Phytium D3000 Dual 331,4
Phytium D3000 Single 329,1
Zhaoxin KX-7000 329,8
Kirin 9000C 370,8
Loongson 3A6000 321,8
Core i3-12100 1119,7
Ryzen 5 1500X 625,4

Swet — еще один синтетический тест производительности центральных процессоров и оперативной памяти, включая многоядерные и многопроцессорные системы. Результат выводится в виде количества операций в секунду. В прошлом тесте мы не заметили явного влияния скорости ОЗУ на результаты, да и в этот раз двухканальная DDR5-память дала процессору Phytium менее 1% прироста, что можно списать на погрешность измерения.

Тут всё как всегда — если сравнивать только китайские процессоры, то рассматриваемый сегодня Phytium D3000 выглядит на их уровне ровненько. Все CPU из этой страны показали близкие результаты, выделился разве что Kirin 9000C, ставший на 12% быстрее Phytium D3000. Но всех их просто разбили западные решения. Даже Ryzen 5 1500X чуть ли не вдвое быстрее сегодняшнего героя на ARM-ядрах, а уж Core i3-12100 и вовсе в 3,4 раза быстрее. Ранее мы предполагали, что этот тест может быть не слишком хорошо оптимизирован под архитектуры, отличные от x86 — вот и очередное подтверждение.

HardInfo
Phytium D3000 Dual Phytium D3000 Single Zhaoxin KX-7000 Kirin 9000C Loongson 3A6000 Core i3-12100 Ryzen 5 1500X
Blowfish, sec 1,67 1,75 1,60 1,90 2,06 0,65 1,52
CryptoHash, GiB/s 1,00 0,84 0,42 1,07 1,08 1,82 1,17
Fibonacci, sec 0,76 0,76 0,86 0,68 0,63 0,36 0,64
N-Queens, sec 3,47 3,49 19,52 3,19 3,55 7,90 5,45
Zlib, Himarks 1,90 1,73 1,57 1,57 1,43 2,25 1,37
FFT, sec 0,97 1,01 0,96 1,08 0,83 0,41 0,85
Raytracing, sec 2,01 2,08 3,30 2,44 1,17 1,14 1,90

HardInfo — встроенная утилита для просмотра информации о системе и оборудовании, а также мониторинга, в которую также входит несколько небольших тестов производительности, охватывающих широкий спектр задач, от трассировки лучей до криптографии. Некоторые результаты даны по времени исполнения, а другие приводятся в неких очках. Так как подтестов в HardInfo довольно много, то она может быть не такой удобной.

Некоторые из подтестов получили преимущество от работы DDR5-памяти в двухканальном режиме, но не все, да и увеличились результаты далеко не вдвое. Порадоваться пока что особенно нечему, в этом тесте Phytium D3000 выступает примерно на уровне своих китайских собратьев, выделяясь разве что в сжатии информации Zlib, да и то незначительно. В целом все «китайцы» имеют свои сильные и слабые стороны, тот же Kirin 9000C лучше всех в N-Queens — известной задаче по расстановке фигур на шахматной доске, а Loongson 3A6000 на голову впереди остальных в задаче трассировки лучей.

Неплохой результат процессор Phytium показал в тестах криптографии Blowfish и CryptoHash, ну и в FFT (вычисление дискретного преобразования Фурье), но в целом все китайские процессоры близки, повторимся. Западные CPU компаний AMD и Intel в основном заметно быстрее, даже Ryzen 5 1500X уступил Phytium D3000 лишь в паре подтестов, а Core i3-12100 почти всегда был быстрее вдвое или около того — кроме единственного подтеста сжатия информации Zlib, в котором Core i3-12100 опередил D3000 всего лишь на 18%.

Java SciMark 2
Phytium D3000 Dual Phytium D3000 Single Zhaoxin KX-7000 Kirin 9000C Loongson 3A6000 Core i3-12100 Ryzen 5 1500X
Composite, Mflops 1536 1524 1338 1423 2024 2574 2073
Monte Carlo, Mflops 779 776 737 1175 989 1117 1320
FFT, Mflops 325 297 369 346 304 628 274
Sparse Matrix Multiply, Mflops 1152 1152 1230 1520 1414 3166 2077
Dense LU Matrix Factorization, Mflops 4150 4112 3131 2974 6498 5860 5372
Jacobi Successive Over-relaxation, Mflops 1283 1280 1262 1095 915 2100 1367

Это Java-версия тестового пакета научных вычислений SciMark 2.0, который включает различные тестовые алгоритмы, включая метод Монте-Карло, быстрое преобразование Фурье, метод последовательной сверхрелаксации Якоби, операции умножения над разреженными матрицами и LU-разложение матрицы. В этих тестах наблюдается некоторое влияние увеличенной ПСП для двухканального режима, но оно крайне незначительно — только в подтесте FFT мы увидели ощутимый прирост скорости в 9%.

Процессор Phytium D3000 выступил в этом бенчмарке неважно, даже если его сравнивать с Kirin 9000C, также основанном на ARM-архитектуре. Первый смог победить лишь в половине тестов, да и другие китайские процессоры были где-то примерно на том же уровне — как мы уже говорили, все они имеют свои достоинства и недостатки, проявляющиеся в разных подтестах. Phytium неплох в методе последовательной сверхрелаксации Якоби (на уровне Zhaoxin KX-7000 с гораздо большей частотой) и в первом комбинированном подтесте. В LU-разложении матрицы он сильно медленнее Loongson, в операциях умножения над разреженными матрицами, D3000 уступил всем китайским CPU, в быстром преобразовании Фурье где-то на уровне своих собратьев.

Да и вообще, западные CPU снова в основном выигрывают у китайцев, особенно Core i3-12100, но и Ryzen 5 1500X неплох, хотя и Loongson 3A6000 тут выступил хорошо. Ну а Phytium D3000 в целом прилично проиграл им всем трем, за исключением подтеста FFT, в котором процессор AMD оказался медленнее. Очень многое зависит от качества оптимизации ПО, но если учесть разницу в частотах, то китайские настольные процессоры близки по показателю IPC к устаревшему представителю семейства Zen 1, а вот процессор Core 12-го поколения всё еще быстрее них.

Бенчмарк Stress-NG

Это специализированная утилита для проведения комплексного нагрузочного тестирования аппаратного обеспечения большим количеством различных тестов. Так как тестов в этом пакете очень много, мы решили представить эти результаты в более удобном табличном виде, включив только те из них, которые отработали на всех системах. Также мы добавили и результаты западных процессоров, показанные на частоте 2,5 ГГц — точно такой же, что и у Phytium D3000, чтобы можно было оценить производительность на такт.

В этом тесте иногда видна большая разница между парой результатов процессора Phytium D3000, работающего в двух режимах работы памяти — одноканальном и двухканальном. Можно также сравнить прирост от второго канала памяти с аналогичными результатами Loongson 3A6000, хотя его двухканальная память сбрасывает частоту. Иногда результаты отличаются необъяснимо, и мы не будем проводить подробный анализ для этих тестов — вы можете сделать это самостоятельно, мы отметим лишь некоторые моменты.

Нас заинтересовало то, что Phytium D3000 неплох в сжатии данных Zlib (снова) и криптографическом подтесте, на удивление очень хорош в местном тесте кэша CPU — быстрее всех китайцев и на уровне Ryzen, но главное — он показал отличную производительность в задачах, активно использующих матричные вычисления, в которых требуется использование специализированных SIMD-инструкций для достижения высокой производительности, и у Phytium D3000 в этих подтестах всё очень хорошо, он иногда опережает Ryzen 5 1500X, а то и Core i3-12100, иногда даже в номинальном режиме!

Хотя в целом процессор Intel на номинальной частоте лучший и в этом наборе. Интересно также, что у того же Loongson больше всего провалов было в тестах, где ARM-процессоры хороши — похоже, что этот тест не очень хорошо оптимизирован под соответствующие наборы инструкций LoongArch, но использует их на x86 и ARM, поэтому и результаты получились такие. В любом случае, отличный результат Phytium D3000 в тестах с плавающей запятой настраивает на хорошие результаты и в дальнейших исследованиях.

Рендеринг

Тесты рендеринга являются одними из самых сложных для современных процессоров из-за многопоточного характера нагрузки при трассировке лучей — современные процессоры при этом стараются поддерживать максимально возможную частоту, потребляют максимум энергии и сильно нагреваются. Производители CPU нередко используют тесты рендеринга для сравнения производительности своих процессоров с решениями конкурента — подобные нагрузки при рендеринге лучше исполняются при большем количестве ядер и потоков.

Rendering
AOBench, sec C-Ray, sec POV-Ray, sec Smallpt, sec
Phytium D3000 Dual 41,6 104,4 92,1 19,2
Phytium D3000 Single 41,7 104,4 92,1 19,2
Zhaoxin KX-7000 73,6 120,3 120,8 31,5
Kirin 9000C 35,6 183,0 158,5 26,2
Loongson 3A6000 46,0 190,8 124,8 34,9
Core i3-12100 25,2 109,1 67,5 16,3
Ryzen 5 1500X 41,8 149,6 115,1 25,7

Мы поместить на одну диаграмму результаты сразу четырех бенчмарков для измерения скорости рендеринга:

  1. AOBench — легковесный рендерер с использованием ambient occlusion, использующий разрешение 2048×2048 пикселей.
  2. C-Ray — простой многопоточный трассировщик лучей для тестирования производительности вычислений с плавающей запятой.
  3. POV-Ray — трассировщик лучей Persistence of Vision.
  4. Smallpt — небольшой рендерер с расчетом глобального освещения методом трассировки пути Монте-Карло, использующий многопоточность при помощи библиотеки OpenMP.

Пропускная способность памяти при рендеринге почти не сказывается, что хорошо видно по результатам Phytium D3000 в одно- и двухканальном режиме работы памяти. Результаты этого китайского процессора в тестах рендеринга оказались лучше, чем у всех CPU из этой же страны — D3000 только в одном тесте AOBench уступил Kirin 9000C, выиграв во всех остальных. Преимущество над решением Loongson достигало 84%, над Zhaoxin — 64%, Huawei — 76%. Это очень неплохо, D3000 в первых же реальных приложениях стал быстрейшим китайским процессором.

Рассматриваемый сегодня ARM-процессор даже оказался быстрее Core i3-12100 в одном из тестов (C-Ray), уступив в других не так уж и много. С учетом разницы в их частотах, это доказывает весьма неплохой показатель количества инструкций за такт для Phytium, что подтверждается тем, что D3000 в трех тестах был быстрее Ryzen 5 1500X, работающего при номинальной частоте! Понятно, что Core i3-12100 остался лучшим, но это объяснимо его частотой до 3,3 ГГц. Так что результаты для Phytium D3000 не просто хорошие, а отличные — это первый китайский CPU, который по показателю IPC превзошел хотя и устаревшие, но достаточно производительные процессоры западных компаний.

Работа с медиаданными

Очередной тестовый раздел рассматривает сразу несколько тестов по обработке медиаданных — фотографий и видеороликов. В основном это вполне практические задачи, вроде кодирования аудио- и видеоданных в специализированные форматы, а также более узкоспециализированные тесты синтеза речи. Подобными задачами нередко занимается большое количество пользователей, так что практические результаты этого раздела довольно важны.

Audio Encoding
APE, sec FLAC, sec WavPack, sec
Phytium D3000 Dual 15,9 40,3 44,7
Phytium D3000 Single 16,0 40,4 44,7
Zhaoxin KX-7000 0 35,9 9,3
Kirin 9000C 13,1 23,7 56,5
Loongson 3A6000 55,2 69,9 62,6
Core i3-12100 10,6 16,4 11,3
Ryzen 5 1500X 16,6 29,6 10,9

Для начала мы протестировали сжатие аудиоданных в разные форматы: APE, FLAC и WavPack — все форматы специализируются в сжатии звука и подразумевают сжатие данных без потерь. Влияния пропускной способности оперативной памяти на результаты снова не отмечено — зависимость от скорости передачи данных полностью отсутствует.

Вот тут дела Phytium D3000 уже не так хороши, как в рендеринге. Да, он заметно быстрее Loongson 3A6000 — на 40%-70%, а в APE даже в 3,4 раза, но и Zhaoxin KX-7000 оказался быстрее него (в WavPack даже в 4,8 раза), и Kirin 9000C в двух из трех тестов победил, проиграв только в WavPack. Похоже, что под LoongArch в этом ПО просто нет оптимизаций, так как они весьма слабо распространены, а вот конкурирующие x86- и ARM-процессоры в целом побыстрее решения Phytium.

Если же сравнивать D3000 с Ryzen и Core, то он может конкурировать только с первым и только в APE. В остальном западные CPU заметно быстрее китайца. Впрочем, кодирование аудио — это не самая востребованная задача в современном мире, так как процесс сейчас происходит довольно быстро. Рассмотрим другие тесты, связанные с обработкой звука.

Speech Synth
SynthMark, voices eSpeak, sec
Phytium D3000 Dual 532,3 51,1
Phytium D3000 Single 532,4 51,2
Zhaoxin KX-7000 508,2 53,1
Kirin 9000C 653,5 40,1
Loongson 3A6000 554,0 47,9
Core i3-12100 938,4 27,2
Ryzen 5 1500X 571,2 39,5

На этой диаграмме видны результаты двух тестов, связанных с синтезом речи и обработкой звука. Google SynthMark — кроссплатформенный тест для измерения производительности CPU в различных нагрузках при обработке аудио в реальном времени. Тест использует модель полифонического синтезатора и измеряет задержку, джиттер и вычислительную пропускную способность. Во втором тесте eSpeak определяется время, необходимое для синтеза речи книги «The Outline of Science» при помощи улучшенного движка eSpeak-NG с выводом аудио в формате WAV.

Разницы между режимами работы памяти с разным количеством каналов нет. Смотрим на сравнительные результаты процессоров — первый тест показывает преимущество в 5% только над Zhaoxin KX-7000, а вот и Loongson 3A6000 и Kirin 9000C быстрее на 4% и 23%, соответственно. В тесте обработки аудиоданных в реальном времени Kirin 9000C оказался быстрее остальных китайских процессоров. Но Core i3-12100 еще быстрее, а вот Ryzen 5 1500X ушел от рассматриваемого Phytium D3000 недалеко, так что его результат всё равно неплохой.

В тесте синтеза речи всё почти так же, процессор Phytium побыстрее Zhaoxin, но уступает и Kirin и Loongson. Ryzen 5 1500X на 29%, а Core i3-12100 опередил сегодняшнего китайца на 88%. Так что в этих тестах с IPC у Phytium дела не слишком хороши, а уж до полноскоростного Core i3 ему вообще далеко. Но впереди у нас тесты видеокодирования, они должны быть интереснее, так как обычно широко используют SIMD-инструкции, и при должной оптимизации должны лучше работать на Phytium.

dAV1d
Summer Nature 1080p, FPS Summer Nature 4K, FPS
Phytium D3000 Dual 433,5 102,4
Phytium D3000 Single 415,7 95,9
Zhaoxin KX-7000 365,8 80,0
Kirin 9000C 264,9 65,5
Loongson 3A6000 171,5 41,6
Core i3-12100 561,4 139,9
Ryzen 5 1500X 311,2 76,5

Dav1d — это высокоскоростной программный декодер видеоданных в формате AV1. С его помощью мы протестировали время декодирования пары видеороликов в этом формате, которые отличаются лишь разрешением изображения: Full HD и 4K. На результатах заметно сказывается пропускная способность памяти, двухканальный режим DDR5 дает процессору Phytium D3000 4%-7% преимущества перед одноканальным.

При декодировании видео формата AV1 мы видим явное превосходство решения Phytium над другими китайскими процессорами. Даже мощный Zhaoxin KX-7000 отстал на 19% и 28%, Kirin 9000C уступил 64% и 56%, а Loongson 3A6000 и вовсе в 2,5 раза медленнее. Последний CPU подводит отсутствие должной оптимизации и использования имеющихся специальных наборов инструкций, поэтому в пакете dAV1d он отстает. А вот и Phytium и Kirin и Zhaoxin такие инструкции используют и справляются с задачей лучше.

Скорость декодирования видеоданных в разрешении 1080p и 4K процессором Phytium D3000 оказалась даже быстрее чем у западного процессора Ryzen 5 1500X — на 34%-39%, хотя Core i3-12100 на номинальной частоте всё еще на 29%-37% быстрее рассматриваемого сегодня китайского процессора. Но это всё равно очень хороший результат для Phytium. Тем более, что при типичном использовании редко требуется одновременное декодирование нескольких 4K-роликов в формате AV1, и домашнему пользователю хватит и того, что может дать этот китайский процессор.

x265
Bosphorus 1080p, FPS Bosphorus 4K, FPS
Phytium D3000 Dual 24,6 5,7
Phytium D3000 Single 23,8 5,6
Zhaoxin KX-7000 20,8 4,2
Kirin 9000C 5,5 1,4
Loongson 3A6000 5,3 1,1
Core i3-12100 48,9 10,9
Ryzen 5 1500X 24,2 5,4

Следующий тест — программное кодирование видеоданных на CPU в формат H.265 при помощи распространенного кодировщика x265. Используются также два разрешения: Full HD и 4K. При кодировании видеоданных для поддержания высокой производительности должны использоваться инструкции SIMD, вроде SSE, AVX, AVX2 и AVX-512 в случае x86-совместимых процессоров. И тут уже нет сверхвысоких показателей FPS, а каждый кадр в секунду — на вес золота. Хотя на современных системах кодированием и декодированием видеоданных чаще занимается графический процессор, в случае отсутствия такой поддержки этим приходится заниматься центральному процессору.

Влияние скорости памяти есть, всего на 3% и только в меньшем разрешении. В этом тесте также отсутствуют оптимизации под архитектуру LoongArch, включая специализированные мультимедийные инструкции, поэтому Loongson выглядит вяло, уступая всем в несколько раз. Но и Kirin 9000C по какой-то причине показал скорость лишь чуть лучше. А вот Phytium D3000 снова стал лучшим среди китайских процессоров, опередив и Zhaoxin KX-7000 с заметно большим энергопотреблением — на 18%-36%, что довольно прилично.

И даже если же сравнивать сегодняшнего китайца с западными CPU, работающими на номинальных частотах, то разница между ними уже не такая существенная, а Ryzen 5 1500X вообще показал результаты на 2%-6% ниже, в зависимости от разрешения ролика. Только процессор Intel заметно быстрее всех, он почти вдвое опередил Phytium D3000 — мы знаем, как хороши процессоры Core в подобных задачах с применением SIMD-инструкций. Но отставание лишь в два раза при разнице в частоте на треть — уже несомненный успех для Phytium.

VVenC
Bosphorus 1080p Faster, FPS Bosphorus 1080p Fast, FPS
Phytium D3000 Dual 12,18 4,94
Phytium D3000 Single 12,09 4,92
Zhaoxin KX-7000 13,06 5,48
Kirin 9000C 3,49 1,43
Loongson 3A6000 1,40 0,64
Core i3-12100 22,08 8,67
Ryzen 5 1500X 11,61 4,83

Рассмотрим еще более требовательный тест видеокодирования. VVenC — это быстрый и эффективный кодировщик видеоданных в формате H.266/VVC (Fraunhofer Versatile Video Encoder), использующий SIMD Everywhere (SIMDe) — библиотеку, обеспечивающую переносимую реализацию SIMD для различных платформ. К сожалению, в списке поддерживаемых платформ не значится Loongson, но есть ARM, так что если на x86-совместимых процессорах будут использоваться все виды наборов инструкций SSE и AVX, то на ARM должны работать SIMD-ускоренные операции Neon, а вот у Loongson точно будут проблемы с производительностью.

Задача стала еще сложнее и без SIMD-инструкций ловить тут нечего. Налицо разница между кодом, хорошо оптимизированным под x86-процессоры и некоторые решения на ARM-ядрах, но очень медленно работающим на Loongson. Любопытна разница между Phytium D3000 и Kirin 9000C — похоже, что у последнего с SIMD дела не очень хороши, ведь он отстал от рассматриваемого сегодня китайского CPU сразу в 3,5 раза. Loongson вообще в 7-8 раз медленнее. Без хорошей оптимизаций под китайские CPU в различном ПО могут наблюдаться такие провалы не только у Loongson, но и у ARM-процессоров. Но D3000 — не лучший китаец в сравнении в этот раз, его обогнал Zhaoxin KX-7000 — на 7%-11%.

Впрочем, если учесть на треть большую частоту и повышенное энергопотребление процессора Zhaoxin, то Phytium D3000 можно с уверенностью назвать самым эффективным китайским CPU для обработки видеоданных. Даже Ryzen 5 1500X показал скорость чуть ниже, чем у решения Phytium — разница между ними составила 2%-5%. Но если сравнивать китайский процессор с Core i3-12100 на номинальной частоте, то последний всё же заметно быстрее — на 75%-80%.

Обработка изображений

Этот раздел тестов во многом пересекается с предыдущим, но мы решили его выделить, так как он посвящен исключительно работе со статичными 2D-изображениями — их обработке, сжатии и распаковке в различных задачах.

G’MIC
2D Function, sec 3D Volume, sec 3D Elevated Function, sec
Phytium D3000 Dual 97,1 29,6 66,7
Phytium D3000 Single 98,6 29,7 66,9
Zhaoxin KX-7000 179,7 40,6 95,8
Kirin 9000C 519,4 27,9 72,7
Loongson 3A6000 168,5 34,9 64,8
Core i3-12100 70,1 15,4 44,1
Ryzen 5 1500X 123,4 28,2 103,6

G’MIC — это платформа для обработки цифровых изображений с открытым исходным кодом, предоставляющая возможности преобразования и обработки изображений в различных форматах. G’MIC предоставляет сотни алгоритмов и функций для обработки изображений, поддерживает многопоточность и может использовать OpenMP для ускорения вычислений при помощи распараллеливания нагрузки на несколько ядер. Результаты даны в секундах, требуемых для завершения каждого из трех тестов.

Зависимость от пропускной способности памяти в тесте если и есть, то только в 2D-подтесте, да и то небольшая. Результаты Phytium D3000 в этих тестах неплохие, по их совокупности процессор снова стал лучшим из китайских решений для настольных ПК. Kirin 9000C явно медленнее в тесте двумерной функции по какой-то причине, в 3D Volume даже на 6% быстрее, но в последнем подтесте на 9% медленнее. Loongson 3A6000 на 3% быстрее в последнем подтесте, но уступает на 74% и 18% в первых двух, соответственно. Ну а Zhaoxin KX-7000 везде медленнее, от 37% до 85%.

Что касается западных CPU, то Ryzen 5 1500X также медленнее в двух из трех подтестов, и выигрывает 5% лишь во втором, проиграв 27% в первом и 55% в третьем. А вот Core i3-12100 традиционно впереди планеты всей — на 39%, 92% и 51%, соответственно. Но в этом во многом виновата разница в частотах, и если сравнивать CPU на равной частоте, то рассматриваемый китайский процессор вовсе не так плох в плане количества исполняемых инструкций за такт даже по сравнению с устаревшим процессором Intel.

RSVG
SVG to PNG, sec
Phytium D3000 Dual 22,8
Phytium D3000 Single 22,8
Zhaoxin KX-7000 31,4
Kirin 9000C 36,4
Loongson 3A6000 24,2
Core i3-12100 12,2
Ryzen 5 1500X 20,6

Следующий тест RSVG/librsvg — это библиотека по работе с векторной графикой в формате SVG. Бенчмарк замеряет время конвертации векторной графики в формат PNG, то есть растеризации — это довольно часто используемая задача в повседневной жизни, ежедневно встречающаяся при просмотре современных сайтов, например. Понятно, что в тесте используется одна большая картинка, а в реальной жизни их скорее много мелких, но суть та же. Зависимость производительности от количества каналов DDR5-памяти в этом случае отсутствует.

При растеризации векторной графики процессор Phytium D3000 снова проявил себя лучше остальных китайских процессоров, показав результат лучше Loongson 3A6000 на 6%, опередив Kirin 9000C сразу на 60% и даже Zhaoxin KX-7000 с более высокой тактовой частотой он обошел сразу на 38%. А вот Ryzen 5 1500X и Core i3-12100 всё же опережают Phytium, причем если процессор Ryzen 5 быстрее всего лишь на 11%, то Core i3 уже на 87%. Но и это не так уж плохо с учетом того, что другие китайские CPU еще медленнее.

RawTherapee
Sec
Phytium D3000 Dual 107,3
Phytium D3000 Single 111,6
Zhaoxin KX-7000 109,2
Kirin 9000C 142,4
Loongson 3A6000 159,9
Core i3-12100 61,9
Ryzen 5 1500X 97,2

Рассмотрим еще один универсальный тест работы с изображениями. RawTherapee — это кроссплатформенная программа для каталогизации и обработки изображений с цифровых фотоаппаратов в формате RAW, аналог Adobe Photoshop Lightroom и Aperture с открытым кодом. В бенчмарке замеряется время обработки и конвертации RAW-файлов — то, чем довольно часто занимаются профессиональные фотографы. Влияние скорости памяти в этом тесте есть, двухканальный режим работы дал системе на Phytium D3000 преимущество в 4% — это немного, но хоть что-то.

Очередной тест, в котором рассматриваемый сегодня китайский процессор опережает всех своих собратьев. Phytium D3000 смотрится чуть предпочтительнее процессора Zhaoxin KX-7000, опередив его на незначительные 2% при разнице в частоте на треть. Kirin 9000C же отстал от сегодняшнего героя на 33%, а Loongson 3A6000 вообще почти в полтора раза. Так что процессор у Phytium получился весьма неплохим, судя по множеству задач, в которых он выиграл у всех китайских конкурентов. И всё это можно ощутить на практике, когда каждый кадр вместо полутора минут будет обрабатываться одну, при большом количестве фотографий это будет хорошо заметно.

При всей победе над китайскими собратьями, Phytium D3000 уступил обоим западным CPU, не только Core i3-12100, но и Ryzen 5 1500X. Скорость конвертации RAW-файла в RawTherapee оказалась медленнее, чем у Ryzen 5 на 10%, что можно назвать неплохим результатом для китайского CPU, но вот Core i3-12100 при номинальных параметрах на 74% быстрее рассматриваемого сегодня процессора, а это больше, чем его преимущество над самым медленным Loongson, который привычно подвело отсутствие должной оптимизации под редкую архитектуру.

tjbench
JPEG decompression, Mpix/s
Phytium D3000 Dual 112,7
Phytium D3000 Single 112,7
Zhaoxin KX-7000 134,2
Kirin 9000C 138,5
Loongson 3A6000 72,8
Core i3-12100 242,0
Ryzen 5 1500X 147,2

Переходим к сжатию и распаковке изображений. tjbench — это бенчмарк для измерения производительности распаковки JPEG-файлов при помощи библиотеки libjpeg-turbo, оптимизированной с использованием SIMD-инструкций современных CPU-архитектур. Непонятно, насколько хорошо библиотека оптимизирована под ARM и LoongArch архитектуры, хотя добавление поддержки SIMD-инструкций вроде бы было выполнено, судя по описанию программы. Влияния скорости работы памяти в этом тесте нет совсем.

И вот тут результаты Phytium D3000 уже не так хороши, он проиграл сразу двум китайским коллегам. Kirin 9000C на 23% быстрее рассматриваемого CPU, а Zhaoxin KX-7000 — на 19%. Не смертельное отставание, но неприятное. Победить удалось лишь Loongson 3A6000, который снова страдает от плохой программной оптимизации в очередном случае — он более чем в полтора раза медленнее распаковывает JPEG-файлы.

Понятно, что процессоры AMD и Intel и тут впереди всех. Процессор Core i3-121000 делает работу по конвертации JPEG-файлов более чем вдвое быстрее, чем рассматриваемый сегодня китайский процессор, а результат Ryzen 5 1500X получился на 31% выше. Так что не слишком широко распространенные решения всегда в чем-то проигрывают больше, чем должны бы.

OpenJPEG
JPEG2000 encode, sec
Phytium D3000 Dual 61,8
Phytium D3000 Single 62,3
Zhaoxin KX-7000 67,8
Kirin 9000C 94,8
Loongson 3A6000 78,7
Core i3-12100 58,6
Ryzen 5 1500X 72,9

Переходим к тестам кодирования изображений, которые заметно более требовательны. OpenJPEG — кодек для изображений формата JPEG 2000, и в одноименном тесте используется большое панорамное изображение в виде TIFF-файла объемом 717 МБ, которое конвертируется в формат JPEG2000. Время конвертации приведено на диаграмме в миллисекундах. Разница между одноканальным и двухканальным режимами работы DDR5-памяти тут есть, но совсем небольшая, ей можно пренебречь.

И тут Phytium D3000 снова вернул звание быстрейшего китайского CPU для настольных ПК. Он в очередной раз опередил всех, Kirin 9000C уступил ему более чем в полтора раза, Loongson 3A6000 отстал на 27%, а Zhaoxin KX-7000 — на 10%. Похоже, что ПО оптимизировано как под набор инструкций x86, так и под ARM и LoongArch.

Но самое интересное в том, что Ryzen 5 1500X на номинальной частоте оказался даже медленнее Phytium на 18%, а Core i3-12100 хоть и снова быстрее всех на своей обычной частоте, но он опередил рассматриваемый китайский процессор Phytium лишь на 5% — и по IPC, с учетом разницы по частоте на треть в пользу Intel, у китайского CPU в этом тесте всё очень даже хорошо. Вот что получается при должной оптимизации. Рассмотрим результаты при других форматах сжатия.

Google libwebp
Default, Mpix/s Quality 100, Mpix/s Quality 100 Lossless Highest, Mpix/s
Phytium D3000 Dual 6,9 5,0 0,33
Phytium D3000 Single 6,9 5,0 0,32
Zhaoxin KX-7000 11,4 7,1 0,30
Kirin 9000C 8,3 5,8 0,26
Loongson 3A6000 4,6 3,0 0,35
Core i3-12100 18,8 12,2 0,65
Ryzen 5 1500X 13,3 8,4 0,45

Еще один тест сжатия изображений. Бенчмарк использует библиотеку Google libwebp для перекодирования изображения в формат WebP при помощи утилиты кодирования cwebp. На вход подается JPEG-файл с разрешением 6000×4000 пикселей и замеряется производительность его перекодирования в WebP — в мегапикселях за секунду. Разница между одно- и двухканальным режимами памяти полностью отсутствует, всё упирается в возможности самого CPU.

В этом тесте ситуация неоднозначная. С одной стороны, Phytium D3000 уступил Zhaoxin KX-7000 до 65%, а Kirin 9000C — до 20%, выиграв только у Loongson 3A6000, кроме самого сложного теста. С другой, именно в самом сложном тесте быстрее других китайских CPU были именно Loongson и Phytium. Вероятно, в легких режимах больше влияют именно вычислительные способности ядер, а в более сложном подключаются кэши, и их эффективность становится важнее.

В остальном, сравнение с западными процессорами AMD и Intel в этом тесте довольно печально для китайца — в первых двух подтестах Phytium D3000 проиграл Ryzen 5 1500X чуть ли не вдвое, а Core i3-12100 быстрее сразу в 2,4-2,7 раза. Но в третьем сложном тесте разница становится меньше — 36% и 97%, соответственно. Что всё равно является проигрышем, но хотя бы не разгромным — особенно с учетом разных частот.

Google libwebp2
Default, Mpix/s Quality 100 Effort 5, Mpix/s
Phytium D3000 Dual 2,61 1,38
Phytium D3000 Single 2,59 1,37
Zhaoxin KX-7000 3,13 1,39
Kirin 9000C 2,05 0,93
Loongson 3A6000 1,57 0,82
Core i3-12100 4,22 2,03
Ryzen 5 1500X 2,87 1,35

Еще один тест, схожий с предыдущим — он использует библиотеку Google libwebp2 для кодирования изображения в формат WebP2, аналогично WebP из предыдущего теста, да и входной файл используется тот же. WebP2 — это экспериментальный формат, который находится в стадии разработки, он поддерживает 10-битный HDR-формат, более эффективное сжатие с потерями и улучшенное сжатие без потерь, а также полноценную поддержку многопоточности. Второй канал памяти не дал почти ничего и в этом тесте.

Любопытно, но в этом тесте Phytium D3000 проиграл уже только Zhaoxin KX-7000, да и то только в более простом режиме — разница между ними 20%. Kirin 9000C в этом тесте проиграл 27% и 48% для простого и сложного режимов, соответственно, а Loongson 3A6000 и вовсе — 66% и 68%. И даже если сравнивать D3000 с западными CPU, то Ryzen 5 1500X быстрее в простом режиме на 10% и на 2% медленнее в сложном. Core i3-12100, понятно, на 62% и 47% быстрее, но у него и на треть более высокая тактовая частота. Так что по IPC и тут Phytium весьма хорош, явно быстрее Zen 1 и близок скорее к простенькому Core 12-го поколения.

Etcpak
DXT1 (1T), Mpix/s DXT1 (MT), Mpix/s ETC2 (1T), Mpix/s ETC2 (MT), Mpix/s
Phytium D3000 Dual 58,1 431,9 57,4 429,6
Phytium D3000 Single 58,1 431,6 57,5 429,4
Zhaoxin KX-7000 0,0 0,0 0,0 0,0
Kirin 9000C 76,0 334,1 74,6 332,7
Loongson 3A6000 12,1 59,3 12,1 59,2
Core i3-12100 266,7 1259,0 264,2 1254,0
Ryzen 5 1500X 155,3 735,9 153,4 735,7

Ну и последний тест этого раздела — Etcpak — «самый быстрый компрессор ETC на планете», как заявляют его авторы, он максимально быстро сжимает текстуры в форматы ETC и S3. В качестве входного изображения используется текстура с разрешением 8K×8K, она сжимается при помощи одного вычислительного потока и в многопоточном формате. Разницы между одноканальным и двухканальным режимами памяти и в этом случае нет.

К сожалению, Zhaoxin KX-7000 в этом тесте категорически отказался работать, так что придется обойтись без него. Loongson 3A6000 тоже не особо, так как сжатие текстур пакетом на этом CPU крайне медленное, налицо полное отсутствие оптимизации под вычислительную архитектуру LoongArch. Остается сравнивать Phytium D3000 с другим ARM-процессором в виде Kirin 9000C. И тут получается интересно — преимущество в однопоточном режиме явно за решением Huawei, оно быстрее на 30%. Но в многопоточном режиме Phytium берет верх, опережая Kirin с неоднородными ядрами на... те же 30%! В этой задаче восемь полноценных ядер сказываются в пользу D3000.

А вот сравнивать героя сегодняшней статьи с Ryzen 5 1500X и Core i3-12100 смысла особого нет — при номинальных частотах западные CPU в многопоточном режиме в 1,7 и 2,9 раза быстрее, соответственно. Однопоточный же режим китайского процессора в 2,7 и 4,6 раза медленнее западных решений, что весьма печально.

Криптографические тесты

Еще один важный раздел тестирования производительности процессоров — криптографические задачи. Современные CPU умеют осуществлять шифрование больших объемов информации на лету, и некоторые из них имеют поддержку специальных инструкций для наиболее распространенных алгоритмов шифрования, таких как AES.

Aircrack-ng
k/s
Phytium D3000 Dual 7180
Phytium D3000 Single 7174
Zhaoxin KX-7000 13184
Kirin 9000C 5932
Loongson 3A6000 1818
Core i3-12100 16163
Ryzen 5 1500X 6622

Aircrack-ng — набор утилит, предназначенных для обнаружения Wi-Fi-сетей, перехвата передаваемого через них трафика, а для нас интереснее всего, что и для проверки стойкости ключей шифрования WEP и WPA/WPA2 (иными словами — перебора и взлома соответствующих ключей). В таких тестах важны количество вычислительных ядер и высокопроизводительная архитектура с максимальной тактовой частотой, а не кэш и быстрая память — вот и зависимости скорости от пропускной способности в случае Phytium D3000 не видно, результаты в двухканальном и одноканальном режимах памяти практически равны.

С оптимизацией этого набора утилит под архитектуру ARM, в отличие от LoongArch, дела обстоят довольно неплохо, как мы поняли еще по результатам Kirin 9000C. Phytium D3000 же еще на 21% быстрее этого китайского конкурента, а вот Zhaoxin KX-7000, видимо из-за аппаратного ускорения шифрования, оказался заметно быстрее — на 84%, что даже разницей в частотах не объяснить. Ну, про Loongson 3A6000 говорить нечего, из-за плохой (или отсутствующей) оптимизации он почти вчетверо медленнее процессора Phytium.

Нам же даже еще больше интересно сравнение с западными процессорами прошлого — и Ryzen 5 1500X при своей номинальной частоте уступил рассматриваемому китайскому изделию, пусть и всего 8%. С процессором Core i3-12100 же давно всё понятно, он и тут заметно быстрее всех — опередил Phytium D3000 сразу в 2,25 раза. То есть, до процессора Intel рассматриваемому китайцу по IPC далеко, а вот с Ryzen он уже вполне справился.

Bork
sec
Phytium D3000 Dual 10,7
Phytium D3000 Single 10,7
Zhaoxin KX-7000 12,4
Kirin 9000C 14,4
Loongson 3A6000 9,9
Core i3-12100 6,3
Ryzen 5 1500X 10,9

Bork — маленькая кроссплатформенная утилита для шифрования файлов, написанная на Java. Тест измеряет количество времени, затрачиваемое на шифрование файла-примера. Не очень понятен метод шифрования, но аппаратное ускорение шифрования на поддерживающих эту возможность CPU не поддерживается, судя по всему. Влияния пропускной способности DDR5-памяти нет и тут, результаты Single и Dual идентичны.

В случае конкретно этой утилиты, Phytium D3000 смотрится уже чуть хуже Loongson 3A6000, отстав от него на 8%, Kirin 9000C медленнее рассматриваемого сегодня процессора на 35%, а Zhaoxin KX-7000 — на 16%. Мы предполагали ранее, что этот бенчмарк одинаково (плохо или хорошо) оптимизирован под все вычислительные архитектуры, поэтому и результаты такие странные. Сегодняшний китайский процессор оказался примерно на уровне процессора Ryzen 5 1500X, но уступил процессору Intel Core i3-12100 около 70%, что многовато, конечно, но почти половину можно смело списать на разницу в частотах, так что всё не так плохо у D3000 с IPC и в этом тесте.

Crypto++
All algo, MiB/s
Phytium D3000 Dual 787,3
Phytium D3000 Single 787,2
Zhaoxin KX-7000 1046,5
Kirin 9000C 1161,9
Loongson 3A6000 537,1
Core i3-12100 2025,5
Ryzen 5 1500X 1296,1

Crypto++ — библиотека с открытым исходным кодом для C++, предназначенная для работы с различными криптоалгоритмами. Поддерживается большое количество алгоритмов, в случае x86-процессоров и расширение AES-NI, да и под возможности ARM наверняка сделали оптимизации, в отличие от Loongson. Мы использовали один общий результат для всех поддерживаемых тестовым ПО алгоритмов. Зависимости от пропускной способности памяти в очередной раз не отмечено.

Если сравнивать Phytium D3000 с китайскими собратьями, то по скорости в этом тесте он находится где-то между Zhaoxin KX-7000 и Loongson 3A6000, а лучшим китайцем является Kirin 9000C. Рассматриваемый сегодня китайский процессор уступил тому 48%, а Zhaoxin быстрее ровно на треть. Зато Loongson позади сразу на 47% — у него с оптимизацией ПО дела обстоят хуже всего. По сравнению с западными условными конкурентами радоваться нечему — Phytium D3000 в этом тесте на 65% медленнее Ryzen 5 1500X, а быстрее сегодняшнего героя сразу в 2,6 раза. Так что этот тест записываем процессору Phytium скорее в минус.

OpenSSL benchmark
RSA4096, sign/s SHA512, MB/s
Phytium D3000 Dual 329,6 3725,2
Phytium D3000 Single 329,3 3722,9
Zhaoxin KX-7000 796,2 1762,5
Kirin 9000C 753,6 2413,2
Loongson 3A6000 364,3 1006,4
Core i3-12100 1408,2 2063,1
Ryzen 5 1500X 750,8 1397,5

Остался последний тест раздела — OpenSSL. Это криптографическая библиотека с открытым исходным кодом, хорошо известная из-за расширения SSL/TLS, используемого в веб-протоколе HTTPS. Она поддерживает большинство алгоритмов хеширования, шифрования и популярных криптографических стандартов, мы использовали два варианта: RSA4096 и SHA512, скорость в которых измеряется по-разному — в первом случае в количестве подписей в секунду, во втором — МБ/с. Разница между двухканальным и двухканальным режимами работы DDR5-памяти минимальна, ей можно пренебречь.

Самое время удивиться полярности результатов — если производительность рассматриваемого китайского CPU в тесте SHA512 настолько хороша, что он смог побить даже западные процессоры, и является явным лидером сравнения, то по скорости алгоритма RSA4096 процессор Phytium D3000 стал... худшим! Рассматриваемая модель в первом подтесте на 54% быстрее следующего по скорости Kirin 9000C (видимо, с оптимизацией под ARM-процессоры у теста всё хорошо), Zhaoxin KX-7000 отстал более чем вдвое, а Loongson 3A6000 и вовсе в 3,7 раза медленнее. Но всё меняется во втором подтесте — D3000 медленнее даже Loongson — на 10%, Zhaoxin быстрее в 2,4 раза, а Kirin — в 2,3 раза.

Сравнение с западными процессорами примерно такое же удивительное — Core i3-12100 быстрее в подтесте RSA4096 аж в 4,3 раза, но в SHA512 уже медленнее, и сразу на 80%. Ryzen 5 1500X в 2,3 раза быстрее в первом подтесте, но в 2,7 раза медленнее во втором — вот такой неоднозначный результат получился в этом тесте у рассматриваемого процессора Phytium D3000, да и результаты в OpenSSL-бенчмарке в целом можно назвать такими же.

Сжатие и распаковка

Сжатие и распаковка данных в архивах известна большинству пользователей, как и наиболее яркие представители современных архиваторов. Мы воспользовались тестами некоторых из них, в том числе наиболее распространенными на системах Unix/Linux.

Gzip
Compression, sec
Phytium D3000 Dual 52,0
Phytium D3000 Single 52,1
Zhaoxin KX-7000 49,5
Kirin 9000C 59,8
Loongson 3A6000 55,1
Core i3-12100 29,8
Ryzen 5 1500X 44,7

Gzip — популярный в Unix-системах формат сжатия без потерь методом Deflate (комбинация алгоритмов LZ77 и Хаффмана). Тест измеряет время сжатия двух копий исходных кодов ядра Linux 4.13. Судя по результатам в прошлых материалах и сравнению показателей двухканального и одноканального режимов DDR5-памяти для Phytium D3000, влияния пропускной способности памяти в этом тесте нет совсем.

Очередной китайский процессор справился с работой примерно на уровне своих соотечественников, чуть лучше большинства. Быстрейший среди них Zhaoxin KX-7000 опередил сегодняшнего героя на 5%, и с учетом его больших частоты и энергопотребления можно считать D3000 более эффективным. Loongson 3A6000 уступил процессору Phytium около 6%, ну а Kirin 9000C — все 15%.

Если сравнивать D3000 с процессорами AMD и Intel, то он уступил и Ryzen 5 1500X и Core i3-12100 — 16% и 74%, соответственно. С учетом частот всех этих CPU, можно сказать, что и показатель IPC у него где-то между Zen 1 и Core 12-го поколения, но не забываем и то, что это — изрядно устаревшие западные процессоры, а современные CPU стали куда быстрее.

7-Zip
Compression, MIPS Decompression, MIPS
Phytium D3000 Dual 34930 29526
Phytium D3000 Single 33751 29368
Zhaoxin KX-7000 25696 25230
Kirin 9000C 26655 28403
Loongson 3A6000 23849 20697
Core i3-12100 44880 27073
Ryzen 5 1500X 27300 23159

Архиватор 7-zip весьма популярен на разных системах и интересен довольно эффективным и требовательным к вычислительной мощности методом сжатия. Еще он любопытен тем, что тест кроссплатформенный и его результаты вполне можно сравнивать и при использовании разных операционных систем. При сжатии есть явная зависимость от пропускной способности памяти, а при распаковке она если и есть, то куда ниже — разница между одно- и двухканальной памятью для Phytium D3000 в первом случае получилась 3%, во втором практически отсутствует.

В 7-zip результаты рассматриваемого сегодня процессора Phytium также весьма неплохие. Если оценивать скорость сжатия данных, то китайский CPU справляется с этой работой на 31% быстрее Kirin 9000C, на 36% быстрее Zhaoxin KX-7000 и на 46% быстрее Loongson 3A6000. И даже западный Ryzen 5 1500X проиграл сегодняшнему герою весомые 28%! Конечно, полноскоростной Core i3-12100 еще быстрее — он на такие же 28% опережает процессор Phytium. И с учетом разности частот, их показатели IPC в этом тесте весьма близки.

Распаковка в исполнении D3000 также весьма хороша — этот процессор быстрее не только всех китайцев, но и вообще всех CPU сравнения! Kirin 9000C уступил сегодняшнему герою 4%, Loongson 3A6000 — сразу 43%, ну а Zhaoxin KX-7000 — 17%. Интереснее сравнение с процессорами AMD и Intel, пусть и устаревшими. Ryzen 5 проиграл D3000 уже 27%, а Core i3 — 9%. То есть, по показателю количества исполняемых за такт инструкций Phytium D3000 уже не просто неплох, но и опережает западные CPU, взятые для сравнения. Даже несмотря на его невысокую рабочую частоту — отличный результат!

LZ4 (L9)
Compression, MB/s Decompression, GB/s
Phytium D3000 Dual 27,0 2,34
Phytium D3000 Single 26,9 2,32
Zhaoxin KX-7000 24,2 1,91
Kirin 9000C 25,7 2,55
Loongson 3A6000 25,1 2,11
Core i3-12100 40,4 4,38
Ryzen 5 1500X 27,2 3,21

Очередной тест сжатия измеряет время сжатия и распаковки образцового файла silesia.tar при помощи алгоритма сжатия LZ4, который относится к семейству методов сжатия LZ77 — это сжатие данных без потерь, ориентированное на высокую скорость сжатия и распаковки. Он сжимает с меньшей степенью сжатия, чем классический gzip, зато по скорости гораздо быстрее. Мы использовали в своих тестах уровень сжатия Level 9, сравнивая скорость сжатия и распаковки. Зависимости от ПСП тут также нет.

По скорости сжатия и распаковки этого формата Phytium D3000 оказался где-то рядом со своими китайскими коллегами, где-то он чуть быстрее, но где-то и медленнее. Kirin 9000C быстрее него на 9% при распаковке, но на 5% медленнее в сжатии. Loongson 3A6000 медленнее на 11% и 8%, ну а Zhaoxin KX-7000 тут в отстающих — 23% и 12%, соответственно.

Несмотря на хорошие позиции среди китайцев, процессор Phytium D3000 оказался всё же медленнее обоих западных условных конкурентов. Ryzen 5 1500X на том же уровне при сжатии, но быстрее при распаковке сразу на 37%, ну а Core i3-12100 быстрее везде — в полтора раза при сжатии и почти в два — при распаковке. И хотя так получается в том числе из-за меньшей рабочей частоты Phytium D3000, но и по IPC в этом тесте китаец явно проигрывает западным конкурентам.

Zstandard (L19 Long)
Compression, MB/s Decompression, GB/s
Phytium D3000 Dual 4,71 0,72
Phytium D3000 Single 4,68 0,71
Zhaoxin KX-7000 3,98 0,56
Kirin 9000C 4,19 0,62
Loongson 3A6000 4,87 0,69
Core i3-12100 7,26 1,42
Ryzen 5 1500X 5,96 0,89

Этот тест сжатия измеряет время для сжатия и распаковки всё того же файла-примера silesia.tar при помощи метода Zstd (Zstandard) — это алгоритм сжатия данных без потерь, разрабатываемый при поддержке Facebook, он сочетает словарный алгоритм сжатия данных типа LZ77 и эффективное энтропийное кодирование типа ANS, сходное с кодом Хаффмана. Для тестов мы использовали уровень сжатия Level 19 Long. Влияние пропускной способности памяти и тут практически незаметно.

Рассматриваемый сегодня процессор Phytium D3000 показал производительность сжатия этого формата почти на уровне Loongson 3A6000, который оказался лучшим среди китайских CPU — он быстрее на 3%. Kirin 9000C на 12% медленнее, а Zhaoxin KX-7000 — на 18%. Core i3-12100 и Ryzen 5 1500X заметно быстрее всех, сегодняшнее китайское решение уступило им при сжатии 54% и 27%, соответственно. С распаковкой дела не лучше, процессор Phytium вдвое медленнее решения Intel, а Ryzen 5 справляется с этим на четверть быстрее. Можно сделать скидку на сниженную рабочую частоту у D3000, но западные конкуренты всё равно побыстрее, уж как минимум процессор Intel точно.

BZIP2
Compression, sec Decompression, sec
Phytium D3000 Dual 22,8 12,5
Phytium D3000 Single 22,9 12,5
Zhaoxin KX-7000 27,3 15,4
Kirin 9000C 27,5 16,5
Loongson 3A6000 30,8 13,3
Core i3-12100 14,0 8,1
Ryzen 5 1500X 20,3 12,7

Еще один известный формат сжатия — многопоточная реализация bzip2, реализация алгоритма Барроуза — Уилера. Сжимает большинство файлов эффективнее, но медленнее по сравнению с традиционными gzip и zip, а для нас важнее всего, что он работает с существенной нагрузкой на CPU и распараллелен в случае современной версии. Бенчмарк измеряет время сжатия и распаковки файла FreeBSD-13.0-RELEASE-amd64-memstick.img методом Parallel BZIP2. Раньше мы отмечали влияние ПСП на скорость сжатия в случае некоторых CPU, но для Phytium D3000 ее нет, как и для скорости распаковки.

В этом тесте процессор Phytium снова блещет — хотя бы среди китайских процессоров он стал лучшим. Kirin 9000C и Zhaoxin KX-7000 уступают ему при сжатии данных около 20%, а Loongson 3A6000 медленнее на 35%. Распаковка также быстра, но тут уже и Loongson неплох — отстал лишь на 6%, процессор Huawei Kirin проиграл уже 32%, а Zhaoxin — 23%. С учетом частот весьма неплохо для Phytium.

Западные процессоры не всегда быстрее китайского, Ryzen 5 1500X хоть выигрывает в сжатии 12%, но распаковывает файлы примерно с той же скоростью. Конечно же, Core i3-12100 быстрейший и в этом тесте — процессор Intel при номинальной частоте сжимает файлы на 64% быстрее, а время их распаковки у него получилось на 54% меньше.

Unpacking Firefox
Sec
Phytium D3000 Dual 28,6
Phytium D3000 Single 28,8
Zhaoxin KX-7000 36,5
Kirin 9000C 38,4
Loongson 3A6000 29,0
Core i3-12100 18,6
Ryzen 5 1500X 28,8

Последним тестом раздела будет просто время распаковки архива .tar.xz установочных файлов веб-браузера Mozilla Firefox 84.0. Небольшое влияние пропускной способности памяти на результат есть, как показали предыдущие тесты и сравнение двух- и одноканального режима работы DDR5-памяти в системе с процессором Phytium D3000. Firefox распаковывается на рассматриваемом сегодня китайском CPU быстрее чем на остальных китайских процессорах, и даже чуть быстрее чем на Ryzen 5 1500X, но разница в последнем случае незначительна.

Loongson 3A6000 справился с распаковкой тоже почти с той же скоростью, что и Phytium, Kirin 9000C был на 34% медленнее, а Zhaoxin KX-7000 — на 28%. Core i3-12100 на полной частоте заметно быстрее всех, а конкретно Phytium D3000 он опередил на 54%, что довольно много. Даже с учетом разницы в частоте процессоров, этот западный CPU хоть и старый, но более эффективный, особенно по работе подсистемы кэширования, столь важной при распаковке данных. Но Zen 1 рассматриваемый китайский CPU не просто догнал по IPC, но и обошел его.

Компиляция и разработка

Раздел пусть и не слишком объемный, и даже не самый востребованный — вряд ли среди наших читателей велика доля разработчиков программного обеспечения, но всё же довольно интересный, так как ARM и других не-x86-архитектуры в настольных ПК сравнительно недавно появились в широком использовании, и определенный интерес к разработке ПО для них наверняка есть, особенно в том же Китае, который переходит на всё свое. Проверяем, как у очередного китайского CPU дела обстоят с компиляцией кода, сборкой приложений и другими задачами по теме разработки ПО.

Build2
sec
Phytium D3000 Dual 293,1
Phytium D3000 Single 293,3
Zhaoxin KX-7000 426,7
Kirin 9000C 403,5
Loongson 3A6000 453,4
Core i3-12100 187,9
Ryzen 5 1500X 310,1

Build2 — это кроссплатформенный набор инструментов для сборки кода C/C++. Первый тест раздела измеряет время установки набора инструментов для сборки Bulid2 из исходного кода. Влияния пропускной способности памяти на результаты тут нет, как и в прошлых исследованиях — разницы между одно- и двухканальным режимом не обнаружено.

Немного неожиданно, но Phytium D3000 и в этом тесте стал лучшим CPU из китайских, да еще с большим запасом. Loongson 3A6000 медленнее на 55%, Kirin 9000C уступил сегодняшнему герою 38%, ну а Zhaoxin KX-7000 — 46%. Это довольно приличная разница в пользу процессора Phytium. Более того, это единственный китайский CPU, который смог опередить хотя бы одного западного условного конкурента в виде Ryzen 5 1500X — разница между ними всего 6%, но в пользу китайца. Core i3-12100 же ожидаемо впереди, он справился со сборкой быстрее D3000 аж на 56%. С учетом разницы в частоте, дела китайского CPU не столь плохи, но процессор Intel всё же был бы быстрее даже при равных частотах.

PyBench
ms
Phytium D3000 Dual 2012
Phytium D3000 Single 2010
Zhaoxin KX-7000 1772
Kirin 9000C 1311
Loongson 3A6000 1874
Core i3-12100 611
Ryzen 5 1500X 1338

PyBench — тест общей производительности, вызывающий различные функции, реализованные с использованием Python. Подсчитывается общее время результатов теста для таких функций, как BuildinginFunctionCalls и NestedForLoops — общий результат дает приблизительную оценку средней производительности Python в системе. Снова нет никакой разницы между режимами работы DDR5-памяти, работающей в конфигурациях с разным количеством каналов, так что зависимости от ПСП нет и тут.

Удивительно на фоне успеха Phytium D3000 в предыдущем тесте, но этот CPU стал худшим в сравнении. Он уступил не только западным процессорам, но и всем китайским изделиям. Loongson 3A6000 в этом тесте на 7% быстрее, Zhaoxin KX-7000 на 13%, а Kirin 9000C сразу на 53%. Понятно, что Ryzen 5 1500X и Core i3-12100 также опередили рассматриваемый сегодня CPU, при том, что этим архитектурам уже много лет. Первый из них опередил D3000 ровно в полтора раза, а Core i3-12100 и вовсе оказался в 3,3 раза быстрее! Подобная нестабильность в результатах Phytium очень печалит, однозначно лучшим китайским CPU его назвать не получится.

Compilation time
Eigen, sec Erlang, sec
Phytium D3000 Dual 212,0 165,8
Phytium D3000 Single 212,5 168,2
Zhaoxin KX-7000 295,7 222,3
Kirin 9000C 114,1 254,3
Loongson 3A6000 114,8 228,4
Core i3-12100 47,3 122,2
Ryzen 5 1500X 84,5 185,5

Завершают этот небольшой раздел сразу два теста времени компиляции: всех примеров из Eigen — библиотеки линейной алгебры C++ и Erlang — языка программирования и среды выполнения для масштабируемых программных систем реального времени. В этих бенчмарках просто замеряется время компиляции указанных проектов, оно выдается в секундах. Влияние ПСП тут присутствует, но оно весьма невелико.

И снова мы видим нестабильность результатов. Kirin 9000C на 53% медленнее в компиляции Erlang, но на 86% быстрее в компиляции Eigen, Loongson 3A6000 на 37% медленнее в Erlang и на те же 86% быстрее во втором подтесте, ну а Zhaoxin KX-7000 хуже всех — он проиграл D3000 около 40% и 33% в этих же подтестах. Что касается западных CPU, то Ryzen 5 1500X в 2,5 раза быстрее в Eigen, но на 12% медленнее в Erlang, ну а Core i3-12100 быстрее всегда — в 4,5 раза и на 36%, соответственно.

С учетом частоты, Phytium D3000 очень хорош в одном примере компиляции и ужасен в другом. Если в одном из подтестов этот CPU стал лучшим среди китайцев и даже опередил Ryzen, то во втором обошел только Zhaoxin KX-7000, который является худшим в этом подтесте. До уровня производительности и стабильности результатов современных западных CPU китайцам очень далеко.

Высокопроизводительные вычисления

Не самый однозначный тестовый раздел. С одной стороны, именно высокопроизводительные вычисления и предъявляют больше всего требований к мощи процессоров, а с другой — вряд ли кто-то всерьез будет использовать процессор, предназначенный для настольных ПК начального уровня, в подобных задачах. Но так как у Phytium есть и серверные CPU той же архитектуры с большим количеством ядер, то по скорости настольного D3000 вполне можно прикинуть и то, что в принципе дает вычислительная архитектура компании, а не только модель CPU, предназначенная для настольных ПК.

AMG
Figure of Merit
Phytium D3000 Dual 275965067
Phytium D3000 Single 155150900
Zhaoxin KX-7000 88679230
Kirin 9000C 121489900
Loongson 3A6000 121316367
Core i3-12100 370135400
Ryzen 5 1500X 265814650

Первый тест раздела Algebraic Multi-Grid (AMG) — параллельный алгебраический многосеточный решатель для линейных систем на неструктурированных сетках. На выходе тест дает некое значение, указывающее на итоговую производительность, и чем оно выше — тем выше скорость вычислений. Как и ожидалось от бенчмарков научных вычислений, на результат заметно влияет пропускная способность памяти — подключение второго канала DDR5-памяти дает 100% прироста ПСП в теории и аж 78% прироста производительности в этом тесте!

В первом тесте раздела Phytium D3000 показал скорость заметно быстрее других китайских CPU, и даже быстрее слабейшего из западных процессоров. Результат у рассматриваемого процессора получился в 2,3 раза быстрее, чем у Loongson 3A6000 и Kirin 9000C, и сразу в 3,1 раза выше показателя Zhaoxin KX-7000, страдающего от ужасного контроллера памяти. Этот бенчмарк получился неплохим показателем именно эффективности работы процессоров с памятью, и тут Phytium безусловно хорош.

Даже по сравнению с процессором Ryzen 5 1500X, который уступил китайцу скромные 4%, так что по показателю количества выполняемых инструкций за такт в этом тесте Phytium D3000 обходит процессор AMD, поддерживающий исключительно DDR4-память. Core i3-12100 же работает с DDR5, и эффективность его контроллера памяти выше, поэтому западный CPU оказался в тесте быстрее на 34%. Но и процессор Phytium в этом тесте весьма неплох, повторимся.

HPCG
104 104 104 runtime 60, GFLOP/s
Phytium D3000 Dual 5,28
Phytium D3000 Single 3,07
Zhaoxin KX-7000 1,63
Kirin 9000C 0,79
Loongson 3A6000 1,59
Core i3-12100 6,93
Ryzen 5 1500X 5,29

Тест High Performance Conjugate Gradient (HPCG) решает систему линейных алгебраических уравнений с разреженной квадратной матрицей большой размерности методом сопряженных градиентов с предобуславливателем Гаусса-Зейделя. Реализация алгоритма выполнена с использованием MPI и OpenMP, так что многоядерные CPU поддерживаются. В тесте также есть весьма заметное влияние пропускной способности памяти, добавление второй планки DDR5 дало прирост скорости в 72% при теоретическом максимуме в 100%.

Скорость работы рассматриваемого сегодня процессора Phytium снова порадовала — в этом тесте он снова быстрее всех китайцев и на уровне Ryzen 5. Loongson 3A6000 оказался медленнее в 3,3 раза, как и Zhaoxin KX-7000. Kirin 9000C же вообще провалился — он в 6,7 раз медленнее D3000, но в его случае могла сказаться и нехватка памяти, у той системы ее было вдвое меньше. Вообще, во всех тестах раздела может использоваться много памяти, что нужно учитывать. Западные процессоры тут хороши, но Ryzen 5 1500X показал скорость лишь на уровне решения Phytium, а Corei3-12100 на 31% быстрее китайского CPU, так что последний весьма неплох.

Himeno
MFLOPs
Phytium D3000 Dual 3018
Phytium D3000 Single 3007
Zhaoxin KX-7000 2662
Kirin 9000C 3831
Loongson 3A6000 3272
Core i3-12100 7660
Ryzen 5 1500X 3782

Бенчмарк Himeno — линейный решатель давления Пуассона, использующий точечный метод Якоби, который выдает результирующую производительность в мегафлопах. Ранее мы замечали в нем значимое влияние пропускной способности памяти, но не полный упор в нее, а в этот раз разницы между двумя режимами работы памяти для Phytium D3000 нет, так что ПСП не влияет на результат.

В этот раз модель D3000 оказалась уже не столь хороша, уступив паре китайцев и выиграв 13% только у Zhaoxin KX-7000. Loongson 3A6000 быстрее на 8%, а Kirin 9000C на 27%. Результат последнего на уровне полноскоростного Ryzen 5 1500X, а вот Core i3-12100 с памятью DDR5 вырвался вперед всех очень сильно, рассматриваемый сегодня D3000 уступил ему по скорости в 2,5 раза. Снова мы видим крайне нестабильные результаты процессора Phytium, который то лучший, то чуть ли не худший среди всех CPU в сравнении.

Mocassin
Dust2D, sec Gas, sec
Phytium D3000 Dual 189,8 30,2
Phytium D3000 Single 190,6 30,7
Zhaoxin KX-7000 370,8 48,8
Kirin 9000C 1570,1 286,7
Loongson 3A6000 303,0 44,7
Core i3-12100 218,7 23,7
Ryzen 5 1500X 337,8 36,8

Mocassin (Monte Carlo Simulations of Ionised Nebulae) — тест моделирования ионизированных туманностей методом Монте-Карло. Мы используем два варианта теста, один из которых сложнее и дольше выполняется, в результате получая время решения в секундах. Влияние ПСП весьма небольшое, им можно пренебречь.

И снова сегодняшний герой на коне, да как — в этом тесте рассматриваемый сегодня процессор Phytium стал чуть ли не лучшим вообще! Он оказался в этом конкретном тесте в 8-10 раз быстрее Kirin 9000C, который пострадал от нехватки встроенной прямо на однокристальную систему памяти объемом 8 ГБ. Loongson 3A6000 уступил D3000 от 48% до 60%, Zhaoxin KX-7000 проиграл от 62% до 95%. Сравнение с западными процессорами также очень приятно, Ryzen 5 1500X медленнее на 22% и 78% в Dust2D и Gas, соответственно, а Core i3-12100 выиграл во втором 27%, но проиграл в первом 15% — отличный результат Phytium D3000, он как будто предназначен для подобных задач!

NAS Parallel Benchmarks
3D FFT, Mop/s Embarassingly Parallel, Mop/s
Phytium D3000 Dual 3130 218,5
Phytium D3000 Single 2865 218,3
Zhaoxin KX-7000 8272 285,4
Kirin 9000C 235 48,9
Loongson 3A6000 2108 100,9
Core i3-12100 13960 269,2
Ryzen 5 1500X 8990 146,0

NAS Parallel Benchmarks (NPB) — тест, разработанный NASA для высокопроизводительных компьютерных систем, который использует несколько различных задач разной сложности и размера. Мы выбрали два варианта из предлагаемых бенчмарком, его результаты выдаются в виде количества операций в секунду (миллионов в секунду). Некоторое влияние ПСП есть только в первом подтесте, второй канал памяти в дополнение к первому дал прибавку производительности в 9%.

Phytium D3000 не опередил всех китайцев, результат снова неоднозначен. На Kirin 9000C тут смотреть нет смысла, ему жестко не хватает вдвое меньшего объема ОЗУ, поэтому он проиграл в несколько раз. Loongson 3A6000 в 3D-варианте быстрого преобразования Фурье (3D FFT) медленнее на 48%, а во втором подтесте сразу в 2,2 раза хуже. Zhaoxin KX-7000 же тут хорош, в 2,6 раза быстрее в 3D FFT, и на 30% быстрее во втором подтесте. Ryzen 5 1500X почти втрое быстрее Phytium D3000 в первом и в полтора раза медленнее во втором подтесте. Core i3-12100 же быстрее всегда — в 4,5 раза и на 23%, соответственно. Так что результат рассматриваемого CPU неоднозначный.

Parboil
CUTCP, sec MRI Gridding, sec Stencil, sec LBM, sec
Phytium D3000 Dual 8,1 167,5 16,1 101,8
Phytium D3000 Single 8,2 167,4 35,7 192,7
Zhaoxin KX-7000 6,8 111,8 54,3 102,7
Kirin 9000C 9,4 188,7 18,8 153,6
Loongson 3A6000 17,1 35,9 46,3 197,2
Core i3-12100 7,6 38,9 13,8 62,4
Ryzen 5 1500X 7,1 65,5 17,0 117,3

Parboil — набор тестов исследовательской группы Университета Иллинойса для измерения производительности вычислительных архитектур, сценарии Parboil поддерживают многопроцессорные среды OpenMP, OpenCL и CUDA — естественно, мы использовали только OpenMP-вариант в четырех подтестах. Везде подсчитывается время, потраченное на исполнение задачи. Влияние ПСП есть не во всех подтестах, но во второй паре оно значительное и дает весомую разницу в производительности — практически двукратную.

По сравнению с другими китайцами, скорость у Phytium D3000 довольно неплохая, но он снова не однозначно лучший. Рассматриваемый процессор очень хорош во второй половине подтестов, где важна скорость работы памяти, в них он быстрее всех китайцев. Но в первых двух подтестах D3000 пасует, проиграв в CUTCP до 20% процессору Zhaoxin KX-7000, а в MRI Gridding еще и Loongson 3A6000 вышел далеко вперед. Но в Stencil он быстрее Kirin 9000C на 17%, а в LBM — на 5% быстрее того же Zhaoxin.

Процессоры Ryzen 5 1500X и Core i3-12100 явно быстрее в первых двух тестах, причем конкретно в MRI Gridding отставание D3000 от Core i3 достигло четырехкратного. Но в двух последних подтестах процессор Phytium хорош, в Stencil он между AMD и Intel, а в LBM — явно быстрее Ryzen 5 на 15%, но хуже Core i3 сразу на 63%. Западные CPU всё еще быстрее, но и Phytium совсем неплох. Были бы еще результаты более стабильными и ожидаемыми...

Rodinia
CFD Solver, sec LavaMD, sec Streamcluster, sec HotSpot3D, sec
Phytium D3000 Dual 32,4 514,3 31,2 0,0
Phytium D3000 Single 39,3 514,2 46,8 0,0
Zhaoxin KX-7000 66,4 646,4 54,4 164,9
Kirin 9000C 71,3 683,4 35,7 0,0
Loongson 3A6000 51,7 806,8 79,4 746,5
Core i3-12100 24,9 385,8 15,5 67,2
Ryzen 5 1500X 43,6 676,0 25,2 118,1

Rodinia — пакет для ускорения ресурсоемких приложений при помощи CUDA, OpenMP и OpenCL. Как и в предыдущем тесте, мы использовали только OpenMP-вариант — из-за принципиального отсутствия возможности ускорения вычислений на GPU. Результат четырех подтестов выводится в секундах, и чем меньше время исполнения, тем лучше. Явное влияние ПСП на результаты наблюдалось в половине подтестов — первом и третьем, от добавления второго канала они получили прибавку в скорости в 21% и 50%, соответственно.

Подтест HotSpot3D выдавал ошибку, как и в случае Kirin 9000C — похоже на то, что на ARM-ядрах тест вообще не работает (ну и Loongson показал очень слабый результат). Так что сравниваем Phytium D3000 с его условными соперниками в остальных подтестах. И мы снова можем похвалить инженеров этой китайской компании, ведь их детище в очередной раз опередило соотечественников. В решателе CFD рассматриваемый процессор на 60% быстрее ближайшего китайского конкурента (Loongson 3A6000) и в 2,2 раза быстрее худшего китайца Kirin 9000C. В тесте LavaMD процессор Phytium D3000 более чем на четверть быстрее Zhaoxin KX-7000, а в Streamcluster он на 14% быстрее Kirin и в 2,5 раза обошел Loongson.

Даже Core i3-12100 и Ryzen 5 1500X на своих номинальных частотах не всегда быстрее. Рассматриваемый сегодня китайский CPU смог опередить только Ryzen 5, и только в первых двух тестах: в CFD китаец был быстрее на 35%, а в LavaMD — на 32%. В третьем подтесте процессор AMD отыгрался, он быстрее на 24%. Процессор Intel был быстрее всегда: на 30%, 33% и 100%, соответственно. Так что относительно неплохой показатель IPC у китайского процессору Phytium D3000 получился, конечно, но для полноценной конкуренции ему не хватает и частоты, и архитектурных решений, которые бы позволили показывать более однозначные и высокие результаты. А пока что он страдает от недостатков аппаратной и программной оптимизации.

Молекулярная динамика

Эти тесты также относятся к высокопроизводительным вычислениям, которые мы уже рассмотрели в предыдущем пункте (да и вычислительная гидродинамика частично и там тоже была), но мы решили вынести несколько тестов в отдельный подраздел, так как их в целом получилось довольно много.

CloverLeaf
clover_bm, sec
Phytium D3000 Dual 144,9
Phytium D3000 Single 244,2
Zhaoxin KX-7000 249,5
Kirin 9000C 251,3
Loongson 3A6000 328,7
Core i3-12100 97,9
Ryzen 5 1500X 163,7

CloverLeaf — это тест гидродинамики по методу Лагранжа-Эйлера, используется версия OpenMP для многопоточных процессоров. Мы взяли самый простой расчет clover_bm, в результате работы теста выдается время на его исполнение в секундах. Влияние ПСП на результат теста весьма ощутимое, разница между двумя режимами работы DDR5-памяти с разным количеством каналов получилась целых 68%.

Phytium D3000 тут снова показал свои возможности — его скорость явно выше, чем у всех китайских процессоров, и не только. Loongson 3A6000 уступил сегодняшнему герою в 2,3 раза, а Kirin 9000C и Zhaoxin KX-7000 уступили 72%, что совсем немало — и как видно по сравнению одноканального и двухканального режимов памяти, именно ПСП и позволила процессору Phytium выступить настолько сильно. Рассматриваемый сегодня процессор даже оказался на 13% быстрее процессора Ryzen 5 1500X, и только Core i3-12100 смог опередить его почти в полтора раза — в любом случае, результат для китайского CPU просто отличный.

Dolfyn
sec
Phytium D3000 Dual 28,9
Phytium D3000 Single 28,9
Zhaoxin KX-7000 35,6
Kirin 9000C 24,9
Loongson 3A6000 31,3
Core i3-12100 13,6
Ryzen 5 1500X 22,2

Dolfyn — бенчмарк современных методов численного моделирования вычислительной гидродинамики (CFD). Тест измеряет время выполнения демонстрационных программ вычислительной гидродинамики, поставляемых в комплекте — выводится время, потраченное на расчеты. Влияние ПСП в этом тесте совсем отсутствует, всё зависит от тактовой частоты CPU и возможностей их вычислительных ядер.

В этом тесте Phytium D3000 уже не лучший, из китайских процессоров он проиграл Kirin 9000C около 16%. А вот остальные два CPU медленнее: Loongson 3A6000 на 8%, а Zhaoxin KX-7000 — почти на четверть. Если сравнивать процессор Phytium с западными CPU, то китаец в этом тесте проиграл обоим, показав производительность ниже, чем у Core i3-12100 более чем вдвое, а процессору AMD уступил чуть больше 30%. Так что по количеству исполняемых за такт инструкций в этом тесте D3000 разве что до уровня Zen 1 дошел, а процессор Intel далеко впереди в любом случае.

LAMMPS
Rhodopsin Protein, ns/day
Phytium D3000 Dual 4,49
Phytium D3000 Single 4,37
Zhaoxin KX-7000 3,46
Kirin 9000C 0,54
Loongson 3A6000 2,35
Core i3-12100 4,46
Ryzen 5 1500X 2,60

Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS) — пакет для классической молекулярной динамики, применяемый для сложных расчетов. На многопроцессорных системах используется интерфейс MPI, который не заработал на системе Kylin. Для наших тестов мы выбрали модель Rhodopsin Protein. Влияние пропускной способности памяти в этом бенчмарке есть, но оно весьма невелико, судя по результатам и предыдущих исследований и текущего.

Этот тест удивил нас чуть ли не больше всех остальных. Понятно, что еще один ARM-процессор Kirin 9000C показал тут очень низкий результат, ведь однокристальная система HiSilicon имеет вдвое меньший объем памяти на борту, который не увеличить. Но и остальные два китайских процессора медленнее Phytium — Loongson 3A6000 проиграл ему более 90%, и даже Zhaoxin KX-7000 оказался медленнее на 30%. Мало того, Ryzen 5 1500X сразу на 73% медленнее, но и это не всё — даже постоянный лидер нашего сравнения Core i3-12100 при работе на более высокой частоте не смог опередить Phytium D3000, показав почти идентичный результат — так что с IPC в таких условиях у китайского продукта всё в порядке.

LULESH
z/s
Phytium D3000 Dual 4170
Phytium D3000 Single 2734
Zhaoxin KX-7000 2412
Kirin 9000C 116
Loongson 3A6000 934
Core i3-12100 2048
Ryzen 5 1500X 1165

Livermore Unstructured Lagrangian Explicit Shock Hydrodynamics (LULESH) — трехмерное неструктурированное гидродинамическое моделирование Лагранжа для решения стандартной аналитической задачи Седова. На некоторых системах ранее ПСП почти не сказывалась на производительности, но в этот раз она влияет, да как — 53% разницы между одно- и двухканальным режимами работы DDR5-памяти.

Мы уже не удивляемся тому, что в научных тестах Phytium D3000 очень неплох, вот и в этом тесте китайский процессор снова оказался в лидерах, причем уже в абсолютных. И ладно бы только Kirin 9000C снова провалился из-за малого объема памяти, но и остальные CPU уступили Phytium — Loongson 3A6000 в 4,5 раза медленнее D3000, да и Zhaoxin KX-7000 проиграл целых 73%. И дело не только в памяти, даже в одноканале Phytium лидирует и опережает в том числе и Core i3-12100. Сегодняшний герой вдвое быстрее полноскоростного процессора Intel, и в 3,6 раза быстрее Ryzen 5 1500X — в этом тесте Phytium лучший и по показателю количества инструкций, и по абсолютной производительности.

Pennant
sedovbig, sec leblancbig, sec
Phytium D3000 Dual 92,6 70,7
Phytium D3000 Single 147,2 111,5
Zhaoxin KX-7000 230,6 108,8
Kirin 9000C 712,8 549,8
Loongson 3A6000 207,1 160,4
Core i3-12100 99,3 51,6
Ryzen 5 1500X 136,3 100,4

Pennant — еще одно приложение для расчета гидродинамики неструктурированных сеток в двумерном представлении. Содержит два разных подтеста, выдает время их расчета в секундах. В этом случае влияние пропускной способности памяти на результаты весьма велико в обоих подтестах: двухканальный режим работы памяти дал прирост в 58%-59% к одноканальному.

Могло показаться, что абсолютно лучший результат в прошлом тесте — случайность, но нет. Когда дело касается работы с большими объемами данных, то у Phytium D3000 всё отлично, ему помогает большой дополнительный L4-кэш. Kirin 9000C можно снова не брать в расчет, в его отвратительно низких результатах виноват недостаток 8 ГБ памяти, но и остальные китайские процессоры медленнее D3000 — Loongson 3A6000 в 2,2 раза в первом и 2,3 раза во втором подтесте, а Zhaoxin KX-7000 в 2,5 и 1,5 раза, соответственно.

Западный условный конкурент Ryzen 5 1500X тоже медленнее Phytium D3000 — на 47% в sedovbig и на 42% в leblancbig, а Core i3-12100 медленнее в первом на 7%, но быстрее во втором на 37% — с учетом разницы в частотах этих CPU, в очередном тесте раздела рассматриваемый процессор Phytium стал лучшим как минимум по количеству исполняемых инструкций за такт, но даже и в абсолюте он выиграл один из двух подтестов.

incompact3d
129 Cells, sec
Phytium D3000 Dual 36,8
Phytium D3000 Single 60,3
Zhaoxin KX-7000 52,1
Kirin 9000C 149,8
Loongson 3A6000 65,3
Core i3-12100 29,4
Ryzen 5 1500X 49,8

Ну и последний бенчмарк раздела. Incompact3d — высокопроизводительный код на основе Fortran-MPI для решения системы уравнений Навье-Стокса для несжимаемой жидкости. Используем самый простой вариант со 129 ячейками на направление, результат выводится в потраченных на расчет секундах. Влияние ПСП и тут достаточно велико, прирост от подключения второй планки DDR5-памяти оказался равен 64%.

Ужасные результаты Kirin 9000C снова не рассматриваем, у нас был китайский процессор с 8 ГБ начиповой памяти, и такая конфигурация просто не подходит для высокопроизводительных вычислений, нужны хотя бы 16 ГБ. Phytium D3000 же в очередной раз оказался очень хорош, он снова выиграл у всех сородичей. Loongson 3A6000 на 77% медленнее его, а Zhaoxin KX-7000 на 42% (в одноканальном режиме D3000 бы проиграл).

Западные CPU смотрятся уже не так уж сильно, Ryzen 5 1500X уступил китайцу более чем 35%, и лишь Core i3-12100 быстрее ровно на четверть. С учетом разницы в частотах, показатели IPC процессоров Phytium и Intel для этого теста близки. Правда, западные процессоры появились уже много лет назад, а в продаже сейчас можно найти куда более мощные модели.

Машинное обучение

Мы не могли обойти и модную в наше время тему весьма ресурсоемких вычислений, связанных с машинным обучением. Тестов в этом разделе будет всего два, но они интересны даже несмотря на то, что для подобных вычислений всё чаще используют куда эффективнее работающие в таких условиях графические процессоры, но и универсальные CPU находят свое применение.

NumPy
Score
Phytium D3000 Dual 0
Phytium D3000 Single 0
Zhaoxin KX-7000 195,1
Kirin 9000C 0
Loongson 3A6000 162,6
Core i3-12100 478,2
Ryzen 5 1500X 273,5

NumPy (Numerical Python) — математическая библиотека с открытым исходным кодом для языка программирования Python. Она поддерживает многомерные массивы, включая матрицы, а также высокоуровневые математические функции по работе с многомерными массивами. Увы, в случае этого теста процессоры Phytium и Huawei подвела или операционная система UOS, на которой этот бенчмарк наотрез отказался установиться, а может быть он и вовсе не работает на ARM-ядрах.

TNN
MobileNet v2, ms SqueezeNet v2, ms
Phytium D3000 Dual 426,7 110,1
Phytium D3000 Single 428,3 110,0
Zhaoxin KX-7000 525,4 128,7
Kirin 9000C 379,4 76,6
Loongson 3A6000 538,4 106,1
Core i3-12100 197,1 44,2
Ryzen 5 1500X 324,2 83,6

Остается последний тест, лучше подходящий для раздела. TNN — высокопроизводительная кроссплатформенная платформа глубокого обучения с открытым кодом, созданная Tencent. Она хорошо масштабируется от мобильных устройств до мощных систем и серверов на основе GPU. Для простоты мы использовали лишь две модели из предлагаемых в бенчмарке четырех. На диаграмме дано время исполнения тестовых задачи, и никакой зависимости скорости от ПСП тут нет.

Рассматриваемый сегодня процессор Phytium D3000 показал себя явно хуже, чем в предыдущих HPC-задачах. Он обогнал Zhaoxin KX-7000 на 17%-23%, а Loongson в одном подтесте быстрее на 4%, а во втором медленнее на 26%. А вот Kirin 9000C тут на удивление хорош, он как бы расквитался с сородичами за HPC-тесты, став лучшим китайским CPU. Kirin быстрее Phytium на 12% и 44% в двух подтестах. Понятно, что западные CPU также быстрее: Ryzen 5 1500X опередил D3000 на 32% в обоих подтестах, а Core i3-12100 в этом бенчмарке быстрее в 2,2-2,5 раза.

Энергопотребление

Сразу оговоримся, что оценка энергопотребления для Phytium D3000 носит скорее ознакомительный и номинальный характер. Она не слишком точна, да и это — не топовый CPU с максимальным уровнем потребления в сотни ватт, а процессор начального уровня по современным меркам. Но даже в его случае по максимальному установленному уровню расчетной тепловой мощности (TDP) сложно что-то сказать о практическом потреблении. Пиковое энергопотребление модификации, которая использовалась в наших тестах, установлено на уровне 70 Вт, если верить данным из BIOS, но в реальности таких показателей он не достиг даже близко.

Если в случае мощных моделей Intel и AMD (в меньшей степени) значения TDP обычно оказываются ниже пикового энергопотребления CPU из-за функций повышения частоты и рабочего напряжения, которые позволяют выходить за пределы номинального энергопотребления на время, то простые модели западных процессоров даже до максимального уровня TDP зачастую не добираются. Многое зависит от пределов пиковой частоты, температурных характеристик и других параметров, а производители системных плат стараются еще больше повысить пределы потребления и напряжения, чтобы их решение было хоть на 2%-3% быстрее конкурирующих.

В случае не особенно мощных китайских CPU всё сильно проще — наши практические тесты показали, что частота таких процессоров если и меняется от номинальной по спецификациям, то только вниз, не превосходя указанную максимальную 2,5 ГГц для того же Phytium D3000 при любой нагрузке — в этом еще одно отличие от современных процессоров AMD и Intel, которые в однопоточном режиме работают на более высокой частоте, а при полной нагрузке на все ядра она может значительно снизиться, чтобы войти в рамки TDP. У китайских процессоров со сравнительно низким потреблением всё работает без особых затей.

Энергопотребление
Простой Видео Нагрузка
Phytium D3000 34 48 70
Zhaoxin KX-7000 65 73 112
Loongson 3A6000 28 46 74
Core i3-12100 36 60 86

Сравним данные тестов энергопотребления тестовых систем, включающих указанные в таблице процессоры, в трех разных сценариях — в простое, при просмотре видеороликов высокого разрешения, а также в режиме максимального потребления, в котором для создания нагрузки использовались наиболее ресурсоемкие приложения из тестового набора — математические задачи. В режиме просмотра видео запускался встроенный медиапроигрыватель с роликом разрешения 1920×1080 пикселей в самом распространенном формате H.264, что может нагружать как видеокарту, так и центральный процессор системы.

Сравниваем мы систему с Phytium D3000 целиком по энергопотреблению с парой ПК на китайских CPU и системой на базе Core i3-12100. В режиме простоя, ПК на базе рассматриваемого сегодня китайского процессора потребляет почти столько же энергии, что и система с процессором Intel, а Loongson 3A6000 чуть меньше. Разница не так уж велика, и хорошо уже то, что Phytium справились с самым экономичным режимом, в отличие от Zhaoxin, система на процессоре KX-7000 от них потребляет и в простое слишком много энергии — почти вдвое больше D3000.

Режим максимального энергопотребления при научных вычислениях показал более интересные результаты — система на основе процессора Phytium оказалась наиболее экономичной, и если 86 Вт против 70 Вт у ПК на основе процессора Intel легко объяснить, ведь тот обычно заметно быстрее китайца, то 74 Вт у Loongson 3A6000 говорят нам о том, что Phytium D3000 получился довольно энергоэффективным. Не говоря уже о 112 Вт для Zhaoxin KX-7000 — этот китайский процессор наиболее прожорлив, что неудивительно, исходя из его реального потребления до 95-100 Вт только для одного CPU.

В режиме просмотра видеороликов, система на базе процессора Loongson справилась неплохо, ведь она выполняет часть работы с видеоданными на выделенных блоках аппаратного ускорения, равно как и система с процессором Phytium, не имеющая встроенного GPU и использующая внешнюю видеокарту, что привело к чуть большему энергопотреблению в этом режиме — до 48 Вт. И это всё равно заметно лучше, чем 60 Вт у Core i3-12100 и уж тем более 73 Вт для системы с процессором Zhaoxin. Так что и тут система на китайском процессоре Phytium подтверждает свою неплохую энергоэффективность, за что нужно благодарить в том числе и внешнюю видеокарту от... дочерней компании Zhaoxin.

В целом же можно сказать, что Phytium D3000 потребляет меньше энергии по сравнению со всеми представленными процессорами, за исключением Loongson 3A6000, с которыми они очень близки по этому параметру. Но сегодняшний герой почти всегда был более производительным во всех задачах, так что он явно имеет и лучшую энергоэффективность, чем указанный китайский CPU. Система на основе Zhaoxin KX-7000 потребляет куда больше энергии во всех режимах, и в тестах она нечасто была ощутимо быстрее, так что и по сравнению с этим процессором D3000 выходит победителем. Вот с Core i3-12100 по этому параметру сравнить сложнее, но процессор Intel почти всегда был быстрее, и нередко его преимущество было двукратным и более, так что в среднем он, скорее всего, несколько энергоэффективнее китайского CPU, хотя из процессоров производства этой страны именно Phytium оказался лучшим.

Система охлаждения Phytium D3000
Система охлаждения Loongson 3A6000

Несмотря на невысокое энергопотребление, в Lenovo всё же решили поставить на свою систему не настолько простую систему охлаждения, какую мы видели в ПК на основе процессора Loongson 3A6000, да и компьютер с Kirin 9000C также имел кулер попроще. С учетом потребления и температурного режима, они это сделали скорее просто на всякий случай, система охлаждения явно имеет определенный запас. Ждать большого нагрева от систем явно не с предельными характеристиками, использующих такие простые кулеры, было бы странно.

Если верить встроенному датчику и системе мониторинга, на практике процессор Phytium D3000 нагревался до 65 градусов, что немного выше 60 градусов процессора Loongson 3A6000 в тех же условиях, хотя разница не слишком существенна. Нагрев примерно соответствует тому, что мы видели в случае ПК на Kirin 9000C, а вот Zhaoxin KX-7000 даже с более мощной системой охлаждения нагревался до 79 градусов, и вот это уже ближе к показателям современных западных CPU, требующих серьезного охлаждения. Ну а в случае Phytium на этот параметр можно не обращать внимания, перегрев рассматриваемому китайскому CPU не грозит, и довольно простой воздушный кулер отлично справляется с его охлаждением.

Выводы

Наше тестирование и небольшая практика использования системы на основе процессора Phytium D3000 оставили сравнительно неплохое впечатление об этом китайском продукте. Хотя производительность рассматриваемого CPU не слишком конкурентоспособна по сравнению с западными CPU даже десятилетней и большей давности, D3000 всё же лучше других китайских процессоров подходит для таких простых задач, как просмотр веб-страниц, типичной домашней и офисной работы на ПК, и даже в несколько более требовательных задачах, таких как обработка изображений и видеоданных, он чаще всего оказывался лучше своих соотечественников.

Процессор Phytium не ушел далеко от других китайских процессоров для настольных систем и зачастую показывал неоднозначные результаты — то чуть быстрее, то чуть медленнее аналогов из Китая. Но зато именно D3000 показал более высокую производительность во многих HPC-применениях, да и в более прикладных задачах, типа сжатия данных и видеокодирования, он был быстрее других китайских CPU на основе разных архитектур. В отличных результатах многих тестов из разделов научных и высокопроизводительных вычислений «виновата» как улучшенная архитектура собственных ARM-ядер, так и дополнительный L4-кэш, улучшающий работу с системной памятью и важный для подобных нагрузок.

Но и сами по себе вычислительные ядра не так уж плохи, судя по результатам тестов. Если ядра FTC663, на которых основана предыдущая модель D2000, сложно назвать удачным и полностью собственным решением компании, ведь это слегка улучшенные ядра Cortex A72, то в FTC862 специалистам Phytium удалось добиться значительного прироста производительности, внедрив в ядро микроархитектурные улучшения — к сожалению, никаких подробностей о них мы не знаем, но увеличение скорости вычислений налицо. Этих оптимизаций всё еще мало для того, чтобы назвать D3000 конкурентоспособным продуктом на глобальном рынке, но Китаю этого достаточно на данном этапе развития микроэлектронной индустрии. Phytium D3000 получился как минимум самым мощным ARM-процессором из Китая, предназначенным для настольных ПК, и одним из самых мощных CPU такого позиционирования в целом — зачастую он обгоняет не только Loongson, но и решение куда более опытной Huawei, и даже работающий на большей частоте и потребляющий больше энергии x86-совместимый Zhaoxin.

Судя по производительности, в ядрах Phytium D3000 решили некоторые недостатки старого ядра FTC663 на основе Cortex A72, которые ARM также исправила в своих последующих разработках — ядра Neoverse N1 и N2 значительно отличаются от их же старого ядра, и у них больше общего с высокопроизводительными настольными чипами Intel и AMD: более точный и мощный предсказатель ветвлений, быстрая обработкой ветвлений с предвыборкой кода, низкая задержка кэшей и т. д. Инженеры ARM грамотно распорядились бюджетами площади и транзисторов именно там, где это важнее всего, и специалисты Phytium в FT862 сделали примерно то же самое, расширив многие узкие места, что и привело к резкому улучшению вычислительных возможностей D3000.

В итоге, по эффективности и количеству исполняемых инструкций за такт Phytium D3000 в среднем не хуже Zen первого поколения — в наших тестах он чаще всего был близок к Ryzen 5 1500X, работающему даже на более высокой частоте, а нередко и обгонял его. Так что производительности и возможностей этого китайского процессора достаточно для большинства несложных задач, ведь те же процессоры Zen первого поколения вполне работоспособны и применяются до сих пор. Более того, в отличие от других китайских CPU, этот показал себя неплохо и в высокопроизводительных вычислениях. По крайней мере, тот же Ryzen 5 1500X, выполненный по техпроцессу 14 нм, они практически догнали. Главное, чтобы не были забыты специфические оптимизации под дополнительные наборы инструкций, требуемые для достижения высокой производительности.

Phytium — компания, сотрудничающая с китайскими военными и получающая государственную поддержку, чтобы снизить зависимость от западных высокопроизводительных микропроцессоров, и D3000 помогает им в этой задаче. Это лишь один из первых шагов по достижению цифрового суверенитета, это решение не может быть экономически оправданным в краткосрочной перспективе, так как разработка и производство мощных процессоров чрезвычайно сложны и требуют очень высоких затрат денег и времени. Китай сейчас тратит очень много средств для того, чтобы получить собственный опыт и возможности на будущее. Им нужно продолжать устранять существующие недостатки и усиливать свои возможности, чтобы их CPU стали подходящими для использования и в более ресурсоемких применениях.

А на сегодня и нынешние показатели производительности китайских CPU неплохи, учитывая условия, в которых оказались все отечественные компании из-за американских санкций, ведь они не могут использовать продвинутые западные производства типа той же тайваньской TSMC, довольствуясь не самыми передовыми техпроцессами SMIC и других немногочисленных китайских фабрик, лишенных возможности закупить современное EUV-оборудование, важное для массового производства кремниевых пластин в больших объемах. Поэтому все производители используют более старые варианты оборудования при производстве, и чипы обходятся дороже. Наверняка китайцы работают над более продвинутыми техпроцессами, но они пока что не позволяют начать массовый выпуск микроэлектронной продукции.

Тем не менее, процессор Phytium Feiteng D3000 показал, что технологическая изоляция Китая со стороны США и других западных стран хоть и осложняет развитие микроэлектронной индустрии в этой стране, но одновременно и мотивирует создавать свои собственные независимые решения. Процессор показал довольно впечатляющую производительность для китайского CPU, при этом он основан на ARM-ядрах собственного дизайна, которые широко используются и в других процессорах компании. Благодаря высокой производительности и технологическим особенностям, серверные процессоры Tengyun S5000C еще в прошлом году достигли отметки в более чем 10 миллионов выпущенных процессоров, тогда как в 2020 году компания продала 1,5 млн. чипов, а в 2019 это число было лишь 0,2 млн. Понятно, что 80% решений были направлены в государственные компании. Надеемся, что мощные государственные вливания и серьезная внутренняя конкуренция среди китайских микропроцессоров будут побуждать производителей к созданию более мощных решений, и хотя китайской микропроцессорной индустрии активно вставляют палки в колеса, этот локомотив явно разгоняется.