Apache Spark 3.0 добавя поддръжка на Nvidia GPU за машинно обучение

Apache Spark, рамката за обработка на големи данни в паметта, ще стане напълно GPU ускорена в скорошното си въплъщение 3.0. Най-хубавото е, че днешните приложения Spark могат да се възползват от ускорението на графичния процесор без модификация; съществуващите API на Spark работят всички както са.

Компонентите за ускорение на GPU, предоставени от Nvidia, са проектирани да допълват всички фази на приложенията Spark, включително ETL операции, обучение за машинно обучение и обслужване на изводи.

Приносът на Nvidia Spark се основава на пакета RAPIDS на ускорени от GPU библиотеки за наука за данни. Много от вътрешните структури на данни на RAPIDS, като рамки от данни, допълват собствените на Spark, но за да може Spark да използва RAPIDS първоначално е необходима почти четири години работа.

Ускоренията Spark 3.0 не идват единствено от ускорението на графичния процесор. Spark 3.0 също жъне печалби от производителността, като минимизира движението на данни към и от графичните процесори. Когато данните трябва да бъдат преместени през клъстер, рамката Unified Communication X ги прехвърля директно от един блок памет на GPU в друг с минимални режийни разходи.

Според Nvidia, предварителната версия на Spark 3.0, работеща на платформата Databricks, доведе до седемкратно подобрение на производителността при използване на GPU ускорение, въпреки че подробности за работното натоварване и неговия набор от данни не бяха налични. 

Не е посочена твърда дата за общодостъпност на Spark 3.0. Можете да изтеглите предварителни версии от уебсайта на проекта Apache Spark.