В релизе Spark 1.4 появилась поддержка программ на языке R

15 июня 2015 г., 12:25

Software

В релизе Spark 1.4 появилась поддержка программ на языке R

В преддверии открывающейся на следующей неделе в Сан-Франциско пользовательской конференции Spark Summit, эта, одна из самых популярных платформ обработки больших данных, используемая Autodesk, eBay, NASA и Yahoo, получила поддержку языка статистического программирования и предиктивной аналитики R.

По словам Патрика Уэнделла (Patrick Wendell), активного участника проекта Spark и сооснователя фирмы Databricks, предлагающей коммерческую облачную версию этого ПО для предприятий, в последние пару лет популярность R в мире стремительно растет, превращая этот открытый язык в подобие эсперанто для сферы обработки информации.

С новой Spark (версия 1.4) пользователи R смогут напрямую работать с крупными распределенными массивами данных, задействуя сотни и тысячи процессорных ядер и машин, что далеко превосходит возможности отдельной программы на R, рассчитанной на один компьютер.

Входящий в Spark 1.4 API SparkR позволяет программам направлять аналитические процедуры, написанные на R, для выполнения в среду Spark. Анализируемые данные могут поступать из разных источников, включая репозитории на базе Hadoop Hive, хранилища в колоночном формате Apache Parquet или JSON (JavaScript Object Notation).

Средства машинного обучения, дебютировавшие в Spark 1.2 в альфа-статусе, вошли в новый релиз уже в качестве стандартного API. Это означает, что разработчики теперь смогут внедрять в свои продукты возможности обучения не опасаясь, что прикладной программный интерфейс могут изменить в будущих редакциях Spark.

Стратегія охолодження ЦОД для епохи AI