Пал мировой рекорд по сортировке данных

21 октябрь, 2010 - 15:20Леонід Бараш

Компании, исследующие тенденции, стремящиеся к эффективности и другим конкурентным преимуществам, все чаще обращаются к сортировкам больших массивов данных, которые требуют вычислительных ресурсов масштаба центров данных. Интернет также создает много сценариев, в которых сортировка данных является критической. Реклама на страницах Facebook, рекомендации пользователям на Amazon и секундные результаты поиска в Google являются результатом сортировки данных объемом несколько петабайт.

Ученые в области информатики из Калифорнийского университета (UC) в Сан-Диего преодолели терабайтный барьер и установили мировой рекорд, выполнив сортировку более 1 ТБ данных за 60 с. Попутно во время соревнований «Sort Bebchmark» на Кубке мира по сортировке данных они также установили мировой рекорд по скорости сортировки в минуту на 100 ТБ данных, выполнив сортировку одного триллиона записей за 172 мин и использовав при этом только четвертую часть вычислительных ресурсов предыдущих обладателей рекорда.

«Ведущие корпорации хотят обрабатывать запросы по всем их страницам на экранах или проданным продуктам, что может требовать сортировки многопетабайтных наборов данных, которые увеличиваются на много гигабайтов в день, - сказал проф. Амин Вахдат (Amin Vahdat) из UC, руководитель проекта. – Компании постоянно отодвигают предел, как много данных и как быстро они могут сортировать». Однако все это требует лучших технологий сортировки. В центрах данных сортировка мешает эффективно выполняться более высокоуровневым программам.

Мировые рекорды были установлены в категориях Indy Minute Sort и Indy Gray Sort. В Indy Minute Sort исследователи за одну минуту отсортировали 1,014 ТБ данных, впервые преодолев терабайтный барьер. Команда также установила мировой рекорд для теста Indy Gray Sort, который измеряет скорость сортировки в минуту на 100 ТБ данных.

Оба мировых рекорда установлены в категории Indy, означающей, что системы были сконфигурированы специально для теста Sort Benchmark. Команда собирается обобщить свои результаты для теста Daytona и для использования в реальных условиях.

Проблемы, возникающие при сортировке небольшого объема данных, с которой встречается обычный пользователь при, к примеру, сравнении двух таблиц в коробочной базе данных, и сортировке терабайтных и петабайтных объемов, когда необходимая память намного превышает имеющуюся в компьютере, радикально отличаются. В последнем случае системы для сортировки должны быть высокопроизводительными и в то же время сбалансированными. В сбалансированных системах компьютерные ресурсы, такие как память, система хранения и полоса пропускания сети должны быть использоваться в максимально возможной степени.

Чтобы преодолеть терабайтный барьер для Indy Minute Sort, ученые построили систему, содержащую 52 узла. В качестве узлов служили обычные серверы на базе двух четырехъядерных процессоров Xeon E5520, 24 ГБ памяти и 16 дисков по 500 ГБ каждый. Все межузловые соединения были реализованы на коммутаторе Cisco Nexus 5020. Вычислительная система, установившая рекорд в Indy Gray Sort, состояла из 47 таких же узлов.