Эффективный поиск в больших объемах данных

17 июля 2013 г., 11:47

Огромное количество данных накапливается не только в научно-исследовательских институтах, но и в компаниях. Традиционные СУБД часто не способны справиться с ними. Соответствующие инструменты для «больших данных» отсутствуют. Ученые из Саарбрюкена разработали подход, который позволяет осуществлять поиск в больших объемах данных быстро и эффективно.

Очень часто анализируемые данные распределяются на нескольких серверах в Интернете, например, при поисковых запросах. Запросы поступают параллельно на несколько серверов. Традиционные СУБД не во всех случаях с ними справляются. Они либо не могут справиться с такими объемами, либо они заставляют пользователей долго ждать. Поэтому аналитики любят инструменты, которые базируются на Apache Hadoop, ПО с открытым кодом, и файловую систему HDFS. Чтобы пользоваться этим, не нужно быть экспертом. «Если вы знаете язык Java, то уже можно сделать очень много», - объяснил Йенс Диттрих (Jens Dittrich), профессор из Саарландского университета. Но он также добавил, что Hadoop не может так эффективно справляться с запросами к большим наборам данных, как это делают СУБД, которые спроектированы для параллельной обработки.

Решение проф. Диттриха и его коллег заключается в разработке «агрессивной индексирующей библиотеке Hadoop» (Hadoop Aggressive Indexing Library, HAIL). Она позволяет сохранять огромные объемы данных в HDFS таким способом, что поиск выполняется в 100 раз быстрее. Исследователи используют метод, который можно найти в телефонной книге. Так, в ней нет необходимости читать весь список имен, поскольку они отсортированы по фамилиям. Сортировка имен генерирует так называемый индекс. Ученые сгенерировали такой индекс для БД, которая была распределена на нескольких серверах. Но в отличие от телефонной книги, они сортировали данные в соответствии с несколькими критериями за один раз и сохраняли столько же экземпляров. «Чем больше критериев вы используете, тем более высокая вероятность того, что вы найдете нужные данные быстрее, - сказал проф. Диттрих. – Если взять для примера телефонную книгу, то это значит, что у вас есть шесть разных книг. Каждая книга содержит данные, отсортированные по одному критерию – в соответствии с именем, улицей, почтовым индексом, городом и телефонным номером. С такой телефонной книгой вы можете осуществлять поиск по разным критериям и быстрее добиться успеха».

Индексирование выполняется таким способом, что не требуются дополнительные вычислительные ресурсы, а требуемые объемы диска незначительны.

Эффективный поиск в больших объемах данных