«Столкновение данных» может облегчить автоматическое открытие

14 ноябрь, 2014 - 15:53Леонід Бараш

Мало для кого является секретом в интеллектуальном анализе данных, что простой ввод исходных данных в алгоритм анализа вряд ли приведет к значимым результатам, говорят авторы нового исследования Корнеллского университета.

От распознавания речи до выявление необычных звезд, новые открытия часто начинаются с сопоставления потоков данных для нахождения связи и исключения выбросов. Но большинство алгоритмов сопоставления данных сегодня имеют один существенный недостаток – в некоторых случаях они полагаются на человека-эксперта, который должен указать, какие аспекты данных актуальны для сравнения, и какие нет. Но эксперты не могут угнаться за растущими объемами и сложностью больших данных.

Для оценки сходства между потоками произвольных данных без вмешательства человека и без доступа к источникам данных исследователи из Корнелла предложили новый принцип, который они назвали «столкновение данных». Ход Липсон (Hod Lipson), доцент машиностроения и информатики, и Ишану Чаттопадхайя (Ishanu Chattopadhyay), бывший докторант Липсона (теперь в Университете Чикаго), описали свой метод в журнале Royal Society Interface.

Принцип основан на новом способе сравнения потоков данных. Процесс включает в себя два этапа. На первом потоки данных алгоритмически «сталкиваются», чтобы «уничтожить» информацию друг в друге. Затем процесс измеряет, какая информация осталась после столкновения. Чем больше информации остается, тем менее вероятно, что потоки возникли из того же источника.

По мнению исследователей, принципы столкновения данных могут открыть дверь к пониманию более сложных наблюдений, особенно, когда эксперты не знают, что искать.

Авторы продемонстрировали применимость их принципа к проблемам реального мира, в том числе неоднозначности в электроэнцефалографической картине больных эпилепсией, обнаружению аномальной сердечной деятельности на основе кардиографии и классификации астрономических объектов по данным фотометрии.

Во всех случаях и без доступа к знаниям в предметной области исследователи продемонстрировали производительность, сравнимую с точностью специализированных алгоритмов и эвристик, разработанных экспертами.