`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Что для вас является метрикой простоя серверной инфраструктуры?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Виталий Кобальчинский

Машинный интеллект находит новые знания в тексте научных статей

+22
голоса

Искусственный интеллект уже доказал, что способен играть в шахматы на уровне гроссмейстеров, но под силу ли ему делать научные открытия? На этот вопрос ответили исследователи из Национальной лаборатории им. Лоуренса Беркли (Berkeley Lab): они показали, что алгоритм машинного обучения, практически без тренировки, может извлекать новые знания из просканированных текстовых аннотаций миллионов научных статей.

Коллектив, который возглавлял Анубхав Джайн (Anubhav Jain), ученый из подразделения Berkeley Lab по хранению энергии и распределённым ресурсам, собрал 3,3 млн. тезисов материаловедческих научных публикаций из 1000 журналов, вышедших с 1922 по 2018 гг., и «скормил» их алгоритму под названием Word2vec.

Анализируя взаимосвязи между словами, алгоритм смог предсказать открытие новых термоэлектрических материалов на годы вперед и предложить в качестве перспективных термоэлектриков еще неизвестные материалы. Об этом сообщает статья, вышедшая 3 июля в журнале Nature.

Машинный интеллект находит новые знания в тексте научных статей

«Не обладая какими-либо предварительными сведениями о материаловедении, он (алгоритм) усвоил такие понятия, как периодическая таблица и кристаллическая структура металлов, — рассказал Джайн. — Это говорит о потенциале метода. Но, наверное, самое интересное, выяснилось, что этот алгоритм можно применять для устранения пробелов в исследованиях материалов, вещей, которые давно следовало изучить».

Главной мотивацией проекта стала растущая сложность ориентирования в массе опубликованных исследований. В каждой области науки накопилось публикаций за сотни лет, и каждую неделю выходят десятки новых статей. Учёный может ознакомиться лишь с малой долей этих залежей знаний, поэтому напрашивалась попытка переложить задачу их освоения на системы машинного обучения, действующие без вмешательства человека (обучение без наставника).

Каждое из приблизительно 500 тысяч отдельных слов, встречавшихся в анализируемых аннотациях, Word2vec превращал в 200-мерный вектор — массив из 200 чисел. Это позволило исследовать взаимоотношения между словами и усваивать понятия материаловедения, используя стандартные операции векторной арифметики. Действуя по такой схеме Word2vec смог изучить даже связи между элементами периодической таблицы Менделеева, спроецировав вектор каждого химического элемента на два измерения.

Но главное открытие ждало исследователей когда они ознакомились со списком химических соединений, который был составлен алгоритмом Word2vec по принципу наилучшего соответствия слову «термоэлектрик». Этот термин определял материал, способный наиболее эффективно преобразовывать тепло в электричество, а также дешёвый в производстве и состоящий из распространённых и безопасных компонентов.

Для предложенных кандидатов в темоэлектрики учёные провели компьютерные симуляции в результате которых выяснилось, что первая десятка материалов имеет КПД преобразования энергии немного выше среднего значения по известным термоэлектрикам. Зато тройка лидеров прогноза по эффективности вошла в 5 процентов лучших термоэлектрических материалов.

Авторы также провели эксперимент по ретроспективному прогнозированию — пытались открыть уже открытые термоэлектрики на основании аннотаций, ограниченных сверху, например 2000-м годом публикации. Было установлено, что количество удачных «попаданий» оказалось в четыре раза больше, чем если бы алгоритм выбирал материалы случайным образом.

«Я был очень удивлен, увидев не только предсказания, но и их обоснование, такие понятия, как полуметаллические сплавы Гейслера, кристаллическая структура которых в наши дни является действительно «горячим» трендом для термоэлектриков», — пишет Джайн.

Помимо статьи, учёные опубликовали перечень 50 лучших термоэлектрических материалов, предсказанных их алгоритмом. Они также планируют предоставить инструкции, необходимые для создания других приложений, например, для поиска новых топологических изоляторов, и работают над созданием более мощного движка поиска в текстовых аннотациях.


Вы можете подписаться на наш Telegram-канал для получения наиболее интересной информации

+22
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT