Искусственный интеллект смотрит в небо

Астрономы тысячелетиями вглядываются в космические глубины, пытаясь понять, как устроена Вселенная, но их исследовательские возможности определяются в первую очередь технологиями, с помощью которых они получают и анализируют данные. Новейшей технологией, которая в последнее десятилетие начала трансформировать астрономию на всех уровнях, от сбора и обработки информации до фундаментальных выводов и проектирования новых инструментов, стал искусственный интеллект. В условиях огромного количества астрономических данных, работа с которыми требует творческого подхода, технологии искусственного интеллекта становятся не просто удобным инструментом, а подчас единственным средством для решения поставленных задач.
Что такое машинное обучение и искусственный интеллект?
Описание разных систем искусственного интеллекта (ИИ) и методов машинного обучения потребовало бы слишком много места, поэтому здесь я расскажу в общих чертах лишь о некоторых из них, оставаясь в рамках астрономической тематики. В первую очередь нам надо понять смысл понятия ИИ*. Что же искусственный интеллект и машинное обучение делают такого, что не позволяют осуществить обычные компьютерные программы? И нет, компьютер пока не научился мыслить, как нам рассказывают фантастические книги и фильмы. Не способен он сам и совершать открытия, подобно человеку, хотя теперь может сильно помочь в этом.
* Интересующиеся могут познакомиться с обсуждением проблемы ИИ, проведённым в журнале «Наука и жизнь» в 2018 году, в частности со статьями А. Лагутенкова «Место искусственного интеллекта в мире людей и место людей в мире искусственного интеллекта» в № 3 и Я. Верова «Искусственный интеллект — не то, чем он кажется» в № 6.
Для того чтобы некоторая задача могла быть решена на компьютере без ИИ, она должна быть формализована, то есть представлена в виде, пригодном для работы с ней с помощью математики или логики. Проще говоря, записаны формулы, по которым вычисляется ответ. Причём должны быть учтены все возможные варианты развития событий.
Однако существует много задач, которые крайне трудно, а подчас просто невозможно формализовать и перебрать все варианты. Например, к таким задачам относится распознавание образов, скажем, ответ на вопрос о похожести лиц на снимках. Попробуйте перебрать все возможные сочетания разнообразных лиц и в каждом случае составить последовательность действий, однозначно отвечающих на вопрос: похожи они или нет и в какой степени. Средствами обычного математического подхода проблему не осилить, даже если фотографии преобразовать в цифровую форму.
А ведь решение этой задачи — основа классификации объектов, то есть их разделения на несколько различных групп (классов), в которые собраны похожие объекты. В астрономии с подобной проблемой сталкиваются, например, при классификации галактик по их изображениям. По ним надо определить тип галактики: спиральная, эллиптическая, линзовидная, неправильная, затем подклассы и так далее. Это, конечно, не лица, но спиральные галактики имеют очень разную форму и структуру, так что однозначно сформулировать признаки их похожести и объединения в одну группу не удастся. Разумеется, профессионал-астроном, анализируя изображения вручную, в большинстве случаев с задачей легко справится. Однако если он возьмёт миллиард известных галактик и затратит на просмотр каждой хотя бы секунду, на просмотр всех у него уйдёт более 30 лет, при условии, что он будет работать круглосуточно и без перерывов. Но чем поможет здесь искусственный интеллект? Ведь дело не только в том, что компьютер работает быстрее и не требует отдыха.
Современные технологии ИИ — это способы решения задач, выходящие за рамки традиционного подхода. Благодаря этому компьютер может выполнять действия, которые обычно относят к прерогативе человека. В том числе написать текст, картину или музыку, распознать речь — все эти задачи тоже не формализуемы.
Упрощённо говоря, ИИ можно представить как большую формулу с множеством изменяемых параметров, в которую подставляют исходные данные и получают ответ. Эта формула определяется выбранной технической реализацией ИИ и к рассматриваемой проблеме отношения не имеет, поэтому и получаемый ответ первоначально тоже. Затем начинается процесс обучения, заключающийся в подстройке параметров формулы, так, чтобы ответ соответствовал поставленной задаче. Таким образом, техническую, чаще всего компьютерную систему учат выдавать результат без формализации процесса решения конкретной задачи. Этим и устраняется главная сложность решения неформализуемых проблем с помощью компьютера.
Из всего сказанного вытекает, что главная проблема в создании ИИ — разработка эффективного метода обучения. Поэтому в статьях, посвящённых исследованиям, проводимым с помощью ИИ, часто вместо термина ИИ используют машинное обучение. Хотя, возможно, здесь есть ещё неявное желание подчеркнуть, что результат получила не какая-то мыслящая машина, а авторы работы обучили машину выдавать результат. Прорыв в машинном обучении был совершён около 10 лет назад, и именно с того времени началось триумфальное шествие ИИ по разным сферам человеческой деятельности.
Существуют обучаемые системы разных типов, но после огромных успехов** в обучении сложных искусственных нейронных сетей (глубокое обучение ИНС), которые были достигнуты в последнее десятилетие, именно их в основном имеют в виду, когда говорят об ИИ. Искусственные нейронные сети математически моделируют работу человеческого мозга и состоят из множества связанных блоков — искусственных нейронов, которые обрабатывают информацию и передают её друг другу.
** См.: А. Понятов. Премия за нефизический инструмент для физики и не только. «Наука и жизнь» № 11, 2024 г.
Однако в науке успешно используются и другие виды машинного обучения, например метод опорных векторов и методы, основанные на деревьях принятия решений. Структура дерева состоит из «веток» (рёбер), соединённых в узлах. Каждое ребро соответствует признаку, от которого зависит ответ, находящийся на «листе» — конце ребра, не имеющего продолжения. В узлах находятся вопросы, позволяющие выбрать признак. Чтобы получить решение, например классифицировать объект, надо пройти по ветвям дерева до «листа». Это соответствует ответам на вопросы о наличии или отсутствии у объекта какого-либо признака. Для снимка галактики это могут быть вопросы: «Галактика правильной формы?», «Есть ли признаки перемычки?», «Есть ли признаки спиральных рукавов?», «Велик ли балдж по сравнению со всей галактикой?» и т. п. Результатом станет тип галактики. При решении сложных задач деревья объединяются в лес, для обучения которого разработан популярный метод случайного леса (Random Forests).
Контролируемое обучение, известное также как обучение с учителем, требует большого обучающего набора примеров, используемого для изучения базовых связей (корреляций) между входными признаками и ответом. Его, как правило, создают эксперты, играющие роль учителей, что позволяет совместить опыт специалистов-людей с возможностями компьютера. В задаче классификации галактик создание примера заключается в том, что эксперт, поглядев на изображение галактики, просто делает вывод о её типе, причём объяснять, формализовывать причины, по которым он его сделал, не нужно. Сам процесс обучения выглядит примерно следующим образом. Каждый обучающий пример (снимок и правильный ответ учителя) вводится в программу ИИ, который анализирует изображение и выдаёт свой ответ. Если он не совпадает с правильным, компьютер автоматически подстраивает параметры системы таким образом, чтобы ошибка уменьшилась. Эта процедура повторяется множество раз, пока ИИ не начнёт выдавать правильные ответы почти на все примеры. Обучение позволяет ИИ выявлять скрытые закономерности и давать ответ в отсутствие для него явных формул.

Далее обученный ИИ можно использовать для определения типов галактик на фотографиях, которые не вошли в обучающий набор. Если система и её обучение были сделаны правильно, то ИИ будет верно определять типы подавляющего числа галактик. Определённая небольшая доля ошибок допустима. Впрочем, ошибки случаются и у экспертов. С тем же успехом ИИ может классифицировать звёзды, квазары и другие космические объекты.
Такой ИИ обладает очень важной обобщающей способностью — он в большинстве случаев будет верно определять типы галактик, даже если те не очень похожи на обучающие примеры. Грубо говоря, если вы учили ИИ различать кошку и собаку по множеству разных фотографий, то ИИ, скорее всего, окажется способен понять, кто перед ним, даже если этой породы не было в обучающем наборе. Это позволяет при обучении обойти необходимость перебора всех возможных вариантов. Более того, обобщающая способность приводит к тому, что ИИ способен уловить похожесть, которую может не заметить человек. Однако подобный ИИ не способен распознать новые типы объектов, отсутствующие в обучающих наборах. Обученный на галактиках ИИ не распознает туманность или звезду, а обученный на кошках и собаках отнесёт к ним и крокодила.
Что же делать, если заранее мы не знаем все объекты, с которыми можем иметь дело? Ну, не ожидали мы встретить крокодила! Здесь поможет неконтролируемое обучение (без учителя), алгоритмы которого способны разбить исследуемые объекты на группы-кластеры с различным набором признаков и без подсказки экспертов. Формируемые ИИ значения параметров-координат размещают точку, соответствующую объекту, в определённое место пространства признаков, которое может быть многомерным. Точки похожих объектов окажутся рядом, образуя группу. Такой алгоритм сам будет группировать по отдельности изображения кошек, собак, крокодилов и прочих тварей, выявляя внутреннее сходство. Это позволяет обнаружить ранее неизвестные типы объектов, их закономерности и связи, приводя тем самым к новым открытиям.

Есть ещё обучение с подкреплением, где система получает вознаграждение, если действие было полезно, и штраф, если вредно. Это похоже на обучение с учителем, но здесь нет экспертов, оценивание происходит автоматически в самой среде, где действует ИИ. В результате ИИ учится принимать такие решения, чтобы максимизировать совокупное вознаграждение.
Революция в астрономии
В последние десятилетия происходит настоящая революция в астрономии, связанная с тем, что исследователи уже получили или вот-вот получат в свои руки инструменты, способные добывать огромное количество информации, кардинально превосходящее всё, что было доступно ранее. Астрономия вступила в эпоху больших данных в начале 1990-х годов, когда появились первые цифровые обзоры неба. Потребовалась автоматизация многих задач обработки и анализа данных, например разделения на изображениях звёзд и галактик. Это во многом стимулировало использование в астрономии технологий ИИ.
