Реконструкция изображений с высоким разрешением из их низкоразрешенных версий – это сложная задача, и именно этой проблеме посвящена технология SRGAN (Super-Resolution Generative Adversarial Network). Когда дело касается увеличения разрешения, более глубокие и быстрые сверточные нейронные сети применяются с невероятной точностью. Однако возникает сложность – восстановление мелких текстурных деталей при больших коэффициентах масштабирования. Прошлые работы, направленные на минимизацию ошибок при восстановлении изображений, имели ограничения в точности и детализации.
SRGAN, представляющая собой GAN (генеративно-состязательную сеть), разработана для повышения разрешения изображений. Этот метод, первый из своего рода, способен восстанавливать исходные текстуры изображений, уменьшенных в четыре раза. Благодаря SRGAN, наблюдается значительное улучшение качества средней экспертной оценки (MOS), и результаты почти неотличимы от оригинальных изображений с высоким разрешением. SRGAN достигает высокой точности и скорости реконструкции, и вы сами можете убедиться в его эффективности, обучив нейросеть или воспользовавшись готовой моделью.
Статья подробно описывает архитектуру ResNet, которая использует принципы GAN для фотореалистичного повышения разрешения изображений. Среди ключевых особенностей: возможность работы с высокими коэффициентами масштабирования, использование функции потерь восприятия, рассчитанной на базе признаков VGG сети, и высокие результаты оценки MOS на общедоступных наборах данных. SRGAN предоставляет мощный инструмент для создания качественных изображений с повышенным разрешением, сохраняя при этом детализацию и реалистичность.
Цель метода Super-Resolution (SISR) заключается в восстановлении изображения с высоким разрешением (HR) из его низкоразрешенной версии (LR), которая является уменьшенным вариантом исходного снимка. Изображения HR доступны только во время обучения, в то время как LR создаются путем применения фильтра Гаусса с последующим понижением дискретизации. Мы обучаем генеративную сеть (GAN) в качестве сверточной нейронной сети (CNN) с функцией потерь восприятия, специфичной для SISR.
Функция потерь восприятия состоит из нескольких компонентов, которые моделируют различные желаемые характеристики восстановленного SR-изображения. Мы также определяем дискриминаторную сеть (дискриминатор) и оптимизируем ее вместе с генеративной сетью, используя подход min-max. Генеративная модель "обманывает" дискриминатор, который обучен отличать реальные HR-изображения от сгенерированных. Это позволяет генератору создавать очень реалистичные изображения, которые трудно классифицировать дискриминатору.
Генеративная сеть содержит остаточные блоки с двумя сверточными слоями 3x3 и 64 картами признаков. Входное изображение увеличивается пиксельно через сверточные слои. Дискриминаторная сеть включает 8 сверточных слоев с возрастающим числом ядер фильтра 3x3 (от 64 до 512) и использует пошаговые свертки для уменьшения разрешения изображения. Результаты показывают, что SRGAN достигает высокой точности и качества восприятия, что делает его мощным инструментом для создания качественных изображений с повышенным разрешением.
Функция потерь восприятия играет важную роль в эффективной работе генеративной сети. В данной работе используется улучшенная версия функции потерь, которая учитывает значимые характеристики восприятия, включая потери содержания и состязательные потери.
Потери содержания вычисляются на основе слоев активации ReLU предварительно обученной VGG сети. Это евклидовое расстояние между признаками восстановленного и исходного HR-изображений. Это позволяет сети обращать внимание на содержание изображения и восстанавливать важные детали.
Состязательные потери заставляют генеративную сеть "обманывать" дискриминатор, обученный различать настоящие HR-изображения от сгенерированных. Они используют вероятность того, что восстановленное изображение является исходным HR-изображением. Это стимулирует генератор создавать более реалистичные и естественные изображения.
Для оценки качества работы различных подходов использовался тест MOS (Mean Opinion Score), где оценщики присуждали баллы восстановленным SR-изображениям от 1 (плохое качество) до 5 (отличное качество). SRGAN показал значительное превосходство по сравнению с другими методами, демонстрируя возможность создания фотореалистичных SR-изображений.
Эксперименты проводились на различных наборах данных с разрешением 4x между LR и HR-изображениями. Обучение проходило на графическом процессоре с использованием оптимизации алгоритма Adam. Результаты показали высокую надежность и превосходство SRGAN в качестве восстановления изображений.
Таким образом, SRGAN является мощным инструментом для создания качественных изображений с повышенным разрешением, превосходящим существующие методы. Он открывает новые возможности в области восстановления фотореалистичных SR-изображений.