Блог / Статьи

Полезная информация для вашего хостинга

Нейросеть помогает незрячим людям познавать окружающий мир

Тема статьи об использовании нейросетей для помощи незрячим людям в ориентировании в современном мире. Голосовые ассистенты, такие как Siri и Alexa, уже проявили свою способность помогать в различных задачах, однако сейчас они могут стать еще более полезными для людей с ограниченными возможностями.

Специальные вопросно-ответные системы, такие как Visual Question Answering (VQA), позволяют незрячим людям задавать вопросы о заданном изображении и получать ответы на естественном языке. Для обучения нейросетей, необходимо собрать достаточное количество данных, и именно в этом направлении проводятся исследования.

Разработан новый набор данных VizWiz, который включает более 31000 визуальных вопросов, заданных незрячими людьми, а также содержит 10 краудсорсинговых ответов на каждый из них. Это позволило создать более эффективные алгоритмы, которые способны помочь незрячим людям в повседневной жизни. Например, уже существуют решения, позволяющие с помощью камеры телефона определять объекты, а также поддерживать связь с друзьями в социальных сетях.

09

Однако, чтобы улучшить системы VQA, необходимо решить ряд проблем. Вопросы незрячих людей часто остаются без ответа из-за качества фотографий, низкого освещения или просто из-за того, что невозможно определить объект на снимке. Впрочем, благодаря исследованиям и применению механизма внимания (QTA), удалось значительно улучшить системы VQA.

Исследователи из Amazon разработали новую нейросеть, которая способна определять тип вопроса независимо от соответствия изображения. Это позволяет модели более точно и эффективно предсказывать ответы. Была создана многозадачная модель, способная работать с VQA и прогнозировать типы вопросов. Такой подход может стать значимым шагом в развитии систем, которые помогают незрячим людям получать необходимую информацию из окружающего мира.

Эксперименты, проведенные учеными из Amazon, основывались на использовании набора данных TDIUC (Task Directed Image Understanding Challenge). Этот набор данных содержит более 1.6 миллиона визуальных вопросов различных типов, включая датасеты VQA v1, Visual Genome, а также фотографии с вопросами без ответа. Модели QTA (Question Type-guided Attention) были протестированы для сравнения результатов.

Для экспериментов использовались две модели QTA: MLP (CATL-QTA) и MCB (MCB-QTA), применяющие многослойные перцептроны и концепцию Multimodal Compact Bilinear Pooling соответственно. Авторы также обучили две архитектуры, которые анализируют только тип вопроса без весов внимания: CAT-QT (с применением Word2Vec) и CATL-QT (с использованием LSTM).

Результаты показали, что механизм внимания действительно повышает точность моделей QTA на 3-5% по сравнению с моделями, которые не используют внимание. Лучшей точностью обладает архитектура CATL-QTAw, которая объединяет взвешенные признаки изображения с выходными признаками LSTM и Word2Vec.

Многозадачная модель CATL-QTA-M также достигла высокой точности в определении типа вопроса, однако она немного уступает CATL-QTAw. В среднем распознавание типа вопроса достигает около 95% точности для 12 различных типов.

Эти результаты демонстрируют значимый прогресс в области разработки систем VQA и подтверждают эффективность механизма внимания для повышения точности ответов на вопросы по заданным изображениям.