Болезнь Альцгеймера является серьезным нейродегенеративным заболеванием, которое влияет на память, когнитивные способности и поведение пациента. Ежегодно огромные суммы денег тратятся на лечение этой болезни, и раннее выявление является ключевым для повышения эффективности терапии.
Исследователи разработали метод, использующий машинное обучение, чтобы выявлять БА через анализ речи пациента. Основная задача метода - выделить особые признаки, которые могут указывать на присутствие болезни в речи. Для этого используется гибридная модель LDA (Латентное размещение Дирихле) и word2vec (программный инструмент для семантического анализа слов).
Модель LDA используется для обнаружения скрытых тематик в текстах и выявления статистических зависимостей в данных. Это позволяет выделить особенности в речи, которые могут быть связаны с болезнью. Затем полученные данные интегрируются в модель word2vec, которая работает на основе векторного представления слов и дистрибутивной семантики.
Такой подход позволяет эффективно выявлять отличительные признаки речи у пациентов с БА и повышать точность диагностики. Модели обучаются на стандартных датасетах и затем применяются для классификации медицинских данных.
Однако, у данной модели есть ограничения, такие как невозможность работы с капчами переменного количества символов. Авторы отмечают, что их метод можно применять и для других задач классификации текста, что делает его перспективным решением не только для диагностики Альцгеймера, но и для других медицинских областей.
Наборы данных "Долговременное исследование Висконсина" и "DementiaBank" используются для обучения моделей тематизации и word2vec с целью выявления болезни Альцгеймера по речи пациентов. Долговременное исследование Висконсина содержит аудиовыдержки и текстовые данные, описывающие картину "Кража печенья" у пациентов с болезнью Альцгеймера и здоровых участников. DementiaBank включает голосовые записи и транскрипты людей с деменцией и без когнитивных нарушений. Оба набора данных используются для обучения и генерации векторов признаков, которые далее применяются для выполнения двоичной классификации группы Альцгеймера и контрольной группы. Перед обучением моделей выполняется предварительная обработка текста, включающая фильтрацию стоп-слов и удаление определенных признаков.
В исследовании используются два набора данных: "Долговременное исследование Висконсина" и "DementiaBank". Чтобы исследовать распределение тем в документе, обучается модель LDA, а число тем выбирается опытным путем и варьируется от 5 до 25.
Для повышения эффективности сети word2vec она предварительно обучается на наборе данных Google News, содержащем вложения для трёх миллионов уникальных слов. Затем извлекается миллион наиболее часто употребляемых слов. Неизвестные слова заменяются на маркер [UNK].
Для определения, сколько раз слово встречается в документе, используется числовая статистика TF-IDF. Каждый транскрипт из обучающей выборки преобразуется в векторное представление TF-IDF.
Для создания гибридных моделей LDA и word2vec, объединяются вероятности LDA с усреднёнными представлениями word2vec. Представление каждого документа имеет размер, равный сумме размера word2vec и количества тем.
В предлагаемых моделях используются тематические векторы и тематические вложения. Тематический вектор представляет собой взвешенную комбинацию векторов word2vec для всех слов в словаре, что позволяет представить документ в виде линейной комбинации тем. Тематические вложения используют распределение вероятностей, полученное после обучения LDA, для создания тематического представления для каждого слова в словаре. Эти представления обучаются с помощью алгоритма skip-gram. Полученные представления используются для получения представления документа.
Эксперименты показывают, что предложенные модели могут повысить эффективность классификации и помочь в выявлении болезни Альцгеймера по речи пациентов.
В исследовании представлен окончательный метод, включающий введение тем в набор документов. Каждая тема представлена номером темы, и для каждого слова производится нормализация вероятности замены его на строку темы. Если вероятность превышает 0.5 и значение распределения вероятностей больше 0.2, слово заменяется строкой темы, иначе - меткой [UNK].
Для классификации используется SVM-классификатор с линейным ядром и допуском 10^-5.
Полученные результаты показывают, что модель тематических вложений превосходит другие модели. Модель с введенными темами оказывается наиболее эффективной, достигая точности 77.5%. Использование PCA в большинстве случаев ухудшает классификацию, за исключением модели тематических вложений для 5 тем, где точность увеличивается до 77.1%.
Визуализация модели показывает распределение слов и тем в пространстве, что помогает понять и анализировать результаты исследования.
В заключении исследования отмечается, что хотя распределения тем в модели LDA могут быть незаметными, они всё равно содержат тонкие различия между пациентами с болезнью Альцгеймера и здоровыми людьми. Эти различия могут быть упущены обычной моделью word2vec. Однако, простое объединение этих распределений с соответствующим документом позволяет повысить точность на 2.72%.
Таким образом, представленный метод может стать отправной точкой для решения проблем классификации медицинских данных, особенно в случаях, когда данные бывают неполными или содержат сложные паттерны. Это имеет особое значение для обнаружения и диагностики болезни Альцгеймера, которая является нейродегенеративным заболеванием и требует более тонкого анализа данных для своевременной и точной диагностики.
Дальнейшие исследования и развитие предложенного метода могут привести к улучшению классификации и распознавания различных заболеваний по речи, что может значительно улучшить процессы медицинской диагностики и лечения. Кроме того, представленные визуализации помогают лучше понять и интерпретировать результаты модели и могут служить ценным инструментом для дополнительного анализа и исследования.