В свежем выпуске престижного научного журнала Nature вышла статья ученых Стэнфордского университета с новостью о рекорде — парализованный человек научился набирать со скоростью 90 символов в минуту просто силой мысли, что сравнимо с тем, как это делают здоровые люди. Авторы добились такого результата, объединив две идеи: они применили машинное обучение и предложили испытуемому не выбирать буквы на экране, на чем обычно строится печать через интерфейс мозг-компьютер, а вообразить, будто он пишет их от руки. Мысль кажется настолько простой, что удивительно, как ее не опробовали раньше. Помимо обновления рекорда статья показывает, как важно порой выходить за границы привычного.
Сегодня при необходимости набора текста одной только силой мысли у человека есть две возможности. Можно «двигать» курсор к символу и затем «кликать» на него — так обычно работает инвазивный интерфейс, когда электроды вставлены в мозг. Здесь можно рассчитывать на скорость примерно в 40 символов в минуту.
Второй вариант — использовать обычную электроэнцефалографию (ЭЭГ), которая не требует операции. Человек надевает на голову шапочку с электродами, которые считывают активность мозга, а он в это время смотрит на экран. На экране находится алфавит, каждая буква которого мерцает на собственной частоте. Если смотреть прямо на, скажем, букву «М», то ее мерцание вызовет в зрительных зонах мозга волну активности той же частоты — так называемые вызванные потенциалы. По ЭЭГ компьютер угадает, что человек смотрит именно на эту букву. У такой схемы есть и более хитрые реализации (на потенциалах, связанных с событиями), но принцип их реализации схожий. Здесь лучший результат — 60 символов в минуту.
Оба способа мысленного ввода текста требует концентрации внимания, а мерцание еще и утомляет. А нужно это, в первую очередь, людям, которым и без того очень непросто. Чаще всего это парализованные в результате травм или развития бокового амиотрофического склероза, а также те, кто потерял речь после инсульта. Некоторым из них трудно направлять взгляд.
Вообразить, как пишешь букву, может быть несколько попроще. Авторы статьи в Nature, где описан новый, рекордно быстрый способ общения используя только активность мозга, отмечают, что придуманный ими «виртуальный рукописный интерфейс» даже не требует зрения — им могут пользоваться и те, кто полностью ослеп или слабо видит.
На момент эксперимента пациенту было 65 лет, в статье он обозначен как T5, хотя видео с ним открыто и знакомые могут его легко узнать. В 2007 году он выносил мусор, поскользнулся, упал и в результате получил травму спинного мозга, из-за которой оказался почти полностью обездвижен ниже шеи. Пять лет назад в Стэнфорде ему вживили в головной мозг две матрицы, по 96 электродов каждая (по-видимому, тогда он был одним из участников исследования безопасности этих устройств), а позже пригласили участвовать в столь необычном исследовании.
Сидя в инвалидном кресле, T5 сперва мысленно писал от руки указанные на экране символы (людям с потерей слуха их могут диктовать), тем самым обучая нейросеть, которая получала на вход данные от матриц. Затем T5 уже стал сам придумывать слова, отвечать на вопросы, а нейросеть выводила на экран угадываемые букву за буквой.
Так ученые смогли научить компьютер распознавать образы 31 символа: английский алфавит плюс запятая, апостроф, вопросительный знак, тильда (~) и знак «больше» (>). Скорость набора оказалась более чем в два раза выше, чем у других версий инвазивных интерфейсов — 90 символов в минуту.
Оказалось, что компьютеру легче, когда человек представляет, как пишет буквы, а не мысленно наводит курсор на них
Такие скачки в эффективности случаются редко. Обычно идут мелкие продвижения в алгоритмах или имплантируемой электронике, ведь все работают примерно на одном типе оборудования. В голову T5 имплантирована система BrainGate2, разработанная еще в 2009 году, и ее арсенал — меньше двухсот электродов, часть из которых за прошедшее время наверняка уже «умерли», то есть перестали давать информацию. Такие характеристики явно не впечатляют, если вспомнить о тысяче электродов в чипах Neuralink. И все же прорыв налицо, и случился он потому, что авторы исследования пошли нестандартным путем.
В чем же фокус?
Для обучения компьютера распознанию вводимых символов они выбрали рекуррентную нейронную сеть. Ее можно представить как сеть с памятью: прежде чем дать ответ, она учитывает не только текущие входящие данные, но и свое состояние на предыдущем цикле вычислений. В отличие от «обычных» сетей, которые распознают статичные картинки, рекуррентные лучше справляются с потоком данных, где важно, как эти данные следуют друг за другом во времени. Классический пример такого рода данных — это музыка или текст. В данном случае — письмо от руки, которое есть не что иное, как траектория движения точки во времени.
Ключевой ход ученых из Стэнфорда состоял в том, чтобы, на первый взгляд, самим усложнить себе задачу. Ведь рисовать в уме и распознавать такой почерк кажется гораздо труднее, нежели двигать курсор по экрану по прямой от буквы к букве и считывать эти перемещения. Но оказалось, в реальности все происходит ровно наоборот. Для мозга все прямые похожи друг на друга, а вот затейливые кривые линии, обозначающие тот или иной символ, кривятся очень по-разному. И в результате очень по-разному активируются клетки мозга. Рекуррентная сеть видит эти отличия, и по этим отличиям ей проще угадать, какой символ нарисовал в уме человек.
В конце 2000-х Михаил Лебедев, ныне научный руководитель Центра биоэлектрических интерфейсов Высшей школы экономики, с коллегами показали, что нейросеть может воссоздать почерк, если обучить ее на сигналах от мышц кисти и предплечья. Человек пишет от руки, датчики на коже снимают электрические потенциалы мышц, и по этим данным нейросеть реконструирует любые загогулины, что рисует автор. Об этом тогда писал Scientific American.
Сегодня Лебедев замечает, что для интерфейсов, распознающих почерк, сигналы из мозга надежнее, чем электрические потенциалы мышц, так как последние «более вариабельны и могут генерировать „дикие выбросы“ чисто из-за механики. А корковые нейроны „рисуют“ гораздо лучше, без дикостей». Он считает, что подход авторов из Стэнфорда перспективнее, чем другие в чем-то похожие идеи, когда люди просто воображают буквы или слова, либо мысленно их проговаривают.
К сожалению, это не значит, что уже завтра тысячи парализованных людей смогут воспользоваться интерфейсом и начнут выводить в уме длинные строчки от руки. Может быть, у Т5 на редкость развитое воображение движений. Новую идею надо проверять на других пациентах.
Как сказал Джон Нгай, руководитель американского проекта Национальных институтов здоровья BRAIN Initiative, пока это «отличная демонстрация доказательства принципа». Авторы показали, что метод может оказаться успешным, но дальше, как почти всегда в науке, возникает масса нюансов. Помимо скорости набора, очень важны удобство и безопасность.
Инновационного подхода и нейросетей мало: нужные новые, долгоживущие и безопасные имплантаты. И они уже создаются
Использование инвазивного интерфейса означает проведение хирургической операции: людям вскрывают череп, вставляют электронные матрицы в мозг. На чужеродное тело организм реагирует предсказуемо негативно — атакует его и пытается изолировать от внутренней среды, покрывая оболочкой. Это биологически верная стратегия, выработанная в ходе эволюции, которая в данном случае приводит к тому, что прохождение сигнала к электродам ослабляется и в какой-то момент блокируется совсем.
Современная электроника вообще не рассчитана на долгую жизнь внутри мозга человека — для этого нужны новые материалы, которые будут одновременно хорошо проводить электричество, но при этом станут больше напоминать тонкие и гибкие нервные волокна, а не металлическую проволоку. Отдельную проблему представляет кабель, которым все эти электроды соединяются с внешней средой. От него желательно избавиться вовсе — старые системы, такие как у Т5, выглядят громоздко, пользоваться ими можно только в лаборатории.
Заметные шаги в сторону решения всех этих вопросов были сделаны уже в этом, 2021 году. В апреле мы увидели, как обезьяна с чипом от Neuralink управляла курсором силой мысли, и при этом у нее из головы ничего не торчало. Аналогичный беспроводной инвазивный интерфейс, но уже на людях, недавно испытала команда исследователей из Университета Брауна и Стэнфорда — к слову, тех же авторов, что работали с Т5. Пока изящества системы Neuralink им достичь не удалось: на голове все еще закреплены устройства. Но кабеля в этой системе уже нет, и два пациента, участвовавшие в работе, использовали интерфейс авторов у себя дома, а не в лаборатории.
Но даже если вынести за скобки технические барьеры — рано или поздно они будут преодолены, — остаются концептуальные вопросы. Например, как этот подход может работать с другими алфавитами. В английском языке буквы r, v and u на письме похожи, и у нейросети возникали трудности с их различением. Справится ли такая сеть, скажем, с китайскими иероглифами? Одна из авторов новостной заметки в Nature подмечает, что в тамильском языке есть 247 очень близких по написанию символов, и для сети это вызов.
Решение может быть в создании отдельного языка символов для такого рода интерфейсов, следуя той же логике, в русле которой когда-то возникли языки жестов или стенография. То есть внедрение нейросетей повлияет на то, как люди будут общаться с техникой на языке активности мозга. Ведь если вы захотите, чтобы машина вас поняла, придется находить с ней общий язык