Американские разработчики создали метод, позволяющий набирать текст, рисуя его пальцем в воздухе. Они разработали алгоритм, который использует данные со стереокамеры или перчатки с датчиками для отслеживания кончика пальца и распознавания рукописного текста. Метод можно применять для ввода данных при использовании VR-шлема, рассказывают авторы статьи, представленной на конференции CV4ARVR 2020.
Как правило, в VR-шлемах для управления используется контроллер, который пользователь держит в руке или обеих руках. С его помощью он может указывать на интересующие его объекты и взаимодействовать с ними с помощью кнопок. Для большинства взаимодействий такой интерфейс вполне подходит и не вызывает сильного дискомфорта. Но если пользователю нужно ввести текст, к примеру, для поиска нужного ему фильма или ролика, такой способ работает уже гораздо хуже, потому что ему приходится наводить курсор на отдельные буквы и нажимать их.
Ечжоу Ян (Yezhou Yang) и его коллеги из Университета штата Аризона разработали метод непрерывного рукописного ввода для VR-шлемов, который делает набор текста более естественным. Они выбрали два устройства, которые можно использовать для распознавания. Одно из них — это перчатка, у которой на конце указательного пальца установлены акселерометр и гироскоп для отслеживания траектории. Второе устройство — это контроллер Leap Motion, состоящий из двух инфракрасных камер и инфракрасной подсветки. Он самостоятельно распознает текущее положение всех частей кисти и выдает компьютеру готовые данные. В обоих случаях пользователю при вводе слова или комбинации символов надо просто начертить их пальцем в воздухе.
После того, как устройство собрало данные о траектории, алгоритм классификации на основе сверточной нейросети или метода опорных векторов, в зависимости от задачи, сопоставляет введенным пользователем данным данные из датасета. Разработчики проверили работу алгоритмов на нескольких задачах, в том числе распознавании рукописного текста по набору из 210 слов. Для английского языка точность распознавания составила 79,7 процента при использовании инфракрасного контроллера и 78,5 при использовании перчатки. Вместе с этим результаты для китайского языка оказались выше: 87,4 и 83,4 процента, соответственно.
Разработчики опубликовали на GitHub датасеты и код библиотеки для распознавания на Python. Также в статье отмечается, что вместе с кодом должны быть опубликованы и технические подробности работы алгоритмов.
Leave a Reply