Искусственный интеллект вычислил алкоголиков по постам в социальных сетях

Американские исследователи создали систему искусственного интеллекта, которая по постам и лайкам пользователей в Facebook определяет, страдают ли они табачной, алкогольной или наркотической зависимостью.



Максимальная точность программы достигает 86 процентов. Работа ученых опубликована на сервере препринтов ArXiv.org.



По статистике, каждый десятый американец от 12 лет и старше страдает от той или иной формы зависимости (substance use disorder, SUD). В России примерно 8,5 миллиона человек злоупотребляют наркотиками и психотропными препаратами, а более 20 миллионов россиян зависят от алкоголя. При этом ученые в последнее время находят взаимосвязь между чертами личности и склонностью к употреблению разных веществ. Так, регулярно курящие табак люди значительно более открыты к опыту, но менее добросовестны, чем некурящие (здесь под добросовестностью подразумевается самодисциплина, исполнение обязанностей и стремление к достижению цели). Употребление алкоголя, в свою очередь, положительно коррелирует с социальностью и экстравертностью.

Так как люди, используя социальные сети, сообщают в интернете много информации о своих интересах и чертах личности, авторы новой работы предположили, что посты и лайки также могут указывать на вредные привычки пользователей. Исследователи применили алгоритм машинного обучения, натренированный с помощью трех баз данных, которые были собраны в период с 2007 по 2012 год приложением для психологических тестов myPersonality. Первая содержала 21 миллион записей 100 тысяч пользователей Facebook; вторая — 5 миллионов лайков 250 тысяч пользователей; в третьей хранилась информация о наличии зависимостей у 13,5 тысячи пользователей. Для обучения эти наборы данных комбинировались различным образом.

После тренировки система научилась распознавать наличие вредных привычек у человека. Вероятность курения табака определяется с максимальной точностью 86 процентов, вероятность употребления наркотиков — 84 процента, вероятность употребления алкоголя — 81 процент.

При этом ученые нашли корреляции между содержанием постов, интересами пользователей и разного рода зависимостями. Например, алгоритм вычислил, что любители спиртного и сигарет чаще используют слова, связанные с движением — «машина» или «идти». Слова, имеющие отношение к злости («ненависть», «убивать») и здоровью («клиника», «таблетки»), положительно связаны с употреблением наркотиков. Кроме того, выяснилось, что пьющие алкоголь люди любят фильм «V — значит вендетта», а наркоманы слушают Radiohead, The Cure и Depeche Mode.



Тем не менее, стоит отметить, что положительная корреляция в данном случае не указывает на причинно-следственную связь. Более того, пересекающийся набор данных был намного меньше объема каждой из трех баз данных по отдельности — он содержал информацию всего о 3508 пользователях. Для того чтобы повысить точность результатов, нужен гораздо больший объем информации.