С увеличением времени, которое люди проводят в интернете, роль интернет-культуры неизменно растет. Одним из отличительный ее элементов стали интернет-мемы. Несмотря на их развлекательную природу, мемы как бурно развивающиеся динамические системы представляют большой интерес для целого ряда наук, начиная от физики сложных систем и заканчивая культурологией.
Научное сообщество на сегодня накопило достаточно большой пласт исследований мемов, как в контексте их различной формы (тексты, изображения, видео), так и в контексте их ранжирования и распространения. Все это способствовало накоплению большого инструментария для изучения мемов, однако фундаментальным аспектам их эволюции пока уделено мало внимания. Такое исследование, в частности, могло бы подтвердить или опровергнуть гипотезу о том, что интернет-мемы составляют метаязык Интернета.
Группа итальянских математиков под руководством Карло Валенсиза (Carlo Valensise) применила методы машинного обучения и кластерного анализа для характеризации большого числа мемов в контексте эволюционной модели их динамики. В качестве объекта исследования ученые выбрали более двух миллионов визуальных мемов, опубликованных на Reddit c 2011 по 2020 год. Помимо чисто динамических характеристик они оценили также их энтропию и сложность.
Эволюционный подход опирается на концепцию, развитую Докинзом, который называл мемом единицу культурной информации. И хотя докинзовская модель культурной эволюции в целом не признана научным сообществом удовлетворительной, отдельные ее элементы до сих пор остаются надежной основой для описания распространения мемов. В частности, математики обратились к трем основными элементам эволюционной теории: репликации, вариации и отбору.
Для визуальных интернет-мемов все три элемента достаточно очевидны. В них, как правило, есть общий шаблон, который пользователи регулярно используют в качестве средства выражения. Эти шаблоны регулярно модифицируются с помощью текста, коллажа или иных визуальных изменений согласно контексту коммуникации. Наконец, мемы конкурируют друг с другом за внимание пользователей, что приводит к тому, что одни мемы быстро забываются, в то время как другие используются очень долго.
Чтобы исследовать эти механизмы количественно, математики применили к двухмиллионному датасету с визуальными мемами алгоритм неконтролируемой кластеризации, разделенный на два этапа. На первом этапе изображения делились на четыре больших группы (два набора с животными, один с людьми и все остальное) с помощью алгоритма SCAN (Semantic Clustering by Adopting Nearest neighbors), основанного на глубоком обучении. В его рамках каждое изображение параметризовалось вектором, чья длина определяется тем, сколько семантически осмысленной информации векторное пространство может вместить. Нейронная сеть обучалась с помощью минимизации функции потерь между вектором исходного и вектором искаженного (повернутого, скошенного и так далее) изображений, после чего производилась грубая кластеризация с размерностью вектора, равной 2048.
На втором этапе авторы использовали алгоритм HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise), который работал с меньшей размерностью вектора (20 против 2048), но продуцировал большее количество кластеров. Сама кластеризация проводилась путем сравнения вектора от изображения с векторами его ближайших соседей.
В результате математики сгруппировали мемы в кластеры согласно шаблонам, на основе которых пользователи делали их вариации. Другими словами, все изображения в пределах одного кластера были похожи на исходный шаблон. Таким образом, ученые смогли следить за тем, как рождаются новые шаблоны, и как рождаются новые мемы в пределах каждого кластера. Так, они увидели, что число новых шаблонов растет со временем по экспоненциальному закону. Аппроксимация показала, что оно удваивается каждые шесть месяцев.
Математики также проанализировали скорость мутации мемов, выраженную через то, как часто и как долго пользователи продолжают создавать новые мемы на основе того или иного шаблона. Оказалось, что динамика вариативности существенно коррелирует с размером кластера (популярностью шаблона). Так, время жизни того или иного шаблона в целом коррелирует с его популярностью. С ней же связана скорость придумывания новых мемов: в очень малых кластерах разница между придумыванием новых мемов может достигать сотни месяцев, в то время как в очень больших оно редко превышает три-четыре месяца.
Наконец, следуя методологии своих коллег, изучавших живопись, авторы сопоставляли каждому мему перестановочную энтропию и статистическую сложность. Перестановочная энтропия измеряет степень беспорядка в расположении пикселей. Высокие значения указывают на высокую случайность пикселей, а низкие значения соответствуют более регулярным шаблонам. Статистическая сложность же оценивается исходя их структурной нагруженности изображения. Нетривиальные пространственные паттерны дают в нее большой вклад, в то время как сильно упорядоченные или хаотичные паттерны соответствуют низким вкладам.
В результате математики выяснили, что для всех рассмотренных сообществ на Reddit, в которых пользователи продолжают публиковать мемы, их среднегодовая сложность неизменно растет. Авторы считают, что этот процесс отражает формирование интернет-мемов как метаязыка. Примечательно, что такие же тенденции были обнаружены и в живописи. Вместе с тем, усложнение неизбежно связано с формированием диалектов этого языка, понятных только внутри отдельных сообществ. Иными словами, мем, созданный внутри какой-то специфичной группы людей, например, геймеров, будет непонятным во всем остальном интернете.