Неделю назад Kat Vanceпроанализировал все комментарии пользователей TJ за 5 лет. С помощью этих данных я создал индекс вежливости пользователей на основе написанных вами комментариев.
(интерактивная версия, работает приближение и клик, показаны 4445 пользователей, написавших не менее 10 комментариев, по оси x средняя вежливость комментариев пользователя, по оси у — количество написанных им комментариев, цвет означает среднюю оценку комментариев)
Самые грубые и вежливые пользователи
Лидерами по грубости оказались:
1. Qpwoeiruty Alskdjfhgmzxncbv (вежливость: 0.994, ср. оценка комментариев: -16.846)
2. Gleb Chernobay (вежливость: 1.013, ср. оценка комментариев: -2.273)
3. Крэйтор (вежливость: 1.013, ср. оценка комментариев: 0.200)
4. Djack Warflow (вежливость: 1.018, ср. оценка комментариев: 0.000)
5. Артем Федоров (вежливость: 1.020, ср. оценка комментариев: -12.524)
Самыми же вежливыми стали:
1. Евгений Зелёный (вежливость: 1.245, ср. оценка комментариев: 13.600)
2. Дискорд (вежливость: 1.222, ср. оценка комментариев: -6.700)
3. Дмитрий Рылов (вежливость: 1.221, ср. оценка комментариев: 0.133)
4. Max Zacepin (вежливость: 1.212, ср. оценка комментариев: 0.500)
5. Алексей Гончаров (вежливость: 1.203, ср. оценка комментариев: 3.154)
Оценки не взвешены по количеству комментариев. Если вы оставили больше 10 комментариев, вы можете прочитать топ-5 ваших самых грубых комментариев по ссылке, которую я оставлю в комментариях к этой записи, чтобы не подводить редакцию TJ под регулирование Роскомнадзора.
Как это сделано
Конечно, все написанные выше слова «вежливый» и «грубый» следует заключить в кавычки. Этот эксперимент не претендует на моральную или иную оценку. Иронично, что самыми вежливыми признаны спамеры, боты и участники этой акции, которые не оставили больше никаких комментариев. Как писал Томас Элиот:
Endless invention, endless experiment,
T. S. Eliot, The Rock, 1934
Brings knowledge of motion, but not of stillness;
Knowledge of speech, but not of silence;
Knowledge of words, and ignorance of The Word.
Каждый ваш комментарий я разбил на слова, каждое из которых превратил в вектор размерностью 500 чисел из word2vecмодели, натренированной Arefyev et al. (2015) на 150ГБ русской литературы — 170МБ+ ваших комментариев оказалось недостаточно для тренировки.
Согласно дистрибутивной гипотезе, такие вектора содержат информацию о значении слов. Потом я усреднил вектора слов для каждого комментария и получил его 500-размерный семантический слепок. Далее я избрал этот комментарий (NSFW) как референтно грубый. Осталось вычислить L2-Евклидово расстояние от вектора каждого комментария до вектора указанного референтно грубого комментария. Это дало меру «вежливости» комментария — как далеко он находится от избранного грубого с точки зрения их семантических векторов. Потом я усреднил такую дистанцию-«вежливость» по пользователям и отобразил ее на графике.
Конечно, описанный подход не без недостатков: мы точно можем выявить крайне грубые комментарии, а вот с градациями грубости сложнее. Проблемы могли возникнуть на этапе усреднения, выбора референтного комментария, выбора меры расстояния. Научить машину понимать смысл текста — задача, требующая не только большого количества тренировочных данных, но и архитектурной магии.
Твитнуть
Поделиться
Поделиться
Нашли опечатку? Выделите фрагмент и отправьте нажатием Ctrl+Enter.