Вежливость пользователей TJ Главные Новости

Вежливость пользователей TJ

вторник, 9 мая 2017 г.

Неделю назад Kat Vance проанализировал все комментарии пользователей TJ за 5 лет. С помощью этих данных я создал индекс вежливости пользователей на основе написанных вами комментариев.

(интерактивная версия, работает приближение и клик, показаны 4445 пользователей, написавших не менее 10 комментариев, по оси x средняя вежливость комментариев пользователя, по оси у — количество написанных им комментариев, цвет означает среднюю оценку комментариев)

Самые грубые и вежливые пользователи

Лидерами по грубости оказались:

1. Qpwoeiruty Alskdjfhgmzxncbv (вежливость: 0.994, ср. оценка комментариев: -16.846)
2. Gleb Chernobay (вежливость: 1.013, ср. оценка комментариев: -2.273)
3. Крэйтор (вежливость: 1.013, ср. оценка комментариев: 0.200)
4. Djack Warflow (вежливость: 1.018, ср. оценка комментариев: 0.000)
5. Артем Федоров (вежливость: 1.020, ср. оценка комментариев: -12.524)

Самыми же вежливыми стали:
1. Евгений Зелёный (вежливость: 1.245, ср. оценка комментариев: 13.600)
2. Дискорд (вежливость: 1.222, ср. оценка комментариев: -6.700)
3. Дмитрий Рылов (вежливость: 1.221, ср. оценка комментариев: 0.133)
4. Max Zacepin (вежливость: 1.212, ср. оценка комментариев: 0.500)
5. Алексей Гончаров (вежливость: 1.203, ср. оценка комментариев: 3.154)

Оценки не взвешены по количеству комментариев. Если вы оставили больше 10 комментариев, вы можете прочитать топ-5 ваших самых грубых комментариев по ссылке, которую я оставлю в комментариях к этой записи, чтобы не подводить редакцию TJ под регулирование Роскомнадзора.

Как это сделано

Конечно, все написанные выше слова «вежливый» и «грубый» следует заключить в кавычки. Этот эксперимент не претендует на моральную или иную оценку. Иронично, что самыми вежливыми признаны спамеры, боты и участники этой акции, которые не оставили больше никаких комментариев. Как писал Томас Элиот:

Endless invention, endless experiment,
Brings knowledge of motion, but not of stillness;
Knowledge of speech, but not of silence;
Knowledge of words, and ignorance of The Word.
T. S. Eliot, The Rock, 1934

Каждый ваш комментарий я разбил на слова, каждое из которых превратил в вектор размерностью 500 чисел из word2vecмодели, натренированной Arefyev et al. (2015) на 150ГБ русской литературы — 170МБ+ ваших комментариев оказалось недостаточно для тренировки.

Согласно дистрибутивной гипотезе, такие вектора содержат информацию о значении слов. Потом я усреднил вектора слов для каждого комментария и получил его 500-размерный семантический слепок. Далее я избрал этот комментарий (NSFW) как референтно грубый. Осталось вычислить L2-Евклидово расстояние от вектора каждого комментария до вектора указанного референтно грубого комментария. Это дало меру «вежливости» комментария — как далеко он находится от избранного грубого с точки зрения их семантических векторов. Потом я усреднил такую дистанцию-«вежливость» по пользователям и отобразил ее на графике.

Конечно, описанный подход не без недостатков: мы точно можем выявить крайне грубые комментарии, а вот с градациями грубости сложнее. Проблемы могли возникнуть на этапе усреднения, выбора референтного комментария, выбора меры расстояния. Научить машину понимать смысл текста — задача, требующая не только большого количества тренировочных данных, но и архитектурной магии.

Твитнуть

Нашли опечатку? Выделите фрагмент и отправьте нажатием Ctrl+Enter.

Let's block ads! (Why?)