Рейтинг часто используемых слов в песнях и доля нецензурной лексики.
Всем привет! Решил завести новое хобби. Анализировать и визуализировать всё, что меня заинтересует – от всякой ерунды до более-менее серьёзных вещей. Надеюсь это делать с какой-то периодичностью, но пока не знаю, как пойдёт. Первое, чем хотелось бы с вами поделиться, — это небольшая визуализация текстов Кровостока.
«Кровосток» — культовая группа нулевых, которая для большинства не нуждается в представлении. Не то, чтобы я большой их фанат, но такие вещи как «Куртец» и «Биография», действительно цепляют. Давно хотел провести небольшой анализ их творчества и визуально его представить.
Начнём с того, что у них есть 5 студийных альбомов: «Река Крови» (2004), «Сквозное» (2006), «Гантеля» (2008), «Студень» (2012) и «Ломбард» (2015). Для анализа я буду использовать только их без всяких синглов. На какие вопросы я хочу получить ответы;
1. Какие слова чаще встречаются в лирике Кровостока?
2. Каков общий процент мата по всем альбомам?
3. Какая динамика у доли мата в текстах по годам?
Облако слов
Всего в пяти альбомах представлено 10911 слов, если исключить частицы, предлоги, союзы и местоимения (которые в данном анализе я считаю мусором). Из них 426, а именно 3,9 % – это мат, то есть слова, у которых один из четырех знакомых нам корней. Какие же слова являются самыми популярными? Давайте взглянем.
Сразу дам систему обозначений, которую я использовал для завуалирования мата (как же я, простите, ******** [устал] отлавливать эти слова, хочется сказать – ребята, давайте жить нецензурно):
HHH – мужской половой орган.
BBBTB – выражение раздражения, удивления.
BBB – краткая форма выражения раздражения, удивления.
PPPPPPP – нечто непонятное, ненужное или нежелательное.
PPPPPP – оценка чего-либо как очень плохого, тяжёлого, непреодолимого.
PPPPP – женский половой орган.
ZZZZZ – проблемы, сложности.
EEEEE – инициативно совершать половой акт.
ZZZZZZZ – очень хорошо, прекрасно, великолепно.
Можете в комментариях писать, правильно ли опознали все слова.
Как можно увидеть, пять самых популярных слов – это «HHH», «можно», «сдохнуть», «есть» и «жизнь». Я немного поленился приводить все существительные к именительному падежу, кроме слова «HHH», и глаголы в совершенную форму, так что некоторые слова могли набрать больше баллов.
Больший интерес вызовет изучение всей картины из слов. В облаке проглядывает романтика 90-х, темы секса и наркотиков, некая беспросветность жизни и описание чувств лирического героя. В принципе, я думаю, этого словарного запаса хватит, чтобы написать одну из книг про криминал и Россию, которые можно купить в ларьках на станциях электричек.
Динамика мата по годам
Теперь давайте взглянем на то, как менялась доля мата в текстах Кровостока из альбома в альбом. Интерактивный график можно пощупать здесь, а статическую картинку прилагаю ниже.
Количество слов из альбома в альбом было примерно одинаковым, разве что на фоне выделяется «Сквозное». На первых пластинках доля мата держалась на уровне около 3%, а на последних выросла до 5%. Говорит ли это о том, что словарный запас цензурных слов «Кровостока» стал иссякать? Ну *** знает, можем в комментариях обсудить, если кому интересно поделиться будет мнением.
На этом я заканчиваю свой пост. Вероятно, у кого-то возник вопрос, зачем вообще эта статья? Просто хочу немного поучаствовать в создании несерьёзной аналитики. Почему она вообще должна быть серьёзной? В общем, законом не запрещено, как говорится.
P.S. Если есть идеи по анализу и визуализации чего-нибудь интересного, то я не прочь вписаться.
Куда делись эти подписи?
Роман Соловьев
Твитнуть
Поделиться
Поделиться
Нашли опечатку? Выделите фрагмент и отправьте нажатием Ctrl+Enter.