Всем привет! Решил завести новое хобби. Анализировать и визуализировать все, что меня заинтересует – от всякой ерунды до более-менее серьезных вещей. Надеюсь это делать с какой-то периодичностью, но пока не знаю, как пойдет. Первое, чем хотелось бы с вами поделиться, – это небольшая визуализация текстов Кровостока.
Введение
Кровосток – культовая группа нулевых, которая для большинства не нуждается в представлении. Не то чтобы я большой их фанат, но такие вещи как Куртец и Биография действительно цепляют. Давно хотел провести небольшой анализ их творчества и визуально его представить.
Начнем с того, что у них есть 5 студийных альбомов: Река Крови (2004), Сквозное (2006), Гантеля (2008), Студень (2012) и Ломбард (2015). Для анализа я буду использовать только их без всяких синглов. На какие вопросы я хочу получить ответы:
1. Какие слова чаще встречаются в лирике Кровостока?
2. Каков общий процент мата по всем альбомам?
3. Какая динамика у доли мата в текстах по годам?
Облако слов
Всего в пяти альбомах представлено 10911 слов, если исключить частицы, предлоги, союзы и местоимения (которые в данном анализе я считаю мусором). Из них 426, а именно 3.9 % – это мат, то есть слова, у которых один из четырех знакомых нам корней. Какие же слова являются самыми популярными? Давайте взглянем.
Сразу дам систему обозначений, которую я использовал для заваулирования мата (как же я, простите, ******** [устал] отлавливать эти слова, хочется сказать – ребята, давайте жить нецензурно):
* HHH – мужской половой орган,
* BBBTB – выражение раздражения, удивления
* BBB – краткая форма выражения раздражения, удивления
* PPPPPPP – нечто непонятное, ненужное или нежелательное
* PPPPPP – оценка чего-либо как очень плохого, тяжёлого, непреодолимого
* PPPPP – женский половой орган
* ZZZZZ – проблемы, сложности
* EEEEE – инициативно совершать половой акт
* ZZZZZZZ – очень хорошо, прекрасно, великолепно
Можете в комментариях писать, правильно ли опознали все слова.
Как можно видеть, пять самых популярных слов – это HHH, можно, сдохнуть, есть и жизнь (я немного поленился приводить все существительные к именительному падежу, кроме слова HHH, и глаголы в совершенную форму, так что некоторые слова могли набрать больше баллов), однако больше интереса вызовет изучение всей картины из слов. В облаке проглядывает романтика 90-х, темы секса и наркотиков, некая беспросветность жизни и описание чувств лирического героя. В принципе, я думаю этого словарного запаса хватит, чтобы написать одну из книг про криминал и Россию, которые можно купить в ларьках на станциях электричек.
Динамика мата по годам
Теперь давайте взглянем на то, как менялась доля мата в текстах Кровостока из альбома в альбом. Интерактивный график можно пощупать здесь, а статическую картинку прилагаю ниже:
Как можно видеть, количество слов из альбома в альбом было примерно одинаковым, разве что на фоне выделяется Сквозное. В последних альбомах доля мата заметно выросла и составляет около 5 процентов, в то время как в первых альбомах она держалась на уровне около 3 процентов. Говорит ли это о том, что словарный запас цензурных слов Кровостока стал иссякать? Ну *** знает, можем в комментариях обсудить, если кому интересно поделиться будет мнением.
На этом я заканчиваю свой пост. Если у кого-то возник вопрос, а зачем вообще эта статья? Просто хочу немного поучаствовать в создании несерьезной аналитики. Почему она вообще должна быть серьезной? В общем, законом не запрещено, как говорится.
P.S. Если есть идеи по анализу и визуализации чего-нибудь интересного, то я не прочь вписаться.
Куда делись эти подписи?
Роман Соловьев
Твитнуть
Поделиться
Поделиться
Нашли опечатку? Выделите фрагмент и отправьте нажатием Ctrl+Enter.