***, мы умели отдохнуть красиво, или анализ и визуализация текстов Кровостока

воскресенье, 5 марта 2017 г.

Всем привет! Решил завести новое хобби. Анализировать и визуализировать все, что меня заинтересует – от всякой ерунды до более-менее серьезных вещей. Надеюсь это делать с какой-то периодичностью, но пока не знаю, как пойдет. Первое, чем хотелось бы с вами поделиться, – это небольшая визуализация текстов Кровостока.

Введение

Кровосток – культовая группа нулевых, которая для большинства не нуждается в представлении. Не то чтобы я большой их фанат, но такие вещи как Куртец и Биография действительно цепляют. Давно хотел провести небольшой анализ их творчества и визуально его представить.

Начнем с того, что у них есть 5 студийных альбомов: Река Крови (2004), Сквозное (2006), Гантеля (2008), Студень (2012) и Ломбард (2015). Для анализа я буду использовать только их без всяких синглов. На какие вопросы я хочу получить ответы:

1. Какие слова чаще встречаются в лирике Кровостока?

2. Каков общий процент мата по всем альбомам?

3. Какая динамика у доли мата в текстах по годам?

Облако слов

Всего в пяти альбомах представлено 10911 слов, если исключить частицы, предлоги, союзы и местоимения (которые в данном анализе я считаю мусором). Из них 426, а именно 3.9 % – это мат, то есть слова, у которых один из четырех знакомых нам корней. Какие же слова являются самыми популярными? Давайте взглянем.

Облако слов из текстов Кровостока

Сразу дам систему обозначений, которую я использовал для заваулирования мата (как же я, простите, ******** [устал] отлавливать эти слова, хочется сказать – ребята, давайте жить нецензурно):

* HHH – мужской половой орган,

* BBBTB – выражение раздражения, удивления

* BBB – краткая форма выражения раздражения, удивления

* PPPPPPP – нечто непонятное, ненужное или нежелательное

* PPPPPP – оценка чего-либо как очень плохого, тяжёлого, непреодолимого

* PPPPP – женский половой орган

* ZZZZZ – проблемы, сложности

* EEEEE – инициативно совершать половой акт

* ZZZZZZZ – очень хорошо, прекрасно, великолепно

Можете в комментариях писать, правильно ли опознали все слова.

Как можно видеть, пять самых популярных слов – это HHH, можно, сдохнуть, есть и жизнь (я немного поленился приводить все существительные к именительному падежу, кроме слова HHH, и глаголы в совершенную форму, так что некоторые слова могли набрать больше баллов), однако больше интереса вызовет изучение всей картины из слов. В облаке проглядывает романтика 90-х, темы секса и наркотиков, некая беспросветность жизни и описание чувств лирического героя. В принципе, я думаю этого словарного запаса хватит, чтобы написать одну из книг про криминал и Россию, которые можно купить в ларьках на станциях электричек.

Динамика мата по годам

Теперь давайте взглянем на то, как менялась доля мата в текстах Кровостока из альбома в альбом. Интерактивный график можно пощупать здесь, а статическую картинку прилагаю ниже:

Матерная структура текстов Кровостока

Как можно видеть, количество слов из альбома в альбом было примерно одинаковым, разве что на фоне выделяется Сквозное. В последних альбомах доля мата заметно выросла и составляет около 5 процентов, в то время как в первых альбомах она держалась на уровне около 3 процентов. Говорит ли это о том, что словарный запас цензурных слов Кровостока стал иссякать? Ну *** знает, можем в комментариях обсудить, если кому интересно поделиться будет мнением.

На этом я заканчиваю свой пост. Если у кого-то возник вопрос, а зачем вообще эта статья? Просто хочу немного поучаствовать в создании несерьезной аналитики. Почему она вообще должна быть серьезной? В общем, законом не запрещено, как говорится.

P.S. Если есть идеи по анализу и визуализации чего-нибудь интересного, то я не прочь вписаться.

Куда делись эти подписи?
Роман Соловьев

Твитнуть

Поделиться

Поделиться

Нашли опечатку? Выделите фрагмент и отправьте нажатием Ctrl+Enter.

Let's block ads! (Why?)