воскресенье, 5 марта 2017 г.

«***, мы умели отдохнуть красиво»: анализ и визуализация текстов «Кровостока»

Рейтинг часто используемых слов в песнях и доля нецензурной лексики.

Всем привет! Решил завести новое хобби. Анализировать и визуализировать всё, что меня заинтересует – от всякой ерунды до более-менее серьёзных вещей. Надеюсь это делать с какой-то периодичностью, но пока не знаю, как пойдёт. Первое, чем хотелось бы с вами поделиться, — это небольшая визуализация текстов Кровостока.

«Кровосток» — культовая группа нулевых, которая для большинства не нуждается в представлении. Не то, чтобы я большой их фанат, но такие вещи как «Куртец» и «Биография», действительно цепляют. Давно хотел провести небольшой анализ их творчества и визуально его представить.

Начнём с того, что у них есть 5 студийных альбомов: «Река Крови» (2004), «Сквозное» (2006), «Гантеля» (2008), «Студень» (2012) и «Ломбард» (2015). Для анализа я буду использовать только их без всяких синглов. На какие вопросы я хочу получить ответы;

1. Какие слова чаще встречаются в лирике Кровостока?

2. Каков общий процент мата по всем альбомам?

3. Какая динамика у доли мата в текстах по годам?

Облако слов

Всего в пяти альбомах представлено 10911 слов, если исключить частицы, предлоги, союзы и местоимения (которые в данном анализе я считаю мусором). Из них 426, а именно 3,9 % – это мат, то есть слова, у которых один из четырех знакомых нам корней. Какие же слова являются самыми популярными? Давайте взглянем.

Сразу дам систему обозначений, которую я использовал для завуалирования мата (как же я, простите, ******** [устал] отлавливать эти слова, хочется сказать – ребята, давайте жить нецензурно):

HHH – мужской половой орган.

BBBTB – выражение раздражения, удивления.

BBB – краткая форма выражения раздражения, удивления.

PPPPPPP – нечто непонятное, ненужное или нежелательное.

PPPPPP – оценка чего-либо как очень плохого, тяжёлого, непреодолимого.

PPPPP – женский половой орган.

ZZZZZ – проблемы, сложности.

EEEEE – инициативно совершать половой акт.

ZZZZZZZ – очень хорошо, прекрасно, великолепно.

Можете в комментариях писать, правильно ли опознали все слова.

Облако слов из текстов «Кровостока»

Как можно увидеть, пять самых популярных слов – это «HHH», «можно», «сдохнуть», «есть» и «жизнь». Я немного поленился приводить все существительные к именительному падежу, кроме слова «HHH», и глаголы в совершенную форму, так что некоторые слова могли набрать больше баллов.

Больший интерес вызовет изучение всей картины из слов. В облаке проглядывает романтика 90-х, темы секса и наркотиков, некая беспросветность жизни и описание чувств лирического героя. В принципе, я думаю, этого словарного запаса хватит, чтобы написать одну из книг про криминал и Россию, которые можно купить в ларьках на станциях электричек.

Динамика мата по годам

Теперь давайте взглянем на то, как менялась доля мата в текстах Кровостока из альбома в альбом. Интерактивный график можно пощупать здесь, а статическую картинку прилагаю ниже.

Матерная структура текстов «Кровостока»

Количество слов из альбома в альбом было примерно одинаковым, разве что на фоне выделяется «Сквозное». На первых пластинках доля мата держалась на уровне около 3%, а на последних выросла до 5%. Говорит ли это о том, что словарный запас цензурных слов «Кровостока» стал иссякать? Ну *** знает, можем в комментариях обсудить, если кому интересно поделиться будет мнением.

На этом я заканчиваю свой пост. Вероятно, у кого-то возник вопрос, зачем вообще эта статья? Просто хочу немного поучаствовать в создании несерьёзной аналитики. Почему она вообще должна быть серьёзной? В общем, законом не запрещено, как говорится.

P.S. Если есть идеи по анализу и визуализации чего-нибудь интересного, то я не прочь вписаться.

Куда делись эти подписи?
Роман Соловьев

Твитнуть

Поделиться

Поделиться

Нашли опечатку? Выделите фрагмент и отправьте нажатием Ctrl+Enter.

Let's block ads! (Why?)