Novos Baianos tem mais em comum com o rap do que você imagina. E nada podia ser mais distante do que Olodum e Clarice Falcão. Ao analisar as palavras que um músico usa em suas letras é possível saber muito sobre o perfil de sua obra. Por exemplo, o grau de diversidade das palavras que usa. Ou como a escolha dessas palavras o aproxima ou não de determinados gêneros musicais.

O Nexo preparou três gráficos interativos que estabelecem relações entre as letras de centenas de artistas da música brasileira. Por meio deles você pode:

  • Comparar o tamanho do vocabulário de cada artista – por meio do número de palavras únicas, ou seja, que não se repetem nas letras – com o de outro artista e com um gênero musical como rap ou sertanejo
  • Selecionar um artista e descobrir os cinco artistas com os quais seu vocabulário (as palavras presentes nas suas letras) é mais parecido e os cinco de quem ele está mais distante
  • Saber o quanto de cada gênero um artista e seu vocabulário se aproximam. Isso é possível comparando as palavras usadas por ele com a dos artistas de cada gênero.

Tamanho do vocabulário de cada artista e gênero

Aqui medimos o número de palavras presentes em letras bem como a quantidade de palavras únicas, ou seja, que não se repetem. O primeiro item (eixo horizontal) mede o tamanho das letras da obra do artista como um todo; o outro (eixo vertical), a diversidade de palavras usadas. Assim fica fácil perceber, por exemplo, que um artista como Zé Ramalho tem um vocabulário muito diversificado. Basta ver que com 36.100 palavras, 6.048 são únicas. Compare com o Wesley Safadão, que com 216.700 palavras totais (a maior quantidade registrada, tanto que não conseguimos incluir esse total no gráfico, que foi cortado em 160 mil palavras) teve apenas 5.391 palavras únicas. Os artistas estão coloridos segundo o gênero musical. Aproveite para comparar artistas e diferentes gêneros.

Limpar gráfico

O que falam: artistas mais e menos parecidos

Com o gráfico anterior, vimos o quão grande é o repertório dos artistas ou gêneros. Neste abaixo, a experiência agora é a de analisar a similaridade dos vocabulários, analisando a frequência com que as palavras aparecem. Para cada artista selecionado, apresentamos os cinco artistas de repertórios mais próximos e os cinco mais distantes.

Quanto de cada gênero esses artistas têm

A frequência com que artistas usam determinadas palavras têm relação com o gênero do qual fazem parte. Aqui calculamos quanto de cada gênero as letras dos artistas selecionados possuem. Quanto mais próximo de um gênero um artista está (a régua vai de 0 a 100), maior é a correspondência de palavras com as letras dos artistas daquele gênero. Perceba como o vocabulário do grupo Novos Baianos está mais próximo do rap (como Racionais MC's) do que de artistas românticos (como Roberto Carlos). E como o do cantor Tom Zé tem maior afinidade com o forró do que com o pagode, por exemplo.

Limpar gráfico

Limpar gráfico

Metodologia: Todas as letras foram obtidas do site Letras. Para evitar analisar letras em outras línguas se retirou as que tinham menos de 90% das palavras em português. Para evitar contar palavras escritas de forma equivocada como palavras únicas, retiraram-se palavras que não estavam presentes no dicionário, com exceção de palavras que eram citadas mais de dez vezes em diferentes músicas. Isso foi feito para acrescentar gírias e palavras estrangeiras usadas comumente, como "baby". As palavras não foram desflexionadas para o tempo verbal, gênero, plural, etc pois consideramos que a o valor do léxico inclui variações nas flexões das palavras. Foram removidos artistas que tivessem menos de 10.000 palavras analisadas. Para que a ordem das letras não interferisse no formato da reta no primeiro gráfico, foram embaralhadas as letras e foi feito o cálculo mil vezes de palavras únicas versus palavras analisadas. O valor representado nela é a mediana da quantidade de palavras únicas para cada número de palavras analisadas. No gráfico 2, a distância de cada artista para os demais foi calculada utilizando uma matriz em que cada artista é representado em uma linha, cada palavra em uma coluna. Os valores são a frequência com que eles as utilizam. A partir dela, utilizando a função "dist" da linguagem R, calculou-se a distância euclidiana entre cada artista. No gráfico 3, o quanto cada artista tem de cada estilo foi calculado somando o inverso da distância (presente no gráfico 2) de cada artista para os demais artistas de um determinado estilo. Esse valor foi então normalizado entre 0 (menor valor entre todos os artistas) e 100 (maior valor).

Colaborou: Ibrahim Cesar (desenvolvimento).