Histogramas com ggplot2 - Duas variáveis

Códigos
Gráficos
Linguagem R
Autor

Jeanne Franco

Data de Publicação

22 de janeiro de 2023

Gráfico de histograma espelhado1

Um histograma apresenta a distribuição de uma ou mais variáveis numéricas. Duas variáveis numéricas em apenas um gráfico de histograma pode ser um desafio, mas usando o gráfico de histograma espelhado, podemos comparar de forma eficiente duas variáveis. Observe o código e o gráfico abaixo:

# Pacotes
library(ggplot2) # Produzir gráficos ggplot2
library(hrbrthemes) # Tema ipsum para o gráfico

# Criação de dados com diferentes distribuições
data <- data.frame(
  var1 = rnorm(1000),
  var2 = rnorm(1000, mean = 2))

# Gráfico
ggplot(data, aes(x = x)) +
  geom_histogram(aes(x = var1, y = ..density..), 
                  fill = "#69b3a2" ) +
  geom_label(aes(x = 4.5, y = 0.25, label = "variable1"), 
              color = "#69b3a2") +
  geom_histogram(aes(x = var2, y = -..density..), 
                  fill = "#404080") +
  geom_label(aes(x = 4.5, y = -0.25, label = "variable2"), 
              color = "#404080") +
  theme_ipsum() +
  xlab("value of x")

Descrição das funções e argumentos do gráfico

  • ggplot: camada para criar o gráfico onde serão informados o nome do conjunto de dados e nome da variável (x = x). O x recebe “x” devido a essa variável ser informada posteriormente nas duas camadas do geom_histogram.

  • geom_histogram: camada da geometria do gráfico de histograma com os nomes das variáveis do conjunto de dados (x = var1 ou var2 e y = ..density.. para indicar a densidade dos valores da frequência). Fill corresponde a cor do preenchimento das barras.

  • geom_label: camada dos rótulos das duas variáveis x. Nela é informada o rótulo label e a localização dos rótulos de acordo com as coordenadas x e y.

  • theme_ipsum: camada para tema do gráfico (background).

  • xlab: camada para rótulo do eixo x.

Gráfico de histograma com transparência2

Usando um histograma com transparência nas barras, também podemos comparar a distribuição de diferentes grupos. Esse tipo de gráfico seria como usar vários histogramas em um único eixo. Usando a transparência podemos evitar a ocultação de alguns dos dados. Observe o código e o gráfico abaixo:

# Pacotes
library(ggplot2) # Produzir gráficos ggplot2
library(hrbrthemes) # Tema ipsum para o gráfico
library(tibble) # Exibição simplificada da tabela de dados 

# Carregar banco de dados iris
tibble(datasets::iris)
# A tibble: 150 × 5
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          <dbl>       <dbl>        <dbl>       <dbl> <fct>  
 1          5.1         3.5          1.4         0.2 setosa 
 2          4.9         3            1.4         0.2 setosa 
 3          4.7         3.2          1.3         0.2 setosa 
 4          4.6         3.1          1.5         0.2 setosa 
 5          5           3.6          1.4         0.2 setosa 
 6          5.4         3.9          1.7         0.4 setosa 
 7          4.6         3.4          1.4         0.3 setosa 
 8          5           3.4          1.5         0.2 setosa 
 9          4.4         2.9          1.4         0.2 setosa 
10          4.9         3.1          1.5         0.1 setosa 
# ℹ 140 more rows
# Gráfico
ggplot(iris, aes(x = Petal.Length, fill = Species)) +
  geom_histogram(color = "#e9ecef",
                 alpha = 0.6, 
                 position = 'identity') +
    scale_fill_manual(values = c("#69b3a2", "#404080", "red"),
                      labels = c("Setosa", "Versicolor", "Virginica")) +
    theme_ipsum() +
    labs(x = "Comprimento de pétalas (cm)",
         y = "Frequência",
         fill = "Espécies")

Descrição das funções e argumentos do gráfico

  • ggplot: camada para criar o gráfico em que serão informados o nome do conjunto de dados iris, nome da variável x comprimento de pétalas (Petal.Length) e nome do preenchimento fill correspondente aos grupos de espécies (Species).

  • geom_histogram: camada da geometria do gráfico de histograma com os argumentos color para a cor das barras, alpha para a transparência das cores de preenchimento das barras e position para a posição das barras lado a lado.

  • scale_fill_manual: camada que define as cores de preenchimento das barras que correspondem a cada grupo de espécies.

  • theme_ipsum: camada para tema do gráfico (background).

  • labs: camada para rótulos do eixo x, y e fill.

Referências

1 Mirror density chart with ggplot2

2 Histogram with several groups - ggplot2