Acesso e análise descritiva de dados

Daniel G Tiezzi

Carregando o arquivo na memória:

Os dados frequentementes são armazenados em planilhas e salvos em arquivos de texto. Os formatos mais frequentemente usados são o TSV (tab separated values) e o CSV (comma separated values). NO R existe funções já pré-definidas para acessar este tipo de arquivo.

Vamos usar um banco de dados publicamente disponível de uma coorte de pacientes com câncer de mama. Click no link abaixo para fazer o download dos arquivos:

METABRIC

TCGA-GEXPR

O arquivo está no formato TSV. Podemos usar a função read.delim() para atribuir nosso arquivo de texto para uma variável em R. Esta função retorna um objeto do tipo dataframe. Mova o arquivo para o diretorio de trabalho. Agora, vamos ver como funciona:

# Criar uma variável mb com o *dataframe* usando a função read.delim() mb <- read.delim('brca_metabric_clinical_data.tsv')
# Verificar nossa variável dim(mb) # dimensões do objeto class(mb) # tipo de dado
# Verificar nossa variável head(mb) # verifica as primeiras linhas do objeto summary(mb) # útil para verifica cada uma das variáveis

Os data.frames são estruturas bidimensionais organizadas em linhas e colunas. Podemos acessar linhas, colunas e até mesmo uma única célula. Para isso, utilizamos colchetes. Vamos ver alguns exemplos:

# Usamos o nome do objeto seguido de colchetes: mb[ , ] # Como o *data.frame* é um objeto bidimesional, a vírgula dentro do colchete separa as linhas das colunas: mb[linas, colunas] # As linhas e colunas são indexadas de 1 a *n* # Assim, para acessar a primeira linha podemos utilizar o índice: mb[1, ] # Para a primeira coluna: mb[, 1] # E para a décima linha da segunda coluna: mb[10, 2] # As linhas e colunas também podem ser acessadas pelos respectivos nomes. As funções abaixo retornam uma lista dos nomes das colunas e das linhas colnames(mb) rownames(mb) # Assim, podemos acessar uma coluna utilizando o seu nome: mb[, 'Chemotherapy'] # Podemos também utilizar o $ para acessar uma coluna: mb$Chemotherapy

Agora que sabemos como acessar uma coluna de nosso banco de dados, vamos verificar se a pesquisa das nossa cinco quetões está de acordo com este banco de dados.

# Podemos utilizar a função table() para listar as variáveis qualitativas: # 1. Qual é a neoplasia maligna que mais frequentemente acomete a mama? table(mb$Cancer.Type) # 2. Quais os tipos histológicos mais frequentes? table(mb$Cancer.Type.Detailed) # 3. Como é feito a classificação histológica do carcinoma da mama? table(mb$Neoplasm.Histologic.Grade) # 4. Métodos de classificação molecular na rotina clínica. table(mb$ER.status.measured.by.IHC) # 5. Classificação molecular do câncer de mama na rotina clínica table(mb$ER.Status) table(mb$PR.Status) table(mb$HER2.Status)