Daniel G Tiezzi
Os dados frequentementes são armazenados em planilhas e salvos em arquivos de texto. Os formatos mais frequentemente usados são o TSV (tab separated values) e o CSV (comma separated values). NO R existe funções já pré-definidas para acessar este tipo de arquivo.
Vamos usar um banco de dados publicamente disponível de uma coorte de pacientes com câncer de mama. Click no link abaixo para fazer o download dos arquivos:
O arquivo está no formato TSV. Podemos usar a função read.delim() para atribuir nosso arquivo de texto para uma variável em R. Esta função retorna um objeto do tipo dataframe. Mova o arquivo para o diretorio de trabalho. Agora, vamos ver como funciona:
# Criar uma variável mb com o *dataframe* usando a função read.delim()
mb <- read.delim('brca_metabric_clinical_data.tsv')
# Verificar nossa variável
dim(mb) # dimensões do objeto
class(mb) # tipo de dado
# Verificar nossa variável
head(mb) # verifica as primeiras linhas do objeto
summary(mb) # útil para verifica cada uma das variáveis
Os data.frames são estruturas bidimensionais organizadas em linhas e colunas. Podemos acessar linhas, colunas e até mesmo uma única célula. Para isso, utilizamos colchetes. Vamos ver alguns exemplos:
# Usamos o nome do objeto seguido de colchetes: mb[ , ]
# Como o *data.frame* é um objeto bidimesional, a vírgula dentro do colchete separa as linhas das colunas: mb[linas, colunas]
# As linhas e colunas são indexadas de 1 a *n*
# Assim, para acessar a primeira linha podemos utilizar o índice:
mb[1, ]
# Para a primeira coluna:
mb[, 1]
# E para a décima linha da segunda coluna:
mb[10, 2]
# As linhas e colunas também podem ser acessadas pelos respectivos nomes. As funções abaixo retornam uma lista dos nomes das colunas e das linhas
colnames(mb)
rownames(mb)
# Assim, podemos acessar uma coluna utilizando o seu nome:
mb[, 'Chemotherapy']
# Podemos também utilizar o $ para acessar uma coluna:
mb$Chemotherapy
Agora que sabemos como acessar uma coluna de nosso banco de dados, vamos verificar se a pesquisa das nossa cinco quetões está de acordo com este banco de dados.
# Podemos utilizar a função table() para listar as variáveis qualitativas:
# 1. Qual é a neoplasia maligna que mais frequentemente acomete a mama?
table(mb$Cancer.Type)
# 2. Quais os tipos histológicos mais frequentes?
table(mb$Cancer.Type.Detailed)
# 3. Como é feito a classificação histológica do carcinoma da mama?
table(mb$Neoplasm.Histologic.Grade)
# 4. Métodos de classificação molecular na rotina clínica.
table(mb$ER.status.measured.by.IHC)
# 5. Classificação molecular do câncer de mama na rotina clínica
table(mb$ER.Status)
table(mb$PR.Status)
table(mb$HER2.Status)