Tipos de variáveis
Não há nada, talvez, mais basal dentro do estudo e do entendimento da ciência de dados do que compreender o funcionamento das variáveis, suas alegorias e classificações.
Para levarmos o conceito de variável à um ponto absolutamente fundamental podemos considerar que variável nada mais é do que um símbolo ou característica que assumem diferentes valores ou estados. Em uma leitura um ponto mais formal poderíamos dizer que uma variável é: qualquer característica, número ou quantidade que varia entre diferentes observações.
Em um exemplo simples podemos utilizar o carro. Em uma amostragem que objetiva a estruturação de um banco com dados sobre carros, podemos citar uma serie de variáveis: a cor do carro, o tamanho do carro (em suas dimensões), o ano de fabricação, a estimativa do seu consumo de combustível e assim para cada característica que se possa descrever, medir ou contar.
Facilmente é possível notar que as variáveis podem acomodar diversos elementos de texto à números ou símbolos. E com o pensamento de tratar isto de maneira analítica precisamos compreender a tipologia que estrutura as variáveis com uma normativa que permite os diferentes usos da ciência da dados.
Logo em uma primeira aproximação percebemos que as variáveis seguem a seguinte classificação: qualitativas (ou categóricas) e quantitativas, com as divisões entre: ordinais e nominais (para as variáveis qualitativas); e entre discretas e contínuas (para as variáveis quantitativas).
Variáveis qualitativas (categóricas): são aquelas que descrevem caraterísticas e, por via de regra inicial, não possuem valores numéricos. O objetivo desta variável é classificar um registro em um grupo ou categoria. Como por exemplo a cor de um carro ou a marca da montadora deste carro.
Ainda dentro das variáveis qualitativas, é possível dividir em dois grandes grupos: nominais (que classifica os dados em categoria, mas sem uma ordem ou hierarquia. Como por exemplo o país de origem de uma pessoa); e ordinais (que têm uma ordem ou hierarquia associada, como por exemplo classificar a qualidade de um serviço ou produto em ruim, regular ou bom. Note que, diferente da variável qualitativa nominal, a variável qualitativa ordinal existe uma ordem).
Variáveis quantitativas: são as variáveis numéricas. Destas variáveis podemos dividir em dois grupos, também: discretas (números contáveis e finitos, como por exemplo número de filhos de um casal); ou contínuas (geralmente obtidas por medição e pode ser qualquer valor dentro de um determinado intervalo, como por exemplo altura de uma pessoa).
O reconhecimento de como vamos tratar ou salvar as variáveis dentro de nossos experimentos ajuda a definir em como vamos desenhar cada passo da pesquisa.