Procesamiento de datos

Pre-procesado de datos

Introducción

Tenemos una serie de datos, ya observados, la idea es suministrar estos datos al machine-learning y la máquina va intentar aprender  rasgos y patrones a partir de las variables independientes de las distintas categorías y los rasgos númericos que definen las  observaciones de nuestros usuarios, para intentar definir una variable dependiente.

Notas Python y R

Variables Machine Learning

Datos Desconocidos

Cuando nos encontramos con ausencia de valores podemos optar por introducir la media o la moda de dicha columna, siempre será mejor esto que poner ese valor a 0.

Datos Categóricos

Se tratan de esos valores que su columna en vez de tener una númerico contiene un valor para catalogar o clasificar un usuario.

Variable dummy → traducir una variable a variable categorica sin orden.  La variable dummy clasificada en activa o no activa. Es  decir tener una columna con Provincias, 3 en este ejemplo (Cataluña,Valencia y Madrid), si lo hiciéramos como una variable ordinal o categórica el resultado no sería correcto, ya que el valor de los números tendría un efecto que no queremos en nuestro algoritmo, el 1 va antes que el 2. Que hace nuestra variable dummy, crea una tabla con las columnas según este ejemplo tres, en cada fila obtendremos un 1 en la provincia que pertenezca a dicha fila y un 0 para el resto. De esta forma nos olvidamos de los valores ordinales obteniendo un resultado más óptimo.

Set de entrenamiento y Set de Test

Hover fitting → problema que hay que intentar evitar. El algoritmo no tiene comparaciones suficientes y aprende los datos de memoria

Escalado de datos

Diferencias de rango de valores, ejemplo edad(27) y salarios(51000). El efecto de la edad pasaría inadvertido en nuestro algoritmo de machine learning.

Si  tenemos una variable cuyo rango de valor es muy superior a las otras, podría ser un problema porque las variables de menor  rango podrían pasar inadvertidas o no tener importancia.

Normalizacion.png


Revision #1
Created 28 November 2023 19:33:54 by adminROM
Updated 28 November 2023 19:34:04 by adminROM