Práctica 2 | Cómo Elegir un Modelo de Aprendizaje Supervisado I
Contenido:
- 1 Cómo elegir un modelo de aprendizaje - Video
- 2 Elementos importantes para la elección de un modelo de aprendizaje - Texto
- Quiz
Tiempo aproximado: 10 min
1 Cómo elegir un modelo de aprendizaje
Recuerda practicar y resolver problemas, pues es la experiencia lo que te ayudará a mejorar tus habilidades para seleccionar un modelo de aprendizaje.
2 Elementos importantes para la elección de un modelo de aprendizaje
Propiedades de un problema
- Al visualizar los datos, ¿se sobreponen instancias de clases distintas? Este factor debe tomarse en cuenta. En estos casos, una máquina de vectores de soporte tal vez no sea la mejor opción.
- ¿Cuentas con datos estructurados o no estructurados? Por ejemplo, si el problema implica la detección de correo fraudulento, el texto (dato no estructurado) debería se usado. En este caso, un clasificador ingenuo de Bayes puede ser la mejor opción.
- ¿Puedes hacer suposiciones sobre la naturaleza del problema? Hay modelos de aprendizaje que hacen estas suposiciones. Por ejemplo, los clasificadores ingenuos de Bayes suponen que los atributos o características son independientes. Si estas suposiciones son cercanas a la realidad, el modelo tiende a obtener mejores resultados.
Propiedades de un dataset (conjunto de datos)
- ¿Cuál es el número de características (atributos) de las instancias?
- ¿Cuál es el tamaño del conjunto de entrenamiento? Es decir, ¿Cuál es el número total de instancias?
- ¿ Las clases están balanceadas? Piensa en clasificación binaria con clase A y clase B. Si para entrenar tengo 300 instancias de la clase A y solo 50 de la clase B, las clases no están balanceadas. Para hablar de clases balanceadas, se debe tener un número similar de ejemplos.
Por lo general, usaremos un tipo de datos en Python que se llama dataframe. La estructura de un dataframe está organizada en renglones y columnas. Las columnas tienen los nombres de las características. Mientras que las filas contienen los valores de las características. Generalmente, la última columna contiene el target: una etiqueta de clase para un problema de clasificación o un valor específico para un problema de regresión.
Propiedades de la necesidad del negocio
- ¿Cuál debería ser la precisión del modelo? No es lo mismo estimar un número potencial de compras, a calcular la dosis de medicamento a administrar a un paciente.
- ¿Necesito poder interpretar los resultados del modelo? En ocasiones, es importante entender a ciencia cierta cómo llega el modelo a los resultados. Existen métodos más fáciles de interpretar que otros.
- ¿Cuál es la escalabilidad del modelo? Si por el uso, es necesario extender el modelo, ¿será fácil de escalar?
- ¿Cuál es el tiempo para construir, entrenar y predecir con un modelo? Hay problemas que requieren predicciones en tiempo real, como la detección de fraudes en tarjetas de crédito. Mientras que existen problemas donde la velocidad no es tanto problema, como la detección de correo spam.