Respuestas
Explicación:es el proceso de seleccionar un subconjunto de características pertinentes (variables, predictores) para su uso en construcción de modelos. Las técnicas de selección de la característica son utilizadas por cuatro razones:
Simplificación de modelos con el fin de hacerlas más sencillas de interpretar para los usuarios/investigadores,1
Tiempo de entrenamiento más corto,
Para evitar la maldición de la dimensionalidad (curse of dimensionality),
Generalización realzada por reducir overfitting2 (formalmente, reducción de varianza)
La premisa central cuando se utiliza una técnica de selección de características es que el dato contiene muchas redundantes o irrelevantes, y así pueden ser removidas sin incurrir en mucha pérdida de la información. Las características redundantes o irrelevantes son dos nociones distintas, pues una característica relevante puede ser redundante en la presencia de otra característica relevante con la que está fuertemente correlacionada.
Las técnicas de selección de características deben ser distinguidas de la extracción de característica, la cual crea características nuevas a partir de funciones de las características originales, mientras que la selección de característica devuelve un subconjunto de las características. Las técnicas de selección de la característica son a menudo utilizadas en dominios donde hay muchas características y comparativamente pocas muestras (o puntos de dato). Los casos arquetípicos para la aplicación de la selección de característica incluye el análisis de datos de microarrays de ADN y textos escritos, donde hay varios miles de características, y unas cuantas decenas a centenares de muestras