El “Calendario de Adviento” del Machine Learning, Día 2: clasificador k-NN en Excel Mas Cipolleti

El “Calendario de Adviento” del Machine Learning, Día 2: clasificador k-NN en Excel. Noticias en tiempo real 03 de Diciembre, 2025 06:00

El regresor k-NN y la idea de predicción basada en distancia, ahora veamos el clasificador k-NN.

El principio es el mismo, pero la clasificación nos permite introducir varias variantes útiles, como el radio de vecinos más cercanos, el centro más cercano, la predicción multiclase y los modelos de distancia probabilísticos.

Por lo tanto, primero implementaremos el clasificador k-NN y luego discutiremos cómo se puede mejorar.

Puede utilizar esta hoja de cálculo de Excel/Google mientras lee este artículo para seguir mejor todas las explicaciones.

Clasificador k-NN en Excel – imagen del autor

Conjunto de datos de supervivencia del Titanic

Usaremos el conjunto de datos de supervivencia del Titanic, un ejemplo clásico en el que cada fila describe a un pasajero con características como clase, sexo, edad y tarifa, y el objetivo es predecir si el pasajero sobrevivió.

Conjunto de datos de supervivencia del Titanic – imagen del autor – CC0: Dominio público licencia

Principio k-NN para clasificación

El clasificador k-NN es tan similar al regresor k-NN que casi podría escribir un solo artículo para explicarlos a ambos.

De hecho, cuando buscamos el k vecinos más cercanos, no usamos el valor de cualquier manera, mucho menos su naturaleza.

PERO, todavía hay algunos datos interesantes sobre cómo se construyen los clasificadores (binarios o multiclase) y cómo las características se pueden tratar de manera diferente.

Comenzamos con la tarea de clasificación binaria y luego con la clasificación multiclase.

Un recurso continuo para la clasificación binaria.

Muy rápidamente, podemos hacer el mismo ejercicio para una característica continua con este conjunto de datos.

Para el valor de y, normalmente usamos 0 y 1 para distinguir las dos clases. Pero tal vez notes, o notarás, que esto puede ser una fuente de confusión.

Clasificador k-NN en Excel – Un recurso continuo – imagen del autor

Ahora piénsalo: 0 y 1 también son números, ¿verdad? Entonces podemos hacer exactamente el mismo proceso que si estuviéramos haciendo una regresión.

Así es. Nada cambia en el cálculo, como puedes ver en la imagen de abajo. Y, por supuesto, puedes intentar modificar tú mismo el valor de la nueva observación.

Clasificador k-NN en Excel – predicción para una característica continua – imagen del autor

La única diferencia es cómo interpretamos el resultado. Cuando tomamos el “promedio” de los resultados de los vecinos valores, este número se entiende como la probabilidad de que la nueva observación pertenezca a la clase 1.

Entonces, en realidad, el valor “promedio” no es la buena interpretación, sino la proporción de clase 1.

También podemos crear manualmente este gráfico para mostrar cómo cambia la probabilidad prevista en un rango de incógnita valores.

Tradicionalmente, para evitar terminar con una probabilidad del 50%, elegimos un valor impar para kpara que siempre podamos decidir por mayoría.

Clasificador k-NN en Excel – predicciones para una característica continua – imagen del autor

Dos características para la clasificación binaria

Si tenemos dos características, la operación también es casi la misma que la del regresor k-NN.

Clasificador k-NN en Excel – dos características continuas – imagen del autor

Una característica para la clasificación multiclase.

Ahora, tomemos un ejemplo de tres clases para la variable objetivo y.

Entonces podemos ver que ya no podemos usar la noción de “promedio”, ya que el número que representa la categoría no es en realidad un número. Y mejor deberíamos llamarlos “categoría 0”, “categoría 1” y “categoría 2”.

Clasificador k-NN en Excel – clasificador multiclase – imagen del autor

De k-NN a los centroides más cercanos

Cuando k se vuelve muy grande

Ahora, hagamos k grande. ¿Qué tan grande? Lo más grande posible.

Recuerde, también hicimos este ejercicio con el regresor k-NN y la conclusión fue que si k es igual al número total de observaciones en el conjunto de datos de entrenamiento, entonces el regresor k-NN es el estimador del valor medio simple.

Para el clasificador k-NN, es casi lo mismo. Si k es igual al número total de observaciones, entonces para cada clase obtenemos su proporción general dentro de todo el conjunto de datos de entrenamiento.

¡Algunas personas, desde un punto de vista bayesiano, llaman a estas proporciones prioritarias!

Pero esto no nos ayuda mucho a clasificar una nueva observación, porque estas observaciones previas son las mismas para todos los puntos.

La creación de centroides

Así que demos un paso más.

Para cada clase, también podemos agrupar todos los valores de las características. incógnita pertenecientes a esta clase y calcular su promedio.

Estos vectores de características promedio son lo que llamamos centroides.

¿Qué podemos hacer con estos centroides?

Podemos usarlos para clasificar una nueva observación.

En lugar de volver a calcular las distancias desde todo el conjunto de datos hasta cada nuevo punto, simplemente medimos la distancia a cada centroide de clase y asignamos la clase al más cercano.

Con el conjunto de datos de supervivencia del Titanic, podemos comenzar con una sola característica, edady calcule los centroides para las dos clases: pasajeros que sobrevivieron y pasajeros que no sobrevivieron.

Clasificador k-NN en Excel – Centroides más cercanos – imagen del autor

Ahora también puede utilizar múltiples funciones continuas.

Por ejemplo, podemos utilizar las dos funciones edad y tarifa.

Clasificador k-NN en Excel – Centroides más cercanos – imagen del autor

Y podemos discutir algunas características importantes de este modelo:

  • La escala es importante, como comentamos antes para el regresor k-NN.
  • Los valores faltantes no son un problema aquí: cuando calculamos los centroides por clase, cada uno se calcula con los valores disponibles (no vacíos)
  • Pasamos del modelo más “complejo” y “grande” (en el sentido de que el modelo real es el conjunto de datos de entrenamiento completo, por lo que tenemos que almacenar todo el conjunto de datos) al modelo más simple (solo usamos un valor por característica y solo almacenamos esos valores como nuestro modelo)

De altamente no lineal a ingenuamente lineal

Pero ahora, ¿se te ocurre una gran desventaja?

Si bien el clasificador k-NN básico es altamente no lineal, el método del centroide más cercano es extremadamente lineal.

En este ejemplo 1D, los dos centroides son simplemente los valores x promedio de la clase 0 y la clase 1. Dado que estos dos promedios están cerca, el límite de decisión se convierte en solo el punto medio entre ellos.

Por lo tanto, en lugar de un umbral irregular por partes que depende de la ubicación exacta de muchos puntos de entrenamiento (como en k-NN), obtenemos un corte recto que solo depende de dos números.

Esto ilustra cómo los centroides más cercanos comprimen todo el conjunto de datos en una regla simple y muy lineal.

Clasificador k-NN en Excel – Linealidad de centroides más cercanos – imagen del autor

Una nota sobre la regresión: por qué no se aplican los centroides

Ahora bien, este tipo de mejora no es posible para el regresor k-NN. ¿Por qué?

En la clasificación, cada clase forma un grupo de observaciones, por lo que tiene sentido calcular el vector de características promedio para cada clase, y esto nos da los centroides de clase.

Pero en la regresión, el objetivo es continuo. No existen grupos discretos, ni límites de clase y, por lo tanto, no hay una forma significativa de calcular “el centroide de una clase”.

Un objetivo continuo tiene infinitos valores posibles, por lo que no podemos agrupar las observaciones por su valor para formar centroides.

El único “centroide” posible en la regresión sería el promedio mundialque corresponde al caso k = N en el regresor k-NN.

Y este estimador es demasiado simple para ser útil.

En resumen, el clasificador de centroides más cercano es una mejora natural de la clasificación, pero no tiene un equivalente directo en regresión.

Otras mejoras estadísticas

¿Qué más podemos hacer con el clasificador k-NN básico?

Media y varianza

Con el clasificador de centroide más cercano, usamos la estadística más simple que es la promedio. Un reflejo natural en estadística es sumar la variación también.

Así que ahora la distancia ya no es euclidiana, sino mahalanobis distancia. Utilizando esta distancia obtenemos la probabilidad en base a la distribución caracterizada por la media y la varianza de cada clase.

Manejo de características categóricas

Para características categóricas, no podemos calcular medias o variaciones. Y para el regresor k-NN, vimos que era posible realizar codificación one-hot o codificación ordinal/etiqueta. Pero la escala es importante y no es fácil de determinar.

Aquí podemos hacer algo igualmente significativo, en términos de probabilidades: podemos contar las proporciones de cada categoría dentro de una clase.

Estas proporciones actúan exactamente como las probabilidades, describiendo la probabilidad de cada categoría dentro de cada clase.

Esta idea está directamente relacionada con modelos como Bayes categóricamente ingenuodonde las clases se caracterizan por distribuciones de frecuencia sobre las categorías.

Distancia ponderada

Otra dirección es introducir pesos, de modo que los vecinos más cercanos cuenten más que los distantes. En scikit-learn, existe el argumento de los “pesos” que nos permite hacer esto.

También podemos cambiar de “k vecinos” a un radio fijo alrededor de la nueva observación, lo que conduce a clasificadores basados en radio.

Vecinos más cercanos del radio

En ocasiones podemos encontrar el siguiente gráfico para explicar el clasificador k-NN. Pero en realidad, con un radio como este, refleja más la idea del radio de los vecinos más cercanos.

Una ventaja es el control vecinal. Es especialmente interesante cuando conocemos el significado concreto de la distancia, como la distancia geográfica.

Clasificador de vecinos más cercanos de radio – imagen del autor

Pero la desventaja es que es necesario conocer el radio de antemano.

Por cierto, esta noción de radio de los vecinos más cercanos también es adecuada para la regresión.

Resumen de las diferentes variantes.

Todos estos pequeños cambios dan lugar a diferentes modelos, cada uno de los cuales intenta mejorar la idea básica de comparar vecinos según una definición de distancia más compleja, con un parámetro de control que nos permita obtener vecinos locales, o una caracterización más global del barrio.

No exploraremos todos estos modelos aquí. Simplemente no puedo evitar ir demasiado lejos cuando una pequeña variación conduce naturalmente a otra idea.

Por ahora, considere esto como un anuncio de los modelos que implementaremos a finales de este mes.

Variantes y mejoras del clasificador k-NN – imagen del autor

Conclusión

En este artículo, exploramos el clasificador k-NN desde su forma más básica hasta varias extensiones.

La idea central realmente no cambia: una nueva observación se clasifica observando qué tan similar es a los datos de entrenamiento.

Pero esta sencilla idea puede adoptar muchas formas diferentes.

Con características continuas, la similitud se basa en la distancia geométrica.
Con características categóricas, analizamos con qué frecuencia aparece cada categoría entre sus vecinas.

Cuando k se vuelve muy grande, todo el conjunto de datos se reduce a solo unas pocas estadísticas resumidas, lo que naturalmente conduce a Clasificador de centroides más cercano.

Comprender esta familia de ideas basadas en la distancia y la probabilidad nos ayuda a ver que muchos modelos de aprendizaje automático son simplemente formas diferentes de responder la misma pregunta:

¿A qué clase se parece más esta nueva observación?

En los próximos artículos continuaremos explorando modelos basados en densidad, que pueden entenderse como medidas globales de similitud entre observaciones y clases.

Fuente


Compartir en:
   

 

 

Nuevo hospital para Valles iniciaría en septiembre: IMSS-Bienestar. 08:41

Daniel Acosta informó que ya se consolida el terreno de al menos 4 hectáreas Por: Redacción Daniel Acosta Díaz de León, delegado del IMSS-Bienestar en San Luis Potosí, informó que avanza la consolidación del terreno donde se construirá el nuevo hospital en Ciudad Valles, obra que podría iniciar en septiembre. Explicó que actualmente se e

Laorquesta.mx

Ganaderos de Papantla refrendan el apoyo  a la dirigencia de Jorge Trueba. 08:40

#Papantla La Asociación Ganadera Local de Papantla, realizo su 76ª Asamblea General Ordinaria, en donde se presento el informe de actividades correspondientes al 2025, destacando las acciones realizadas para combatir el gusano barrenador del ganado. El presidente de la Ganadera  local y de la Unión Ganadera Regional del Norte de Veracruz, L

Gráfico Al Día

Consejos para reservar vuelos económicos que transformarán tu forma de viajar.

Si estás buscando consejos para reservar vuelos económicos, la buena noticia es que no necesitas fórmulas secretas: basta con combinar anticipación, flexibilidad y un proceso de búsqueda ordenado.

Lado.mx

Cómo consultar tu estado de cuenta afore y su importancia.

Shutterstock El seguimiento de tu ahorro para el retiro es fundamental para planificar tu futuro financiero. Es esencial estar al tanto de tu estado de cuenta Afore para conocer cómo crece tu patrimonio a lo largo de tu vida laboral.

Lado.mx

Oxandrolona: qué es, beneficios para ganar masa muscular y precauciones antes de usar este esteroide anabólico.

En el mundo del deporte y el culturismo, los suplementos y esteroides han ganado popularidad debido a sus efectos potenciadores del rendimiento. Uno de los compuestos más discutidos es la Oxandrolona, conocida por su capacidad para ayudar a mejorar la fuerza y la masa muscular magra.

Lado.mx

"La Mañanera" de Sheinbaum de hoy lunes 23 de febrero de 2026.07:12

Claudia Sheinbaum. Conoce los temas más importantes de la conferencia "mañanera del pueblo" de la Presidenta de México de este lunes 23 de febrero de 2026

El Informador

Garantiza Gobierno de la Ciudad prestación de todos los servicios municipales. 07:30

Se realiza trabajo de manera coordinada entre los niveles para garantizar la paz y la tranquilidad de las y los poblanos. Puebla, Pue.- Con el objetivo de que la ciudadanía realice todas sus actividades de manera cotidiana, el Gobierno de la Ciudad que encabeza el presidente municipal, Pepe Chedraui, garantiza que todos los servicios municipales [

Paralelo19.tv

Reportan presencia de personas armadas en el Aeropuerto Internacional de Guadalajara. 12:36

Momentos de tensión y caos se vivieron en el Aeropuerto Internacional de Guadalajara, luego de que se reportara la presunta presencia de personas armadas en el interior de sus instalaciones. A través de videos difundidos por usuarios en redes sociales, se escuchan detonaciones y se observa una camioneta tipo estaquitas circulando por la zona de [

Partidero.com

La vez que ‘Pollo’ Briseño, ex de Chivas, mandó saludos a Nemesio Oseguera Cervantes: ‘Quiero agradecerte’. 18:20

Video de ‘Pollo’ Briseño saludando a Nemesio Oseguera Cervantes se viralizó en 2022; sin embargo, se desconoce si este clip fue solicitado por "El Mencho".

El Financiero

Gestos de fe en Jalisco: Sacerdotes exponen al Santísimo ante ola de violencia. 21:20

EL BUEN TONOJalisco, Méx.– En medio de una jornada de violencia marcada por bloqueos, incendios y enfrentamientos, sacerdotes locales realizaron un acto de fe sin precedentes al subir al techo de una iglesia para exponer al Santísimo Sacramento, pidiendo por la paz y la seguridad de la población. Los hechos ocurren tras la confirmación de [&#

El buen tono

el universal mexico

México, mayor proveedor de los EU por tercer año. 20 de Febrero, 2026 11:20

CIUDAD DE MÉXICO (EL UNIVERSAL).- México se mantuvo durante 2025 por tercer año al hilo como el principal proveedor de mercancías de Estados Unidos, de acuerdo con información del Departamento de Comercio del país vecino. Datos de la balanza comercial indican que las mercancías con la etiqueta Made in Mexico representaron 15.7% de todas las

Periódico Contacto

Netflix acaba de comprar la primera película de stop-motion creada en México con un objetivo: darla a conocer a todo el mundo . 20 de Febrero, 2026 11:24

Creímos que era una producción exclusiva de HBO Max, pero alguien se adelantó. La primera película stop-motion hecha en su totalidad en México acaba de ser adquirida por el gigante del streaming. La plataforma Netflix ya tiene los derechos de distribución y lo hace con un objetiv

Xataka México

Shakira ofrecerá concierto gratuito en el Zócalo de Ciudad de México el 1 de marzo. 20 de Febrero, 2026 19:51

Brugada destacó el carácter cultural del evento y dio la bienvenida a la intérprete colombiana quien, dijo, es la artista “más querida y universal de Barranquilla Colombia”La entrada Shakira ofrecerá concierto gratuito en el Zócalo de Ciudad de México el 1 de marzo se publicó primero en La Voz de Michoacán.

La Voz de Michoacán

siete reinos

Finaliza la primera temporada de ‘El caballero de los Siete Reinos’, basada en las novelas de George R.R. Martin: Todos los interrogantes que plantea la serie de cara a su continuación. 01:00

El universo de ‘Juego de Tronos’ continúa expandiéndose gracias a ‘La casa del dragón’ y a esta aventura paralela que ha hecho las delicias de los fans

Infobae

Sin magia ni dragones: la miniserie de HBO con solo 6 episodios que sacudió al streaming . 08:05

Han pasado seis semanas desde que HBO nos regresó al mejor mundo medieval del streaming. El universo de George R. R. Martin que sigue expandiéndose esta vez nos sorprendió con una miniserie de solo seis episodios que rozaron la perfección. Hablamos de El Caballero de los siete

Xataka México

El final de temporada de “El Caballero de los Siete Reinos” explicado por el creador de la serie . 09:20

La propuesta para el cierre de la serie, planteada por Parker al autor, aún no ha recibido objeciones tajantes y podría definir la adaptación de historias inéditas

Infobae

doble hoy no circula cdmx

¿Habrá Doble Hoy No Circula este domingo 22 de febrero en CDMX y Edomex?. 08:20

El Doble Hoy No Circula se activa ante la Fase 1 de contingencia ambiental, lo que significa que más unidades deben suspender sus actividades

El Informador

¿Hay Hoy No Circula este domingo en CDMX y Edomex?. 10:29

El programa Hoy No Circula no aplicará este domingo 22 de febrero de 2026 en la Zona Metropolitana del Valle de México. Así lo establece el reglamento oficial de movilidad vigente en la capital y municipios conurbados. Muchos automovilistas se preguntan si pueden usar su vehículo sin riesgo de multa. Sin embargo, la norma es […]The post

Seunonoticias.mx

Calidad del aire en la CDMX esta semana: ¿Activarán este 23 de febrero el Doble No Circula?. 06:08

Se mantendrán condiciones meteorológicas que podrían influir en la calidad del aire y, de ser necesario, en la aplicación de restricciones vehiculares según los niveles de contaminación.Te puede interesar | El tiempo en CDMX esta semana: temperaturas congelantes y fuertes rachas de vientoEn la semana, entre la noche y la madrugada, la calidad

Meteored.mx