El “Calendario de Adviento” del Machine Learning, Día 2: clasificador k-NN en Excel Mas Cipolleti

El “Calendario de Adviento” del Machine Learning, Día 2: clasificador k-NN en Excel. Noticias en tiempo real 03 de Diciembre, 2025 06:00

El regresor k-NN y la idea de predicción basada en distancia, ahora veamos el clasificador k-NN.

El principio es el mismo, pero la clasificación nos permite introducir varias variantes útiles, como el radio de vecinos más cercanos, el centro más cercano, la predicción multiclase y los modelos de distancia probabilísticos.

Por lo tanto, primero implementaremos el clasificador k-NN y luego discutiremos cómo se puede mejorar.

Puede utilizar esta hoja de cálculo de Excel/Google mientras lee este artículo para seguir mejor todas las explicaciones.

Clasificador k-NN en Excel – imagen del autor

Conjunto de datos de supervivencia del Titanic

Usaremos el conjunto de datos de supervivencia del Titanic, un ejemplo clásico en el que cada fila describe a un pasajero con características como clase, sexo, edad y tarifa, y el objetivo es predecir si el pasajero sobrevivió.

Conjunto de datos de supervivencia del Titanic – imagen del autor – CC0: Dominio público licencia

Principio k-NN para clasificación

El clasificador k-NN es tan similar al regresor k-NN que casi podría escribir un solo artículo para explicarlos a ambos.

De hecho, cuando buscamos el k vecinos más cercanos, no usamos el valor de cualquier manera, mucho menos su naturaleza.

PERO, todavía hay algunos datos interesantes sobre cómo se construyen los clasificadores (binarios o multiclase) y cómo las características se pueden tratar de manera diferente.

Comenzamos con la tarea de clasificación binaria y luego con la clasificación multiclase.

Un recurso continuo para la clasificación binaria.

Muy rápidamente, podemos hacer el mismo ejercicio para una característica continua con este conjunto de datos.

Para el valor de y, normalmente usamos 0 y 1 para distinguir las dos clases. Pero tal vez notes, o notarás, que esto puede ser una fuente de confusión.

Clasificador k-NN en Excel – Un recurso continuo – imagen del autor

Ahora piénsalo: 0 y 1 también son números, ¿verdad? Entonces podemos hacer exactamente el mismo proceso que si estuviéramos haciendo una regresión.

Así es. Nada cambia en el cálculo, como puedes ver en la imagen de abajo. Y, por supuesto, puedes intentar modificar tú mismo el valor de la nueva observación.

Clasificador k-NN en Excel – predicción para una característica continua – imagen del autor

La única diferencia es cómo interpretamos el resultado. Cuando tomamos el “promedio” de los resultados de los vecinos valores, este número se entiende como la probabilidad de que la nueva observación pertenezca a la clase 1.

Entonces, en realidad, el valor “promedio” no es la buena interpretación, sino la proporción de clase 1.

También podemos crear manualmente este gráfico para mostrar cómo cambia la probabilidad prevista en un rango de incógnita valores.

Tradicionalmente, para evitar terminar con una probabilidad del 50%, elegimos un valor impar para kpara que siempre podamos decidir por mayoría.

Clasificador k-NN en Excel – predicciones para una característica continua – imagen del autor

Dos características para la clasificación binaria

Si tenemos dos características, la operación también es casi la misma que la del regresor k-NN.

Clasificador k-NN en Excel – dos características continuas – imagen del autor

Una característica para la clasificación multiclase.

Ahora, tomemos un ejemplo de tres clases para la variable objetivo y.

Entonces podemos ver que ya no podemos usar la noción de “promedio”, ya que el número que representa la categoría no es en realidad un número. Y mejor deberíamos llamarlos “categoría 0”, “categoría 1” y “categoría 2”.

Clasificador k-NN en Excel – clasificador multiclase – imagen del autor

De k-NN a los centroides más cercanos

Cuando k se vuelve muy grande

Ahora, hagamos k grande. ¿Qué tan grande? Lo más grande posible.

Recuerde, también hicimos este ejercicio con el regresor k-NN y la conclusión fue que si k es igual al número total de observaciones en el conjunto de datos de entrenamiento, entonces el regresor k-NN es el estimador del valor medio simple.

Para el clasificador k-NN, es casi lo mismo. Si k es igual al número total de observaciones, entonces para cada clase obtenemos su proporción general dentro de todo el conjunto de datos de entrenamiento.

¡Algunas personas, desde un punto de vista bayesiano, llaman a estas proporciones prioritarias!

Pero esto no nos ayuda mucho a clasificar una nueva observación, porque estas observaciones previas son las mismas para todos los puntos.

La creación de centroides

Así que demos un paso más.

Para cada clase, también podemos agrupar todos los valores de las características. incógnita pertenecientes a esta clase y calcular su promedio.

Estos vectores de características promedio son lo que llamamos centroides.

¿Qué podemos hacer con estos centroides?

Podemos usarlos para clasificar una nueva observación.

En lugar de volver a calcular las distancias desde todo el conjunto de datos hasta cada nuevo punto, simplemente medimos la distancia a cada centroide de clase y asignamos la clase al más cercano.

Con el conjunto de datos de supervivencia del Titanic, podemos comenzar con una sola característica, edady calcule los centroides para las dos clases: pasajeros que sobrevivieron y pasajeros que no sobrevivieron.

Clasificador k-NN en Excel – Centroides más cercanos – imagen del autor

Ahora también puede utilizar múltiples funciones continuas.

Por ejemplo, podemos utilizar las dos funciones edad y tarifa.

Clasificador k-NN en Excel – Centroides más cercanos – imagen del autor

Y podemos discutir algunas características importantes de este modelo:

  • La escala es importante, como comentamos antes para el regresor k-NN.
  • Los valores faltantes no son un problema aquí: cuando calculamos los centroides por clase, cada uno se calcula con los valores disponibles (no vacíos)
  • Pasamos del modelo más “complejo” y “grande” (en el sentido de que el modelo real es el conjunto de datos de entrenamiento completo, por lo que tenemos que almacenar todo el conjunto de datos) al modelo más simple (solo usamos un valor por característica y solo almacenamos esos valores como nuestro modelo)

De altamente no lineal a ingenuamente lineal

Pero ahora, ¿se te ocurre una gran desventaja?

Si bien el clasificador k-NN básico es altamente no lineal, el método del centroide más cercano es extremadamente lineal.

En este ejemplo 1D, los dos centroides son simplemente los valores x promedio de la clase 0 y la clase 1. Dado que estos dos promedios están cerca, el límite de decisión se convierte en solo el punto medio entre ellos.

Por lo tanto, en lugar de un umbral irregular por partes que depende de la ubicación exacta de muchos puntos de entrenamiento (como en k-NN), obtenemos un corte recto que solo depende de dos números.

Esto ilustra cómo los centroides más cercanos comprimen todo el conjunto de datos en una regla simple y muy lineal.

Clasificador k-NN en Excel – Linealidad de centroides más cercanos – imagen del autor

Una nota sobre la regresión: por qué no se aplican los centroides

Ahora bien, este tipo de mejora no es posible para el regresor k-NN. ¿Por qué?

En la clasificación, cada clase forma un grupo de observaciones, por lo que tiene sentido calcular el vector de características promedio para cada clase, y esto nos da los centroides de clase.

Pero en la regresión, el objetivo es continuo. No existen grupos discretos, ni límites de clase y, por lo tanto, no hay una forma significativa de calcular “el centroide de una clase”.

Un objetivo continuo tiene infinitos valores posibles, por lo que no podemos agrupar las observaciones por su valor para formar centroides.

El único “centroide” posible en la regresión sería el promedio mundialque corresponde al caso k = N en el regresor k-NN.

Y este estimador es demasiado simple para ser útil.

En resumen, el clasificador de centroides más cercano es una mejora natural de la clasificación, pero no tiene un equivalente directo en regresión.

Otras mejoras estadísticas

¿Qué más podemos hacer con el clasificador k-NN básico?

Media y varianza

Con el clasificador de centroide más cercano, usamos la estadística más simple que es la promedio. Un reflejo natural en estadística es sumar la variación también.

Así que ahora la distancia ya no es euclidiana, sino mahalanobis distancia. Utilizando esta distancia obtenemos la probabilidad en base a la distribución caracterizada por la media y la varianza de cada clase.

Manejo de características categóricas

Para características categóricas, no podemos calcular medias o variaciones. Y para el regresor k-NN, vimos que era posible realizar codificación one-hot o codificación ordinal/etiqueta. Pero la escala es importante y no es fácil de determinar.

Aquí podemos hacer algo igualmente significativo, en términos de probabilidades: podemos contar las proporciones de cada categoría dentro de una clase.

Estas proporciones actúan exactamente como las probabilidades, describiendo la probabilidad de cada categoría dentro de cada clase.

Esta idea está directamente relacionada con modelos como Bayes categóricamente ingenuodonde las clases se caracterizan por distribuciones de frecuencia sobre las categorías.

Distancia ponderada

Otra dirección es introducir pesos, de modo que los vecinos más cercanos cuenten más que los distantes. En scikit-learn, existe el argumento de los “pesos” que nos permite hacer esto.

También podemos cambiar de “k vecinos” a un radio fijo alrededor de la nueva observación, lo que conduce a clasificadores basados en radio.

Vecinos más cercanos del radio

En ocasiones podemos encontrar el siguiente gráfico para explicar el clasificador k-NN. Pero en realidad, con un radio como este, refleja más la idea del radio de los vecinos más cercanos.

Una ventaja es el control vecinal. Es especialmente interesante cuando conocemos el significado concreto de la distancia, como la distancia geográfica.

Clasificador de vecinos más cercanos de radio – imagen del autor

Pero la desventaja es que es necesario conocer el radio de antemano.

Por cierto, esta noción de radio de los vecinos más cercanos también es adecuada para la regresión.

Resumen de las diferentes variantes.

Todos estos pequeños cambios dan lugar a diferentes modelos, cada uno de los cuales intenta mejorar la idea básica de comparar vecinos según una definición de distancia más compleja, con un parámetro de control que nos permita obtener vecinos locales, o una caracterización más global del barrio.

No exploraremos todos estos modelos aquí. Simplemente no puedo evitar ir demasiado lejos cuando una pequeña variación conduce naturalmente a otra idea.

Por ahora, considere esto como un anuncio de los modelos que implementaremos a finales de este mes.

Variantes y mejoras del clasificador k-NN – imagen del autor

Conclusión

En este artículo, exploramos el clasificador k-NN desde su forma más básica hasta varias extensiones.

La idea central realmente no cambia: una nueva observación se clasifica observando qué tan similar es a los datos de entrenamiento.

Pero esta sencilla idea puede adoptar muchas formas diferentes.

Con características continuas, la similitud se basa en la distancia geométrica.
Con características categóricas, analizamos con qué frecuencia aparece cada categoría entre sus vecinas.

Cuando k se vuelve muy grande, todo el conjunto de datos se reduce a solo unas pocas estadísticas resumidas, lo que naturalmente conduce a Clasificador de centroides más cercano.

Comprender esta familia de ideas basadas en la distancia y la probabilidad nos ayuda a ver que muchos modelos de aprendizaje automático son simplemente formas diferentes de responder la misma pregunta:

¿A qué clase se parece más esta nueva observación?

En los próximos artículos continuaremos explorando modelos basados en densidad, que pueden entenderse como medidas globales de similitud entre observaciones y clases.

Fuente


Compartir en:
   

 

 

"La Mañanera" de Sheinbaum de hoy lunes 23 de febrero de 2026. 07:12

Claudia Sheinbaum. Conoce los temas más importantes de la conferencia "mañanera del pueblo" de la Presidenta de México de este lunes 23 de febrero de 2026

El Informador

Garantiza Gobierno de la Ciudad prestación de todos los servicios municipales. 07:30

Se realiza trabajo de manera coordinada entre los niveles para garantizar la paz y la tranquilidad de las y los poblanos. Puebla, Pue.- Con el objetivo de que la ciudadanía realice todas sus actividades de manera cotidiana, el Gobierno de la Ciudad que encabeza el presidente municipal, Pepe Chedraui, garantiza que todos los servicios municipales [

Paralelo19.tv

Consejos para reservar vuelos económicos que transformarán tu forma de viajar.

Si estás buscando consejos para reservar vuelos económicos, la buena noticia es que no necesitas fórmulas secretas: basta con combinar anticipación, flexibilidad y un proceso de búsqueda ordenado.

Lado.mx

Cómo consultar tu estado de cuenta afore y su importancia.

Shutterstock El seguimiento de tu ahorro para el retiro es fundamental para planificar tu futuro financiero. Es esencial estar al tanto de tu estado de cuenta Afore para conocer cómo crece tu patrimonio a lo largo de tu vida laboral.

Lado.mx

Oxandrolona: qué es, beneficios para ganar masa muscular y precauciones antes de usar este esteroide anabólico.

En el mundo del deporte y el culturismo, los suplementos y esteroides han ganado popularidad debido a sus efectos potenciadores del rendimiento. Uno de los compuestos más discutidos es la Oxandrolona, conocida por su capacidad para ayudar a mejorar la fuerza y la masa muscular magra.

Lado.mx

Claudia Sheinbaum llama a la calma tras operativo federal y violencia.05:40

La mandataria mexicana apunta que su administración labora para garantizar la paz en el país

El Informador

La AARC y el momento decisivo del campo. 06:31

El viernes pasado se llevó a cabo la asamblea general de la Asociación de Agricultores del Río Culiacán A.C., uno de los organismos agrícolas más representativos de todo México. Fue una reunión institucional que permitió revisar avances, reconocer el entorno actual y reafirmar compromisos con el sector productivo. La AARC, con más de nuev

Los Noticieristas

Ciudad de Guatemala: la previsión meteorológica para este 23 de febrero. 06:30

Para evitar cualquier imprevisto es importante conocer el pronóstico del tiempo

Infobae

Reportan presencia de personas armadas en el Aeropuerto Internacional de Guadalajara. 12:36

Momentos de tensión y caos se vivieron en el Aeropuerto Internacional de Guadalajara, luego de que se reportara la presunta presencia de personas armadas en el interior de sus instalaciones. A través de videos difundidos por usuarios en redes sociales, se escuchan detonaciones y se observa una camioneta tipo estaquitas circulando por la zona de [

Partidero.com

La vez que ‘Pollo’ Briseño, ex de Chivas, mandó saludos a Nemesio Oseguera Cervantes: ‘Quiero agradecerte’. 18:20

Video de ‘Pollo’ Briseño saludando a Nemesio Oseguera Cervantes se viralizó en 2022; sin embargo, se desconoce si este clip fue solicitado por "El Mencho".

El Financiero

Queman 20 sucursales del Banco del Bienestar en Jalisco tras abatimiento de “El Mencho”. 17:28

Presuntos integrantes del Cártel de Jalisco Nueva Generación incendiaron 20 sucursales del Banco del Bienestar en distintos municipios del estado. Las autoridades informaron que los ataques ocurrieron horas después del abatimiento de Nemesio Oceguera Cervantes, alias “El Mencho”, señalado como líder del CJNG. ¿Qué ocurrió y dónde? Los

Seunonoticias.mx

el universal mexico

México, mayor proveedor de los EU por tercer año. 20 de Febrero, 2026 11:20

CIUDAD DE MÉXICO (EL UNIVERSAL).- México se mantuvo durante 2025 por tercer año al hilo como el principal proveedor de mercancías de Estados Unidos, de acuerdo con información del Departamento de Comercio del país vecino. Datos de la balanza comercial indican que las mercancías con la etiqueta Made in Mexico representaron 15.7% de todas las

Periódico Contacto

Netflix acaba de comprar la primera película de stop-motion creada en México con un objetivo: darla a conocer a todo el mundo . 20 de Febrero, 2026 11:24

Creímos que era una producción exclusiva de HBO Max, pero alguien se adelantó. La primera película stop-motion hecha en su totalidad en México acaba de ser adquirida por el gigante del streaming. La plataforma Netflix ya tiene los derechos de distribución y lo hace con un objetiv

Xataka México

Shakira ofrecerá concierto gratuito en el Zócalo de Ciudad de México el 1 de marzo. 20 de Febrero, 2026 19:51

Brugada destacó el carácter cultural del evento y dio la bienvenida a la intérprete colombiana quien, dijo, es la artista “más querida y universal de Barranquilla Colombia”La entrada Shakira ofrecerá concierto gratuito en el Zócalo de Ciudad de México el 1 de marzo se publicó primero en La Voz de Michoacán.

La Voz de Michoacán

88.9

Vivimos en la era de los multimillonarios Tech: 2.919 personas ya controlan casi 14 billones de euros . 09 de Diciembre, 2025 12:04

Un informe de UBS recogido por Wall Street Journal ha revelado que el mundo ya cuenta con 2.919 multimillonarios, una cifra que revela un aumento del 8,8% respecto a los datos de 2024. Estos, según los datos del estudio, controlan 13,6 billones de euros, pero eso no es lo más preocup

3d Juegos

Las reservas de divisas aumentaron 1.680 millones de dólares hasta 688.940 millones de dólares.. 19 de Diciembre, 2025 10:30

El Banco de la Reserva de la India dijo que las reservas de divisas de la India aumentaron en 1.689 millones de dólares hasta 688.949 millones de dólares durante la semana que finalizó el 12 de diciembre. Archivo | Crédito de la foto: Reuters Las reservas de divisas de la India aumentaron en 1.689 millones […]

Mas Cipolleti

Las reservas de divisas aumentaron 1.680 millones de dólares hasta 688.940 millones de dólares.. 19 de Diciembre, 2025 10:30

El Banco de la Reserva de la India dijo que las reservas de divisas de la India aumentaron en 1.689 millones de dólares hasta 688.949 millones de dólares durante la semana que finalizó el 12 de diciembre. Archivo | Crédito de la foto: Reuters Las reservas de divisas de la India aumentaron en 1.689 millones […]

Mas Cipolleti

siete reinos

Cómo un caballero de los siete reinos reinventa en secreto a uno de los personajes principales del libro. 26 de Enero, 2026 01:10

Stephen Hill/HBO Se acerca el invierno y también los spoilers. Este artículo analiza Detalles de la trama principal Del episodio 2 de “Una Noche de los Siete Reinos”. Apuesto a que nunca esperabas “La Noche de los Siete Reinos” y “28 años después: templo de hueso” Entrar de repente en una competición en la q

Mas Cipolleti

¿Cómo se relacionan los Targaryens de los ‘Caballeros de los Siete Reinos’ con los demás?. 26 de Enero, 2026 02:07

Esta historia contiene spoilers.”Caballero de los Siete Reinos” Episodio 2, “Carne dura salada”. ¿Podrían estar mejorando las cosas para Sir Duncan Taller? El segundo episodio de “La Noche de los Siete Reinos”, la adaptación de HBO Por George RR Martín En la serie de novelas “Tales of Dunk and Egg”, e

Mas Cipolleti

¿Quiénes son Baelor, Maekar y Erion? “Caballero de los Siete Reinos” Targaryens explicó. 26 de Enero, 2026 05:17

el Targaryen Siempre ha sido una de las partes más fascinantes del universo de Juego de Tronos. Realmente solo hemos visto uno Game of Thrones (Sin contar a Jon Snow), sin embargo Casa del Dragón Eso lo compensa con creces con un espectáculo completo que se centra en los Targaryens luchando contra los Targaryens con […]

Mas Cipolleti