Guía de dimensionamiento y escalado de puertas de enlace

Es fundamental asignar recursos suficientes al gateway para mantener su confiabilidad y evitar la pérdida de datos. Si la puerta de enlace falla, corre el riesgo de perder telemetry data, lo que puede afectar sus capacidades de monitoreo y análisis.

Esta guía lo ayuda a determinar los recursos adecuados para implementar y escalar el control de pipelines gateway en su entorno. Comprender estas especificaciones es esencial para garantizar un rendimiento óptimo y un procesamiento de datos eficiente.

Configuración predeterminada

De forma predeterminada, la puerta de enlace está configurada con una asignación de memoria predeterminada de 2 GB y 1 vCPU por pod. Además, el clúster de puerta de enlace se configura inicialmente durante la instalación con las siguientes configuraciones (estas se pueden modificar luego de la configuración inicial de la puerta de enlace):

minReplicas: 6 maxReplicas: 10 targetCPUUtilizationPercentage: 60

Escalando la puerta de enlace

La puerta de enlace de Control de tuberías debe mantener suficiente capacidad de cálculo para procesar la totalidad de telemetry data que recibe. Dados los tamaños variables y el rendimiento de los diferentes agentes y la carga de trabajo de telemetría, recomendamos adoptar un enfoque por etapas para escalar su clúster de puerta de enlace a fin de pronosticar cuánta capacidad podría necesitar:

Configure un pequeño conjunto (-15-35) de agentes de no producción para enviar telemetry data al gateway. Asegúrate de que estos agentes sean representativos de los tipos de agentes y cargas de telemetría que pretendes enviar al gateway en producción (por ejemplo, New Relic Infrastructure, Java APM y Fluent Bit). Tome nota del número de agentes de cada uno.
Confirme que está recopilando estos telemetry data en New Relic.
Monitorear el clúster de puerta de enlace para identificar la cantidad de vCPU y el uso promedio de CPU durante unos pocos minutos de carga. Esto le dará una idea de cuántas vCPU se necesitan para ejecutar este conjunto de agentes.
Extrapole linealmente en función del número de agentes que haya configurado, el número de agentes que espera ejecutar en el pico de producción y el uso de CPU en el paso 3. Por ejemplo, si está ejecutando 25 agentes APM de Java a través del gateway y observa que solo 1 vCPU funciona con una carga del 65 %, debería esperar poder ejecutar 200 agentes APM de Java con <= 8 vCPU.
Configure un conjunto mayor de agentes para enviar datos a la puerta de enlace (por ejemplo, 100) y confirme que su extrapolación lineal en el paso 4 aún es válida.
Cerciorar de que su maxReplicas sea lo suficientemente grande como para escalar suficiente pod según la cantidad de agentes que espera ejecutar en producción.
Luego de configurar todo el agente de producción y telemetry data para enviar datos al gateway, continúe monitoreando su clúster de gateway para cerciorar de que no esté operando al 100% de su capacidad o más allá de ella.

Especificaciones de rendimiento

Con un solo núcleo de CPU y 100 reglas de eliminación por tipo MELT, la puerta de enlace puede procesar los siguientes volúmenes de telemetry data:

Tipo de datos	Capacidad de procesamiento
Métrica	7.000 puntos de datos por segundo
Evento	4.500 eventos por segundo
Logs	2.700 logs por segundo
Traza	3.300 palmos por segundo

Capacidad de manejo de agentes

Un solo pod de puerta de enlace puede manejar entre 15 y 35 agentes, con tamaños de solicitud que varían entre 26 y 250 KB de datos sin comprimir por segundo.

A diagram representing gateway pod agent handling capacity.

Sugerencia

Estas estimaciones de capacidad se basan en mediciones del despliegue existente. Sus requisitos reales pueden variar dependiendo de sus patrones de datos específicos y sus necesidades de monitoreo.

Recomendaciones para la configuración de la puerta de enlace

Para mejorar aún más el rendimiento y la escalabilidad de su puerta de enlace, considere las siguientes configuraciones basadas en su agente mapeo. Para acceder a estas configuraciones, vaya a New Relic Control > Gateway > Settings.

Importante

Diferencias del modo de instalación: la configuración se establece a nivel de flota y se aplica a todos los clústeres de esa flota. Si su flota utiliza la instalación sin Flux, la página de configuración muestra los valores actuales como de solo lectura para los ajustes de escalado y versión. Sin embargo, los dos interruptores de resolución de problemas (recopilar registros de diagnóstico, omitir reglas de puerta de enlace) permanecen editables en ambos modos. Los cambios de configuración de Pipeline (reglas, muestreo, transformaciones) continúan desplegándose automáticamente a través de ConfigMap en ambos modos de instalación. Para las flotas sin Flux, el escalado posterior a la instalación se administra mediante Horizontal pod Autoscaler (HPA) y las versiones mediante actualizaciones de Helm. Consulta Administrar el gateway sin Flux para obtener instrucciones.

Réplicas mínimas y máximas

Réplicas mínimas: establezca una línea base de número de réplicas de puerta de enlace para acomodar cargas de datos regulares, lo que garantiza redundancia y confiabilidad. Esto ayuda a prevenir la pérdida de datos y mantiene la estabilidad del rendimiento durante los periodos pico. El valor mínimo recomendado es 2, que también es la configuración predeterminada.
Máximo de réplicas: determine la cantidad máxima de réplicas necesarias para gestionar de manera eficaz los periodos de uso pico. Esta configuración permite que el clúster de puerta de enlace se escale dinámicamente, proporcionando recursos suficientes para alto tráfico sin comprometer el rendimiento. Puede configurar hasta un máximo de 15 réplicas.

Umbral de utilización de la CPU

Umbral de escalamiento: especifique el porcentaje de utilización de la CPU en el que su clúster de puerta de enlace se escalará automáticamente. La configuración de un umbral de escala garantiza una gestión eficiente de los recursos, evitando la sobrecarga y manteniendo un procesamiento de datos constante. La configuración predeterminada es 60%.

Gestión de la salud y el rendimiento

Recopilar logs de diagnóstico: revise periódicamente los logs de diagnóstico de la puerta de enlace para obtener información valiosa sobre el estado y el funcionamiento de la puerta de enlace. El monitoreo de logs es esencial para la resolución oportuna de problemas y mantener un rendimiento óptimo. De forma predeterminada, el log de diagnóstico está desactivado.
Omitir reglas de puerta de enlace: en caso de pocos recursos de CPU disponibles, omitir reglas de puerta de enlace complejas. Esta precaución garantiza el flujo continuo de datos a New Relic, incluso si se reciben datos confidenciales, lo que permite la conservación de recursos y el procesamiento de telemetría ininterrumpido. De forma predeterminada, la omisión de las reglas de puerta de enlace está desactivada.

Gestión de versiones del gateway

Selección de versión: elija qué versión del software de gateway (versión del chart de Helm) desplegar en todos los clústeres de la flota. Las versiones disponibles se muestran en un desplegable. Para las flotas instaladas con Flux, seleccione una nueva versión, haga clic en Save settings para crear un borrador de despliegue, luego despliegue el borrador para actualizar todos los clústeres de la flota. Para aplicar los cambios, consulte Desplegar sus cambios. Para las flotas instaladas sin Flux, el campo de versión es de solo lectura. Debe actualizar manualmente usando comandos de Helm como se describe en Administración del gateway sin Flux.

Próximo paso

A continuación, aprenderá cómo modificar la configuración de su agente para enviar datos a través de la puerta de enlace.

Te ofrecemos esta traducción automática para facilitar la lectura.