¡Aprende idiomas de forma natural con contenido fresco y auténtico!

Temas populares
Explorar por región
El software TorchPass de Clockwork.io previene los fallos de entrenamiento de IA al permitir la migración de GPU en vivo, ahorrando millones anualmente en grandes clústeres de IA.
Clockwork.io ha lanzado TorchPass, una solución de software que permite la migración de GPU en vivo y la tolerancia a fallos en grandes clústeres de entrenamiento de IA, evitando costosos reinicios durante fallas de hardware, problemas de red o errores de controlador.
El sistema mantiene la continuidad de entrenamiento sin puntos de control, admite failover reactivo, proactivo y basado en mantenimiento, y puede ahorrar más de 6 millones de dólares anuales en una configuración de 2,048 GPU.
A medida que las tasas de fallo aumentan en grupos masivos, reduciendo el tiempo medio de fallo a solo 1.8 horas en un sistema de 16,384 GPU, TorchPass mejora la confiabilidad, la utilización de GPU y la eficiencia del entrenamiento del modelo.
Los primeros usuarios informan de un mayor rendimiento, resiliencia y rendimiento del acuerdo de nivel de servicio, ofreciendo una solución impulsada por software a una importante barrera de costos en la infraestructura de IA.
Clockwork.io's TorchPass software prevents AI training crashes by enabling live GPU migration, saving millions annually in large AI clusters.