Bajo el capó Una API que cabe
Una API que cabe
en una línea.
Sin SDK obligatorio, sin YAML de mil líneas. Empujas un modelo y obtienes un endpoint global. El resto lo resuelve el tejido.
Developer experience Despliega como haces
Despliega como haces
git push.
Un comando publica tu modelo en las 38 regiones. El endpoint es global desde el primer segundo y escala a cero cuando nadie lo usa.
- Endpoint HTTPS global instantáneo
- Claves y cuotas por equipo
- Rollback atómico a cualquier versión
- Métricas y trazas sin configurar nada
Pides. Responde en 9 ms.
# una petición, enrutada al nodo más cercano
curl https://api.halcyon.dev/v3/infer \
-H "Authorization: Bearer $HALCYON_KEY" \
-d '{
"model": "mi-modelo",
"input": "Resume el informe Q3",
"stream": true
}'
# → primer token en 9 ms · región: mad1 Especificaciones
Lo esencial.
- Runtime
- WASM aislado + GPU passthrough
- Formatos
- GGUF · ONNX · safetensors
- Protocolos
- HTTP/3 · SSE · WebTransport · gRPC
- Regiones
- 38 · expansión continua
- Cuantización
- fp16 · int8 · int4
- Cold-start
- 0 ms (pesos calientes)
Changelog
Qué hay de nuevo.
- v3.4rendimiento27 jun 2026
Enrutado por afinidad geográfica con caché de pesos L2.
- v3.3modelos12 jun 2026
Soporte para modelos cuantizados int4 con pérdida < 0,5 %.
- v3.2api28 may 2026
Streaming de tokens vía Server-Sent Events y WebTransport.
- v3.1infra09 may 2026
Regiones en São Paulo, Bombay y Johannesburgo.