Bajo el capó

Una API que cabe
en una línea.

Sin SDK obligatorio, sin YAML de mil líneas. Empujas un modelo y obtienes un endpoint global. El resto lo resuelve el tejido.

halcyon — deploy

▍

Developer experience

Despliega como haces
git push.

Un comando publica tu modelo en las 38 regiones. El endpoint es global desde el primer segundo y escala a cero cuando nadie lo usa.

Endpoint HTTPS global instantáneo
Claves y cuotas por equipo
Rollback atómico a cualquier versión
Métricas y trazas sin configurar nada

Llamada de inferencia

Pides. Responde en 9 ms.

# una petición, enrutada al nodo más cercano
curl https://api.halcyon.dev/v3/infer \
  -H "Authorization: Bearer $HALCYON_KEY" \
  -d '{
       "model": "mi-modelo",
       "input": "Resume el informe Q3",
       "stream": true
     }'

# → primer token en 9 ms · región: mad1

Especificaciones

Lo esencial.

Runtime: WASM aislado + GPU passthrough
Formatos: GGUF · ONNX · safetensors
Protocolos: HTTP/3 · SSE · WebTransport · gRPC
Regiones: 38 · expansión continua
Cuantización: fp16 · int8 · int4
Cold-start: 0 ms (pesos calientes)

Changelog

Qué hay de nuevo.

v3.4rendimiento27 jun 2026

Enrutado por afinidad geográfica con caché de pesos L2.
v3.3modelos12 jun 2026

Soporte para modelos cuantizados int4 con pérdida < 0,5 %.
v3.2api28 may 2026

Streaming de tokens vía Server-Sent Events y WebTransport.
v3.1infra09 may 2026

Regiones en São Paulo, Bombay y Johannesburgo.

Una API que cabeen una línea.

Despliega como hacesgit push.

Lo esencial.

Qué hay de nuevo.

Una API que cabe
en una línea.

Despliega como haces
git push.