Skip to main content

Platform Reliability/QA Engineer

Tecnología
MAIA AESTHETICS
Cataluña, EspañaHace 1 semanasHasta 1/8/2026

Descripción del puesto

Responsable de que el sistema funcione 24/7, de detectar regresiones antes que los clientes, de mantener al día credenciales/dominios y de construir — con apoyo agéntico — la infraestructura de observabilidad, alertas y QA.

Este perfil es multiplicador : libera a los developers de tareas de soporte, monitoreo y verificación, y empuja la confiabilidad del sistema con ayuda de agentes.

ResponsabilidadesQuality assurance & testing

  • Diseñar y mantener suites de tests end-to-end sobre flujos críticos (login, alta de paciente, facturación, captura de audio, citas).
  • Construir y mantener tests de regresión que se ejecutan automáticamente antes de cada despliegue.
  • Hacer smoke tests post-deploy en cada tenant que aplique.
  • Levantar y mantener un entorno de staging que refleje producción.
  • Reportar bugs con repro mínimo
Monitoreo de la plataforma
  • Diseñar y mantener el stack de observabilidad : métricas, logs centralizados, dashboards, healthchecks por servicio.
  • Construir alertas accionables para: caídas de servicios, latencia anómala, errores 5xx, colas estancadas, fallos de cron jobs, espacio en disco, conexiones DB.
  • On-call ligero (con apoyo agéntico para triaging inicial) durante horas hábiles y rotación pactada fuera de horario.
  • Post-mortems breves y accionables tras cualquier incidente.
Monitoreo de cuentas y dependencias externas
  • Llevar inventario y vigilancia activa de servicios de terceros AWS, Stripe, Twilio, dominios, certificados SSL, licencias. Alertas antes de que se agoten.
  • Renovación proactiva de dominios, certificados, licencias.
  • Vigilar límites de uso y proyecciones de costo mensual; identificar anomalías.
  • Mantener un dashboard único con el estado de todas las cuentas externas.
Monitoreo de repos y código
  • Mantener al día las dependencias
  • Vigilar CVE / vulnerabilidades en dependencias críticas.
  • Auditar PRs antes de merge.
  • Mantener CI green : si hay tests rotos, los persigue hasta cerrar.
Soporte
  • Primera línea de soporte técnico interno (al equipo y, eventualmente, a clínicas usuarias).
  • Triage de tickets: distingue bug real vs error de usuario vs configuración faltante.
  • Mantener una base de conocimiento (FAQ, runbooks) que crece con cada incidente.
Uso activo de IA
  • Agentes de monitoreo: construye agentes que revisan logs, dashboards y métricas y le entregan resúmenes ejecutables (no streams crudos).
  • Agentes de QA: usa agentes para generar casos de test a partir de specs/PRs, ejecutar regresiones en background y reportar diferencias.
  • Agentes de triage: usa agentes para clasificar tickets entrantes, sugerir runbook aplicable y escalar solo lo que necesita humano.
  • Agentes de auditoría: usa agentes para revisar diffs de PRs grandes, encontrar inconsistencias y sugerir áreas a testear.
  • No delega al modelo decisiones de severidad ni comunicación con cliente final.
Stack que vas a tocar Imprescindible:

  • Conocimiento operativo de Linux / Bash
  • Docker (logs, exec, compose)
  • Git y revisión de PRs
  • Alguna herramienta de observabilidad (Grafana, Datadog, New Relic, CloudWatch, Sentry, Prometheus — al menos una con experiencia real)
  • Alguna herramienta de testing E2E (Playwright, Cypress, Puppeteer)
  • Postman / Insomnia / . files para validar APIs
  • SQL básico (consultar la DB para reproducir bugs)
  • GitHub Actions u otro CI/CD
Ayuda mucho tener exposición:
  • AWS CloudWatch, S3, SQS, EC2 (entorno actual)
  • Sentry o equivalente para tracking de errores
  • Statuspage o equivalente para comunicación de incidentes
  • Scripting (Python o Node) para automatizar checks recurrentes
  • Bases de datos (PostgreSQL, conexiones, queries de diagnóstico)
  • Healthcare / data sensible (HIPAA, GDPR conceptualmente — no es legal advisor pero entiende implicaciones)
Experiencia esperada
  • Experiencia demostrable usando herramientas agénticas para resolver problemas reales (Claude Code, Cursor, Codex en flows de scripting/automation/QA). Comparte un ejemplo.
  • Experiencia en roles de SRE / DevOps / QA / Soporte técnico / Platform Engineer.
  • Experiencia construyendo o manteniendo alertas accionables (sabe distinguir signal de ruido).
  • Capacidad demostrada de escribir runbooks claros .
  • Disciplina obsesiva con el detalle. Este rol es el último filtro antes de que un bug llegue al cliente.
  • Comunicación clara en español (escrita y verbal).
Deseable
  • Experiencia en startups pequeñas donde se hace de todo.
  • Experiencia construyendo scripts/agentes de automatización que reemplazan trabajo manual recurrente.
  • Repositorios públicos con automation scripts, runbooks, dashboards.
  • Experiencia con status pages / incident communication .
  • Conocimiento de billing y FinOps (vigilancia de costos cloud).
  • Experiencia en healthcare / fintech (compliance, datos sensibles).
Soft skills críticos
  • Pensamiento de checklist. Detallista de los errores
  • Paranoia productiva. Asume que algo se va a romper y se prepara.
  • Productivo y proactivo bajo estrés. Triage, prioriza, ejecuta, comunica.
  • Construye en lugar de tolerar. Si algo te despierta dos veces, lo automatizadas

¿Te interesa este puesto?