Voltar ao centro de ajuda

Incidente de 20/10/2025

#

No dia 20 de outubro, nossos serviços sofreram uma degradação significativa devido a uma interrupção de grande porte na região us-east-1 da Amazon Web Services (AWS), que afetou a disponibilidade dos recursos de computação (EC2). Durante o evento, a AWS deixou de provisionar novas instâncias, o que impediu que nossa infraestrutura pudesse escalar e manter a capacidade operacional habitual.

Em resumo, nosso banco de dados permaneceu operacional, mas os servidores responsáveis por atender às requisições começaram a saturar e não conseguiam aumentar sua capacidade.

Embora a origem do incidente tenha sido totalmente externa à Sytex, o alcance global da falha da AWS evidenciou oportunidades para fortalecer nossa resiliência operacional. Durante o evento, implantamos um cluster de computação de contingência na região us-east-2 (Ohio), o que permitiu restabelecer a continuidade do serviço. Atualmente, estamos otimizando esse processo para que, em cenários semelhantes, a comutação ocorra de forma mais ágil e com menor tempo de inatividade.

Atualmente estamos implementando melhorias estruturais para estarmos preparados caso uma situação similar volte a ocorrer. Entre as ações já em andamento estão:

  • Otimização do nosso processo de disaster recovery, com tempos de comutação mais rápidos.
  • Avaliação de uma estratégia multi-região permanente para garantir alta disponibilidade diante de falhas regionais.

Lamentamos os transtornos causados e reafirmamos nosso compromisso com a confiabilidade e estabilidade operacional da plataforma.


Algumas respostas a perguntas feitas por nossos usuários

Por que vocês não têm redundância operacional?

Nós temos redundância operacional. A AWS oferece redundância completa em zonas de disponibilidade (AZ) .

Cada zona de disponibilidade possui recursos redundantes de rede, energia, armazenamento, etc. A infraestrutura da Sytex está distribuída em diferentes zonas de disponibilidade. A falha de 20 de outubro superou esse mecanismo de proteção.

Por que vocês não têm redundância entre regiões?

A redundância entre regiões adiciona latência e custos operacionais que, até então, entendíamos não serem justificados, dado o nível de segurança oferecido por implantações multi-AZ. Apesar da baixa probabilidade de um evento desse tipo, estamos considerando uma implantação multi-região dos recursos de computação.

Por que vocês não têm redundância multi-cloud?

A Sytex possui uma natureza de persistência transacional que torna complexas as operações multi-cloud. No entanto, essa é nossa última linha de defesa.

Além de armazenar backups em um cofre air-gapped da AWS , também replicamos dados persistentes em outro provedor de nuvem para poder recuperar a capacidade operacional em caso de um incidente catastrófico.