Instabilidade junto ao LiteSpeed Resolvido
Prioridade - Crítico Afetando Outros - Litespeed

Há uma instabilidade junto ao LiteSpeed Enterprise que esta sendo investigado pela desenvolvedora. Fizemos o update da última versão, mas mesmo assim não foi resolvido por completo.

Prazo: 15h15 até as 17h00

Troca de IP Resolvido
Prioridade - Crítico Afetando Outros - Rede dos Servidores

Devido às recentes falhas na rede da HostDime SP01 causadas por ataques DDoS que nunca visaram diretamente nossos servidores, mas acabaram afetando toda a rede, enfrentamos diversos impactos.

Após várias reuniões com o Data Center, chegamos a um consenso sobre uma solução que envolve a troca do bloco de IPs dos nossos servidores. Em caráter de EMERGÊNCIA, alteramos o IP do seu servidor para o IP abaixo:


Servidor PRO102 187.33.241.31
Servidor PRO103187.33.241.34
Servidor PRO104 187.33.241.37
Servidor PRO105187.33.241.40
Servidor PRO106187.33.241.43
Servidor PRO107187.33.241.46
Servidor PRO109187.33.241.49
Servidor PRO110187.33.241.52
Servidor PRO114187.33.241.58

Se você estiver utilizando o Cloudflare ou qualquer outra zona de DNS externa, por favor, corrija o apontamento imediatamente. Se estiver utilizando o nosso cluster de DNS, nenhuma alteração é necessária.

 

Problemas no gateway de pagamento Resolvido
Prioridade - Alto Afetando Outros - Iugu

A IUGU (gateway de pagamento) está com problemas para gerar PIX, Boletos e pagamentos via cartão.

Segue o link do status deles:

https://status.iugu.com/incidents/rvzgbkmczqk5

Previsão: Até às 15:55 hrs para normalização.

Rede Pública - Data Center SP01 Resolvido
Prioridade - Crítico Afetando Outros - Entrada do DC

Mitigação de tráfego na rede de entrada para serviços Web.

Estamos com instabilidade de rede em apenas uma parte de nossa infraestrutura em São Paulo devido a ataques massivos DDoS que estão sendo direcionados a ranges aleatórios ao Data Center SP01.

Importante: Não há qualquer ataque direcionado aos nossos servidores assim como os dados estão devidamente preservados.


Histórico 12/03:
Na noite de ontem foi trocado o Peering de Proteção para outro fornecedor (UPX + SAGE) e agora o nosso Data Center atua em ajustar os filtros desta nova proteção que é mais robusta e confiável.

Você ainda sente instabilidades porque Ataques DDoS são dinâmicos e neste caso específico o ataque está persistente com uma média de 200 GB/s, desta forma os filtros são ajustados para ser mais efetivo quando o ataque muda suas características.

Atualizado: (1.0) Nossa equipe esta diretamente em contato com os engenheiros de rede do Data Center realizando a solicitações de alterações de rotas e ajuste fino dos filtros para que os transtornos sejam minimizados até que o ataque seja 100% mitigado.

(1.1) Será realizada uma manobra na rede do servidor onde será trocado o fornecimento de link e proteção anti-ddos em uma nova faixa de IP, assim que houver novos detalhes e mais informações atualizamos aqui no nosso status de rede.

Falha de rede Resolvido
Prioridade - Crítico Afetando Outros - Rede

Investigado

Erro ao acessar e-mails Resolvido
Prioridade - Alto Afetando Outros - cPanel

Há um bug na plataforma cPanel relacionada a função Listar contas de e-mail no cPanel e então acessar o webmail a partir desta listagem.

O bug já está sendo investigado pela cPanel e será corrigido em breve, enquanto isto faça acesso à conta de e-mail diretamente ao webmail a partir das URLs:

www.seudominio.com.br/webmail ou webmail.seudominio.com.br

Problema na API da Iugu. Resolvido
Prioridade - Alto Afetando Outros - Iugu


O sistema do meio de pagamento IUGU, responsável pelo boleto bancário, PIX e cartão de crédito recorrente esta offline na parte de invoices até o momento. 

Já comunicamos o time de desenvolvimento deles e estamos aguardando um retorno e solução para o problema.

PRO111 Resolvido
Prioridade - Crítico Afetando Servidor - PRO111

Qual é o problema?
O servidor possui os discos todos NVMe e o kernel do Cloudlinux apresentou um bug que leva a reinicialização até corrompimento do sistema de arquivos. 

Após extensa investigação foi disponibilizado um patch pelo Cloudlinux que foi aplicado com sucesso em todos os servidores com sistema operacional Alma 8. Já neste servidor é utilizado CentOS 7.9 e o kernel da Cloudlinux foi codificado com uma extensão que corrompeu todo o sistema do servidor.

Durante toda a madrugada nossa equipe, os sys admins do Data Center e os engenheiros sêniors da Cloudlinux tentaram sem sucesso iniciar a máquina.

Nenhuma das tratativas tiveram êxito, desta forma o mais prudente é restaurarmos as contas em um novo hardware, pois o downtime seria muito maior sem nenhuma certeza de sucesso.

O que está sendo feito?
Faremos a restauração dos backups das contas em uma nova máquina.

Como isto afeta os serviços?
Os serviços retornaram gradativamente de acordo com o restore e apontamento de DNS, se houver necessidade de alteração.

Qual a segurança dos dados?
O servidor atual não é confiável e não pode ser utilizar para cópia, desta forma será utilizado o backup mais recente disponível no JetBackup para sua conta.

Qual o tempo para normalização?
Estimamos que o processo possa demorar até 36 horas para ser concluído. Os serviços retornaram gradativamente de acordo com o restore e apontamento de DNS, se houver necessidade de alteração.

Progresso:
--> 100% das contas já restauradas. Você recebeu um ticket e um email informando os novos dados de acesso e IP.

PRO109 - Problema de software Resolvido
Prioridade - Crítico Afetando Servidor - PRO109

20/02/2024

21h49 -
Restauração finalizada dos bancos de dados MySQL do servidor.

Resumo Prévio:
Parece que o problema se originou no Kernel do Cloudlinux. O qual ainda esta sob investigação do time da CL. Com isso, a máquina ficava fazendo o boot e reiniciando na sequência. Então não era nenhum problema de hardware e sim do Kernel. Voltamos uma versão anterior para podermos dar vazão e analisar os logs. A troca de chassi foi suspensa durante esta tentativa bem sucedida de voltar o Kernel. Se o problema voltar a ocorrer neste meio tempo, a troca de chassi é iminente.

16h34
- Banco de dados MySQL ainda em restauração.

15h35 - Validando um kernel anterior + banco de dados.
14h33
- Iniciado o procedimento de troca de chassis e placa de rede.
13h57 - Os serviços web continuam desativados intencionalmente para manter a máquina ativa, enquanto finalizamos todos os testes.
13h20
- A máquina voltou a reiniciar, estaremos fazendo um full chassi swap.
13h02 - A máquina voltou a ficar online e disponível. A funcionalidade de backup via cPanel ou Jetbackup estará indisponível até finalizarmos 100% os testes e verificações.
12h30 - Finalizado os testes de hardware e não foi encontrado nenhum problema. O time de rede esta verificando a rede pública da máquina.
11h40 - A máquina está na bancada sendo analisado possíveis problemas de hardware.
10h06 - Análise e testes de software com testes de estresse para verificar o motivo dela estar reiniciando. Pois o problema parece ser outro.
05h36 - Após receber um ataque DDoS nesta madrugada, mesmo com a proteção segurando o ataque, o servidor estava entrando em loop e reiniciando. Correndo o risco de corromper o sistema (kernel). Desta forma foi desativada a porta pública da máquina até finalização de investigação. O servidor esta online e com os dados preservados.

Migração Resolvido
Prioridade - Baixo Afetando Outros - PRO101 e PRO105

PRO105

14/02/2024 - Por conta do problema de hardware, decidimos inutilizar esta máquina, migrando todos os clientes para máquinas novas e modernas. Depois de 100% finalizada as migrações, estaremos substituindo 100% do hardware.

PRO101

14/02/2024
 - Ainda em andamento as migrações do Data Center Canadá para o nosso DC Brasil.
05/02/2024
 - Ainda em andamento as migrações do Data Center Canadá para o nosso DC Brasil.
24/01/2024 - Ainda em andamento as migrações do Data Center Canadá para o nosso DC Brasil.
20/01/2024 - Iniciamos as migrações do DC Canadá para o nosso DC Brasil.
19/01/2024 - Identificado o problema.

16h45 - O serviço foi retornado em poucos minutos após desbloqueio do IP. Estamos em tratativa com o Data Center para entender a ocorrência.
16h21 - Em investigação.

Problemas de rede com a VIVO Resolvido
Prioridade - Crítico Afetando Outros - Rede/Internet

18h48 - Parece ter retornado, ou a operadora mitigado. Detalhe interessante que acesso pela VIVO de São Paulo acima estava com este problema. VIVO Sul já estava funcionando normalmente. Repassamos essa info a operadora.

18h39 - Ataque massivo DDoS nessa rede utilizada pela Vivo. Já falamos com a operadora.

18h30 - Estamos investigando com o Data Center o motivo da queda. Todos os servidores estão funcionando, apenas é algo na rede com a VIVO. Parece ser o link da VIVO que perdeu acesso. Acesso pela Claro e outras operadoras esta normal.

Ataque a rede Resolvido
Prioridade - Alto Afetando Servidor - PRO114

Já iniciou a mitigação do ataque na rede. Em breve teremos novidades aqui no status.

PIX e Boleto fora do ar Resolvido
Prioridade - Crítico Afetando Outros - Iugu (Gateway)

A Iugu (Gateway) parece estar com problemas no faturamento e pagamento de PIX e Boleto bancário. Já acionamos o time de infra-estrutura do gateway para validação.

Caso você tenha urgência na ativação, entre em contato com o nosso suporte.

PicPay fora do ar Resolvido
Prioridade - Crítico Afetando Sistema - PicPay

Já acionamos o time do PicPay que ainda esta buscando uma solução.

Formatação do Storage Resolvido
Prioridade - Crítico Afetando Outros - Storage 03

Olá, como vai?

Um de nossos storages está com dificuldades de funcionamento que ocasionou alertas novamente de monitoramento. E agora esta novamente passando por fsck. Suspeitamos que seja algo relacionado com o rebuild do disco que foi substítuido outro dia.

Por conta disso, estaremos realizando a formatação do disco para resolução definitiva do problema.

Servidores que dependem deste Storage:

PRO106
PRO107
PRO109
PRO111

 

Qualquer dúvida ficamos a completa disposição,

⠀⠀⠀⠀⠀⠀⠀⠀

Equipe de Atendimento ao Cliente

Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.

 

-

Suporte Online:

via WhatsApp

via Telegram

via Ticket

 

Atualização na versão do Banco de Dados Resolvido
Prioridade - Alto Afetando Servidor - PRO102

Olá, como vai?

Na noite de hoje, realizaremos o update do banco de dados do MariaDB 10.3 para versão 10.6 com uma janela de manutenção de 2 horas, em média. O processo gerará instabilidades no acesso ao serviço de banco de dados.

 

Qualquer dúvida ficamos a completa disposição,

⠀⠀⠀⠀⠀⠀⠀⠀

Equipe de Atendimento ao Cliente

Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.

 

-

Suporte Online:

via WhatsApp

via Telegram

via Ticket

 

Falha no Storage do PRO111 Resolvido
Prioridade - Crítico Afetando Outros - Storage - Servidor de backup em nuvem

Olá, como vai?

O disco do Storage (backup) do Servidor PRO111 houve falha física e estará sendo substituído na data de hoje, 13/12/2023 - Quarta-feira, pois consta o mesmo modelo em estoque.

Antes da data do início da falha 11/12/2023, os backups continuam preservados e podem ser restaurados normalmente.

Assim que for substituído o disco estaremos atualizando o status desta demanda. 

 

Qualquer dúvida ficamos a completa disposição,

⠀⠀⠀⠀⠀⠀⠀⠀

Equipe de Atendimento ao Cliente

Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.

 

-

Suporte Online:

via WhatsApp

via Telegram

via Ticket

Manutenção Emergencial de Rede Resolvido
Prioridade - Crítico Afetando Outros - Manutenção Emergencial de Rede

Olá

 

A base de nossa parceria, além de oferecer a melhor infraestrutura para seus serviços, é, também, fortalecer a transparência de informações, por isso gostaríamos de informar sobre uma manutenção emergencial na infraestrutura de rede onde está alocado os seus serviços conosco. 

A manutenção ocorrerá hoje, dia 23 de novembro de 2023. Por gentileza, leia atentamente este comunicado e esteja ciente das ações desta ação.

 

Tipo de manutenção:

 

Melhoria de performance no fluxo de rede.

 

 

Janela de Manutenção:

 

Início: Quinta-feira, 23 de novembro de 2023 às 23h59min (Horário de Brasília).

Término: Sexta-feira, 24 de novembro de 2023 às 01h00min (Horário de Brasília).

 

 

Tempo de instabilidade:

 

Durante a janela de manutenção não é esperada indisponibilidade de rede. Porém, é possível que em alguns momentos você note uma breve degradação de performance. Caso isso ocorra, nossos engenheiros de rede estarão acompanhando em tempo real o procedimento e caso necessário, a intervenção será imediata. 

 

Caso tenha mais alguma dúvida referente ao procedimento de manutenção, é só entrar em contato conosco. 

 

 

Atenciosamente, 

Equipe Napoleon

Problemas na Rota de Internet da Vivo Resolvido
Prioridade - Crítico Afetando Outros - Conexão Vivo/Cirion

16h08 - Resolvido o upload e download no link principal. Foi necessária uma troca física do link de fibra para fugirmos do link que estava com problemas via Telefônica. E o link de contingência que existia também estava com este mesmo problema, por conta disso foi demorada a solução, visto ser necessário alterar fisicamente a fibra.

-

15h43 - Ainda em andamento a propagação das alterações. Rede instável.

-

13h24 - Isolando problema com a Tely (rota de conexão com o DC).

-

12h50 - Identificado o problema de rota do DC de São Paulo da Lúmen (Cirion). Em atuação com o time de infra e rota da Telefônica.

-

11h39 - Nossos servidores estão online e estáveis, entretanto estamos recebendo reports de falhas de rede de usuários que utilizam Vivo ou rotas da Telefônica:

https://downdetector.com.br/fora-do-ar/vivo/: Por favor verifique junto ao seu provedor.

Cloudflare Global com problemas de rede Resolvido
Prioridade - Alto Afetando Outros - Cloudflare

STATUShttps://www.cloudflarestatus.com/

 

Freepik - Instável Resolvido
Prioridade - Baixo Afetando Outros - Freepik

Apenas comunicando que o serviço do Freepik esta instável conforme relatado: https://downdetector.com/status/freepik/

Atualização Importante - Servidor PRO105 Resolvido
Prioridade - Alto Afetando Servidor - PRO105

//Atualização - 19h11

Identificamos uma falha na placa mãe do antigo servidor e realizamos uma troca completa do hardware. O acesso foi normalizado e faremos a migração gradual de todas as contas para um servidor novo. Durante este processo os procedimentos de backup por parte dos usuários estão suspensos e estarão liberados no servidor novo.

 

Assim que for migrado será necessário que caso esteja no Cloudflare, ou aponte para o IP, precisará alterar para o novo IP, enviaremos um ticket sobre a migração e também em seu e-mail os dados de acesso, logo quando for realizada a migração, ela será feita aos poucos, mas no momento, já conseguirão acessar seu servidor.



Terça-feira: 12/09/2023

// Atualização - 13h10

Status da cópia: 18%
Prazo previsto: 50 horas

// Estamos finalizando a cópia do disco para liberar a maquina. Foi implantado um novo NVMe. 


Segunda-feira: 11/09/2023

// Atualização - 00h56

Status: fsck finalizou e agora estamos clonando o disco.

 

// Atualização - 20h17

Ainda esta rodando o comando. Previsão para as 22 horas a finalização. O horário é apenas uma previsão e pode sofrer alterações.

 

// Atualização - 12h50

Iniciamos o procedimento de fsck para resolução do arquivo de configuração da máquina chamado filesystem. Esse procedimento é em caráter EMERGENCIAL e estará deixando a máquina com indisponibilidade total até a sua finalização. 

Isso deve levar algumas horas e estaremos informando aqui assim que ela retornar e quais serão as medidas tomadas posteriormente.

Por que fazer isso?
Fazendo isso a máquina normaliza para a total migração das contas.

-

 

Olá, queridos clientes da Napoleon,

 

Esperamos que estejam bem. Primeiramente, gostaríamos de agradecer pela sua paciência e compreensão durante o período de atualização pré-agendada do nosso servidor PRO105. Como vocês sabem, agendamos essas manutenções para os finais de semana, visando minimizar qualquer inconveniente.

Infelizmente, apesar de nossos melhores esforços, a atualização não atingiu o nível de qualidade que sempre buscamos oferecer. Identificamos que o problema está relacionado ao hardware, mais especificamente aos discos da máquina.

 

O Que Estamos Fazendo?

Para resolver essa questão de forma definitiva, decidimos realizar uma atualização significativa no hardware. Estamos substituindo os antigos discos, que tinham uma velocidade de 3.500 MB/S de leitura e gravação, por novos discos NVMe com impressionantes 7.000 MB/S.

 

Migração de Contas cPanel

Além disso, para garantir que não haja mais problemas de desempenho, vamos migrar todas as contas cPanel deste servidor para novas máquinas. Todo esse processo será feito com o máximo de cuidado e eficiência para garantir uma transição suave e segura.

 

Tempo Estimado e Disponibilidade

Estamos trabalhando incansavelmente para fazer essas mudanças o mais rápido possível. No entanto, pedimos a sua compreensão, pois algumas interrupções ou lentidões podem ocorrer durante este período.

 

Agradecemos a Sua Compreensão

Queremos assegurar que este foi um episódio isolado e estamos tomando todas as medidas necessárias para que não se repita. A sua satisfação e a performance dos nossos serviços são nossas prioridades máximas.

Se tiverem qualquer dúvida ou preocupação, por favor, não hesitem em entrar em contato conosco. Estamos aqui para ajudar!

 

Atenciosamente,

Equipe Napoleon

 

-

 

Sexta-feira: 08/09/2023

O servidor esta passando por uma atualização pré-agendada após o último incidente. E com isso a lentidão da máquina será sentida até finalizar a sincronização. 

Ela é intencional até resolver 100% as questões de performance. Agendamos neste final de semana para ser um período de menos acessos.

Problema no WhatsApp Resolvido
Prioridade - Crítico Afetando Sistema - WABA - Facebook

Infelizmente o WABA - WhatsApp Business API esta offline e estamos ajustando. O suporte continua ativo via demais redes.

Downtime Resolvido
Prioridade - Crítico Afetando Servidor - PRO112

20h02 - Corrigido erro na rede desta máquina.

19h59 - Em andamento.

Em investigação.

DNS Downtime - ajustado Resolvido
Prioridade - Crítico Afetando Servidor - PRO111

[22h04] - Localizado o erro no DNS. Era uma configuração incorreta que forçava o DNS do Data Center, a qual foi corrigida. Pois quando caiu o DNS do DC a máquina foi junto. Removendo essa configuração, tudo voltou ao normal.

[22h01] - A máquina parece estar online, pois é possível fazer o ping no IP da rede local do PRO111. Ainda estamos investigando o motivo do downtime.

Em investigação

[Reestabelecido] - PRO112 e PRO113 Resolvido
Prioridade - Crítico Afetando Outros - PRO112 e PRO113

Causa raiz: Configuração de rota estática (artificial), sem autorização, por operadora de contingência, de forma a priorizar o tráfego, indevidamente, criando um caminho inconsistente.

Foi reestabeleciado mas ainda em investigação.

Problema de Rota Resolvido
Prioridade - Crítico Afetando Servidor - PRO112

Problema de Rota

Problema de Rota Resolvido
Prioridade - Crítico Afetando Servidor - PRO113

Problema de Rota

Migração Agendada - PRO108 e PRO109 Resolvido
Prioridade - Alto Afetando Sistema - Necessária a troca de hardware

Detectamos recentemente algumas inconsistências de hardware no servidor onde seus serviços estão atualmente hospedados (pro108/pro109). Embora estas não tenham afetado seus serviços até o momento, acreditamos na importância de agir de forma preventiva para garantir a qualidade e segurança dos seus dados.

Por isso, decidimos que será benéfico para você migrar os seus dados para um novo e mais moderno servidor. Esta atualização não só proporcionará maior estabilidade e segurança, como também oferecerá um melhor desempenho e uma resposta mais rápida, o que acreditamos que irá melhorar ainda mais sua experiência conosco.

A migração será iniciada às 23 horas (horário de Brasília) na próxima sexta-feira e esperamos concluir o processo até Domingo, às 23 horas. Nosso objetivo é que este processo de migração seja o mais tranquilo possível. Nossa equipe técnica se encarregará de realizar esta transição de forma eficiente e segura, procurando evitar qualquer tempo de inatividade ou interrupção de seus serviços.

Caso utilize o Cloudflare, o novo IP para substituição sera este: 177.234.152.251

Estamos sempre à disposição para ajudá-lo. Caso tenha qualquer dúvida ou preocupação sobre este processo de migração, por favor, não hesite em entrar em contato conosco. Nossa equipe de suporte está pronta para auxiliá-lo em qualquer momento.

Agradecemos sua compreensão e apoio contínuos. Estamos confiantes de que esta migração trará benefícios significativos para você.

 

Atenciosamente,

João Rizzon
Gestor de Operações
[email protected]

Manutenção no bot de Downloads Resolvido
Prioridade - Baixo Afetando Outros - Downloads - Freepik, Envato Elements e GPL Vault

Estamos realizando manutenção no bot de download. Durante certo tempo alguns serviços podem não funcionar 100% corretamente.

Controladora HP // Jetbackup + Toolkit Resolvido
Prioridade - Alto Afetando Servidor - PRO107

[15/06/2023] - As contas iniciaram a ser migradas para novas máquinas até a resolução do problema.

 

O Toolkit também esta desativado no momento pelo mesmo problema. Caso necessário, pode ser utilizado o Softaculous para executar funcionalidade similar.

A controladora HP esta agindo de maneira irregular prejudicando o I/O do Bare Metal e deverá ser substituída para uma controladora Dell após a identificação do problema. Neste meio tempo o serviço do Jetbackup foi desativado para garantir a segurança operacional da máquina. 

O serviço do Jetbackup deverá ser reativado fora do horário comercial novamente.

Controladora HP // Jetbackup + Toolkit Resolvido
Prioridade - Alto Afetando Servidor - PRO106

[15/06/2023] - As contas iniciaram a ser migradas para novas máquinas até a resolução do problema.

 

[13/06 - 12h09] - O Toolkit também esta desativado no momento pelo mesmo problema. Caso necessário, pode ser utilizado o Softaculous para executar funcionalidade similar.

[13/06 - 11h50] - A controladora HP esta agindo de maneira irregular prejudicando o I/O do Bare Metal e deverá ser substituída para uma controladora Dell após a identificação do problema. Neste meio tempo o serviço do Jetbackup foi desativado para garantir a segurança operacional da máquina. 


O serviço do Jetbackup deverá ser reativado fora do horário comercial novamente.

Erro na BIOS Resolvido
Prioridade - Crítico Afetando Servidor - PRO109

[16h21] - Tempo esta sendo maior que o previsto, pois houve uma burocracia documental no meio do caminho. Foi resolvido e esta sendo ligada a máquina no rack. Já foi testada em bancada o seu funcionamento.

[14h57] - A maquina esta sendo transportada até o rack e esta sendo montada. Retorno atualizado: 10~20 minutos de ativação.

[13h37] - A controladora da máquina HP foi substituida e esta sendo realizado um Chassis SWAP. A máquina deve estar estabelecida e online até as 15h00.

[04h06]  - Na tentativa de reiniciar o servidor para seguir com a configuração do array, identificamos uma falha na Bios do servidor, a qual está impedindo que o mesmo seja iniciado corretamente. Seguimos verificando e o manteremos informado no decorrer do processo.

[09/06/2023 - 11h53] - Neste momento estamos reiniciando o servidor - pro109.dnspro.com.br para criar o raid-0 com os discos.

Problema no cabo SATA Resolvido
Prioridade - Crítico Afetando Servidor - PRO111

[19h55] - O servidor foi rapidamente desligado para correção do cabo SATA, por esta razão o IPMI parou de responder.
[19h40]
- Realizando reboot após IPMI estar off.

[19h35] - Investigando PRO111.

Reinicialização de servidores nacionais - São Paulo/SP Resolvido
Prioridade - Alto Afetando Outros - Servidores Nacionais

Reinicialização de servidores nacionais - São Paulo/SP para efetivação de alteração de Hardware. O objetivo é melhorias propostas por clientes na parte de hardware, com upgrade de discos físicos.

Provavelmente o downtime será apenas o tempo de reinicialização da máquina. Questão de menos de 1 minuto.

WhatsApp Offline Resolvido
Prioridade - Crítico Afetando Sistema - WhatsApp - Meta

O sistema de aplicativo WhatsApp parece estar offline. Por isso a API de integração com o nosso suporte também esta aguardando o retorno dos serviços do WhatsApp.

DownDetector: https://downdetector.com.br/fora-do-ar/whatsapp/

PRO101, PRO108 e Cloud VPS Canadá - Manutenção do backbone Resolvido
Prioridade - Crítico Afetando Servidor - OVH CA VPS

20h21 - PRO101, PRO108 e Cloud VPS Canadá - Manutenção do backbone. Aguardando resolução no Data Center.

20h28 - Não era esperada na manutenção a queda de nenhum serviço, por isso não foi programada. Mas algo no Data Center fez cair. O time de infra rapidamente subiu os equipamentos novamente.

Remanejamento para novos servidores Resolvido
Prioridade - Médio Afetando Outros - PRO102 e PRO104

Iniciaremos o remanejamento de alguns contas para servidores mais adequados e otimizados. 

Servidores PRO102 e PRO104.

 

A partir desta mudança, caso você esteja com o seu domínio no Cloudflare ou Zona de DNS externa, você deve alterar o IP do servidor para continuar com o seu website online, estamos comunicando por este aviso e também cada cliente que será migrado receberá via ticket + E-mail.

PRO106 - Manutenção Emergencial no RAID Resolvido
Prioridade - Alto Afetando Servidor - PRO106

Servidor em manutenção emergencial no RAID dos discos.
Localizado o problema e está havendo intervenção na máquina física.

20h35 - Finalizando a modificação no SWAP.
20h46 - Servidor sem SWAP, MySQL iniciado.

 

18/05 - 13h31 - Será realizada a realocação das contas deste servidor para outras máquinas a fim de garantir a qualidade de serviço. Os discos serão substituidos posteriomente.

WhatsApp api no suporte Resolvido
Prioridade - Crítico Afetando Sistema - WhatsApp

WhatsApp API offline

PRO106 - Investigando Resolvido
Prioridade - Crítico Afetando Servidor - PRO106

O time de infra já esta trabalhando no caso.

23:31 - Reiniciado o banco MySQL para validar modificações.

Problema de I/O na gravação de dados do Storage Resolvido
Prioridade - Crítico Afetando Outros - Storage - Backup

Olá, como vai? Segue report abaixo:

O que aconteceu?

Iremos fazer a substituição de 02 discos (setores) do storage da Napoleon, por apresentarem falha física e a consequência disso é que algumas contas do Jetbackup estão sem backup atualizado / recente devido à estes erros. Então teremos que fazer a substituição dos discos em caráter de urgência.


O que estamos fazendo sobre isso?

Com a substituição dos discos no storage (backup) da Napoleon, alguns clientes poderão sentir lentidão no processo de backup do cPanel > Jetbackup ou indisponibilidade durante este período de substituição.

 

Qual é o objetivo da equipe a longo prazo?

Estamos trabalhando para substituir esses discos para corrigir permanentemente os problemas de backup no Storage da Napoleon. Além disso, estamos inserindo na rede local novos discos para diminuir o tempo de criação de backup. Fizemos novos pedidos de discos, incorporando a nossa infra-estrutura, para melhorar ainda mais o backup disponível no painel. Essa última parte, irá ajudar a ter diariamente os backups disponíveis. Hoje configuramos o Jetbackup para fazer o backup a cada 24 horas (daily). Mas, na prática, isso não está ocorrendo em algumas contas devido à demora na construção do backup incremental, construindo ele em 30-40 horas. Por isso estamos fazendo essa reestruturação interna no storage / rede local visando entregar mais qualidade e em menor tempo possível aos nossos clientes que precisam de backup.

Atenciosamente, 

Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.

 

PRO105 - Problema crítico de hardware Resolvido
Prioridade - Crítico Afetando Servidor - PRO105

[24/02/2022] - Atualização:

Finalizamos a restauração de todas as contas. Entre no seu cPanel > No lado direito você verá o IP novo da sua conta para publicação caso esteja no Cloudflare.

Obs: Os bancos não foram corrompidos, temos eles na integra do dia do incidente. Caso seus posts, publicações ou dados do banco precisem de atualização, entre em contato e solicite para enviarmos ou inserirmos na sua conta. Obrigado!




-
[23/02/2022]

Caso queira entre em contato conosco (via WhatsApp) para restaurarmos a sua conta em outro servidor com o último backup disponível no Jetbackup, pois o disco anterior corrompeu e os arquivos ficaram inacessíveis.

O processo de sincronização ainda está acontecendo no pro105. Mas podemos adiantar o seu caso em outro servidor caso tenha urgência.

-

[18h21] - Os discos foram trocados e estão passando por processo de formatação. Os antigos dados (banco e files) já se encontram disponíveis para serem inseridos nos novos discos. Assim que finalizar o restore das contas inicia automaticamente e estarão disponíveis.

[16h32] - Atualização: Ainda em processamento. 

[14h02] - O FSCK ainda está rodando e por isso o painel do cPanel já está aparecendo novamente. Mas ainda está rodando a reparação e por isso não estará em funcionamento completo. Atualizaremos aqui quando finalizar o reparo.

[12h23] - Estamos realizando xfs_repair no sistema de arquivos do disco md124, que no momento consta apenas um disco no array. Assim que concluído iremos inicializar novamente o servidor. Vamos mantendo informado durante a realização. No momento, está na última fase.

[11h47] - Continuamos analisando. Foi realizado um reboot, porém a unidade /home não inicializou. No momento estamos trabalhando para montá-la novamente.

[10h47] - Esta sendo feita a última checagem de software antes da intervenção na bancada do Data Center.

[Atualização - 23/02/2023] - O disco /home está travado e falhando. Não está conseguindo enviar os arquivos para outra máquina. Vamos ter que intervir fisicamente na máquina para corrigir a situação crítica.

-
[Em investigação/Em andamento - 22/02/2022] - Equipe de infra já está verificando. 

Problema de resolução de domínios externos Resolvido
Prioridade - Crítico Afetando Sistema - Servidores Nacionais

Relato:

Não está resolvendo DNS, aparentemente um bloqueio na porta 53 nos servidores nacionais. Nos internacionais tudo normal. Ai não envia para Gmail, Hotmail, etc. 


Problema Confirmado

Afeta desde e-mails à atualização do Wordpress. Equipe de proteção já está atuando.


Exemplo no Wordpress
:


Exemplo no e-mail:

[root@~]#  dig mx gmail.com @8.8.8.8
; <<>> DiG 9.11.4-P2-RedHat-9.11.4-26.P2.el7_9.10 <<>> mx gmail.com @8.8.8.8
;; global options: +cmd
;; connection timed out; no servers could be reached

Instabilidade no DC Nacional Resolvido
Prioridade - Crítico Afetando Outros - Data Center Nacional

Período: 09:43 - 09:46

Instabilidade no DC Nacional

Ainda em investigação

Problema de Rota Nula Resolvido
Prioridade - Crítico Afetando Outros - Rede

Foi constatado que na data de ontem as 23h30 iniciou um problema de rede no Data Center da Lumen. Afetando inúmeras empresas que possuem link dedicado de internet lá.

Depois de uma investigação minuciosa foi comprovado o ataque DDoS de rede. E substituímos o fornecedor de anti-DDoS para uma segunda camada, não afetando mais a Napoleon. Isso não afeta em nada a segurança dos servidores, até porque o ataque não foi nos servidores e sim na rede, apenas deixando o tráfego lento ou inoperante.

 Foi alterado o fornecedor de proteção de rede (anti-DDoS) e tudo foi normalizado em poucos minutos. O que demorou um certo tempo foi a identificação do problema e acionamento das pessoas corretas.

Incidente Data Center SPO Resolvido
Prioridade - Crítico Afetando Outros - Roteador de Rede

17h44 - Corrigido, mas ainda aguardando um report oficial

17h01 -
Provavelmente é o mesmo erro de antes de rede na Lumen/Cirion, que não é nosso fornecedor, mas tem rotas que passam por lá.


Empresas brasileiras de hosting que contrataram eles estão com downtime. Eles estão investigando no momento o motivo.

 


[Relatório Oficial]

ACR - Análise de Causa Raiz

 

Incidente Data Center SPO

 

No dia 15/12 às 10:35h nossos sistemas de monitoramento alertaram uma indisponibilidade

em um de nossos roteadores de borda, sem deixar rastros de logs, nete momento todo o

tráfego foi imediatamente redirecionado para as demais caixas às 10:45h. Após o

redirecionamento alguns clientes alegaram falta de conectividade de algumas regiões, então

os analistas iniciaram as tratativas junto ao provedor de link de trânsito de backup. O

comportamento notado apontou para uma falha de roteamento assíncrono no backbone do

parceiro, onde pacotes para determinadas origens eram dropados. Como o problema se

estendeu por um período maior que o esperado tomamos uma ação de contorno migrando os

links do equipamento problemático para o funcional, onde às 14:40h notamos a normalização

do ambiente. Em seguida, às 15:55h o equipamento danificado foi reestabelecido e assumiu

suas funcionalidades, contudo desligou-se inesperadamente, porém desta vez gerando log.

Identificamos a falha do equipamento, onde um dos discos naquele momento queimou.

Indisponibilizando-o por completo às 16:58h. Novamente mantemos toda a operação nos

demais equipamentos. Normalizando a situação às 17:20h até a execução da janela

emergencial no turno da madrugada, visando isolar o equipamento problemático.

O equipamento problemático foi isolado por completo durante a manutenção e atualmente

estamos trabalhando arduamente para trazê-lo de volta a operação numa outra janela

programada prevista para o final de semana.

 

Ações realizadas:

- Alteração do discos SSD de um dos roteadores de borda.

- Agendado janela de manutenção com o provedor de link problemático para identificar a causa raiz.

 

Erro Resolvido
Prioridade - Crítico Afetando Servidor - PRO102

Report Oficial:

A máquina física/servidor não apresentava imagem ou resposta no teclado, e por conta disso optamos por um reset. Após isso, optamos por uma inspeção física, que acaba sendo comum ao realizar um simples reset, e o sistema veio a subir normalmente.

 

Qualquer coisa pode acionar a nossa equipe de suporte online via ticket ou WhatsApp em caso de dúvidas.

Downtime detectado Resolvido
Prioridade - Alto Afetando Servidor - PRO103

Downtime detectado. Máquina sendo reiniciada. 

17h08 - Reiniciada a máquina. Ajustado o gateway de rede. Servidor online e serviços no ar. Estamos acompanhando a máquina para ver se tudo normalizou de maneira definitiva.

 

Causa: Erro no Gateway de Rede, o que forçou a reinicialização da máquina e reparo na configuração do gateway.

Problemas de hardware - filesystem Resolvido
Prioridade - Crítico Afetando Servidor - PRO104

Houve um problema de hardware que está em andamento pela nossa equipe no Data Center em São Paulo. Isso pode demorar mais do que o normal. Estamos atualizando o Status da Rede conforme vai evoluindo a demanda.

 

Atualização - 12h17

Houve falha em um dos discos do RAID, esta sendo desmontado o RAID e subindo no disco secundário para ativação.

Atualização - 12h28

Estamos com acesso ao módulo iDrac do servidor tentando subir o sistema e identificando o que levou a indisponibilidade.

Atualização - 12h56

Ainda em andamento com a equipe de Hardware.

Atualização - 13h45

O filesystem de ambos NVMe foram corrompidos. Esta sendo rodado o fsck para verificar o file system check padrão do linux. Ele é demorado e com ele teremos a resolução do caso ou necessidade de restore integral da máquina.

Atualização - 14h17

Ainda em andamento com a equipe de Hardware.

Atualização - 15h01

Servidor voltou no ar. Ainda sob análise de logs e verificação.

Atualização - 15h35

Análises concluídas e medidas sendo tomadas no hardware e software.

 

Load time - Localizado problema Resolvido
Prioridade - Crítico Afetando Servidor - PRO102

A máquina não chegou a ficar offline, apenas com demora no carregamento por conta do problema localizado.

Problema com o Lite Speed Web Server Resolvido
Prioridade - Alto Afetando Servidor - PRO102

Tivemos um pico involuntário ao Lite Speed Web Server que retornou com um erro de acesso aos servidores. Tudo estava acessível, mas com lentidão agregada. 

Foi normalizado e o erro foi corrigido. Da mesma forma, ainda estamos monitorando até complementar 48 horas a partir do incidente.

Problema de Rota Resolvido
Prioridade - Alto Afetando Servidor - PRO101

Erro de rota. Localizado o problema.

O servidor esta funcionando perfeitamente. Parece que uma das rotas de acesso da internet até o servidor estava perdendo pacotes. Isso é algo externo dos servidores. Parece que esta normalizando, mas ainda com pouca perda de pacotes. 

Indisponibilidade - Timeout Resolvido
Prioridade - Crítico Afetando Servidor - PRO100

Bug no Imunify360 - Antimalware/Firewall

Fizemos um ajuste no Imunify360 problemático hoje cedo. O Imunify precisou ser reinstalado em decorrência de um bug que causou um pico de consumo de memória RAM.

Cloudflare Timeout Resolvido
Prioridade - Médio Afetando Outros - Cloudflare

Olá, como vai?  

O Cloudflare está passando por problemas regionais reportados em rotas nacionais brasileiras. Se o seu site der timeout 5XX, pode ser apenas na sua localização regional inacessível via Cloudflare.

Acompanhe o Status aqui: https://www.cloudflarestatus.com/

 

Ficou com dúvidas? Entre em contato conosco no suporte online.

Napoleon - Hospedagem e Revenda Dedicada de Servidores

https://napoleon.com.br

 

+55 (11) 9 1301-0000

Bitninja - WAF nos domínios do CloudFlare Resolvido
Prioridade - Alto

Bitninja - WAF nos domínios do CloudFlare

A equipe do Bitninja vai acessar ambos os servidores, Carnegie e Ford, nessa madrugada entre 1 e 2 da manhã, para garantir que a proteção será aplicada para todas as contas. Eles vão tentar resolver a questão do proxy WAF, limitando ataques de redes de botnets. A princípio não vão reiniciar os servidores mas podem reiniciar o proxy e o UPtime Robot pode considerar como downtime.

Na sequência iremos atualizar sobre a resolução e a garantia dos serviços online.

Erro nos bancos de dados Resolvido
Prioridade - Crítico

Erro nos bancos de dados

Hoje cedo tivemos um erro em nossos bancos de dados gerando consumo de 100% de memória RAM e CPU. 

Está tudo estável após reiniciar os bancos, mas irá exigir investigação da nossa equipe a qual já está mexendo nisso. 

Em breve iremos atualizar o post com informações sobre o relatório oficial do erro.

 

Atualização - 21/04/2022

Fizemos as alterações necessárias para remover uma funcionalidade que estava bugando o consumo de memória e CPU. Iriamos aplicar ela ontem de madrugada, sendo necessário reiniciar o banco de dados (reboot), mas como houve um novo incidente, reiniciamos na mesma hora que ocorreu para evitar novos problemas ou interrupções.

Reinicialização do servidor para validar configurações no arquivo /tmp Resolvido
Prioridade - Baixo

Reinicialização do servidor para validar configurações no arquivo /tmp

Olá, como vai?

Estaremos fazendo nessa madrugada, às 04h00 - horário de Brasília, do dia 13/04, a reinicialização do servidor Carnegie para validar as configurações de arquivos temporários /tmp.

Prazo Previsto: 3 minutos
Data/Hora: 13/04 - às 04h00 da madrugada

Se você utiliza o Uptime Robot para monitorar o downtime e uptime do seu website, provavelmente você sinta nesse horário um downtime quando iremos reiniciar as máquinas do servidor Carnegie.

 

Atualização no config do cPanel Resolvido
Prioridade - Crítico Afetando Sistema - cPanel + Apache

Atualização no config do cPanel

Olá, como vai?

Recebemos a informação que o cPanel solicitou atualização expressa na config do Apache. Iremos fazer esse update nessa madrugada, 04/04/22, às 3 horas da manhã - horário de Brasília. A equipe do cPanel ainda está investigando o caso, pois é algo global e que afeta todas as hospedagens que estão com o sistema WHM + cPanel.

Se você utiliza o Uptime Robot para monitorar o downtime e uptime do seu website, provavelmente sinta nessa madrugada um downtime quando iremos alterar e reiniciar o Apache.

Erro de conexão Resolvido
Prioridade - Crítico

Erro de conexão

Foi reportado um bug ao LiteSpeed e a incompetente equipe do suporte deles entrou para ajustar. Eles alteraram para Apache como fins de teste e demorou até recriar as configurações.

Ou seja, trocaram para Apache por um segundo e o servidor ficou sem conexão, aí demorou para recriar as configurações.

Não houve nenhuma alteração. Obrigado pela compreensão, precisando a nossa equipe esta a completa disposição =)

Erro no banco Resolvido
Prioridade - Crítico

Erro no banco

Estamos com problema no banco de dados MariaDB e está sendo resolvido.

[01:36:34 94312343 root@94415050 ~]cPs# grep -w "oom-killer" /var/log/messages | tail
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x6000c0(GFP_KERNEL), order=0, oom_score_adj=0
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x7000c0(GFP_KERNEL_ACCOUNT), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x6000c0(GFP_KERNEL), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:29 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x6000c0(GFP_KERNEL), order=0, oom_score_adj=0
Feb 10 01:25:29 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0



Um momento por gentileza que estamos trabalhando para reestabelecer todos os serviços.

Baixo consumo do banco de dados Resolvido
Prioridade - Crítico

Baixo consumo do banco de dados

Baixo consumo de processamento no banco de dados isso indica um problema. Estamos analisando e em breve teremos uma solução.

Falha no Banco de Dados Resolvido
Prioridade - Crítico

Falha no Banco de Dados

Estamos com uma instabilidade no banco de dados. Equipe esta em cima e a correção deve acontecer muito em breve.

Inserção de Novo Cabo de Alimentação na OVH Resolvido
Prioridade - Alto

Inserção de Novo Cabo de Alimentação na OVH

Olá, como vai?

Lembra da nossa última manutenção programada? A equipe da OVH acabou instalando toda a nossa infra-estrutura adicional de Cloud mas acabaram esquecendo de inserir um cabo de conexão/fonte de energia. Serão 60 minutos de interrupção. O Diretor da América Latina nos mandou pessoalmente um pedido de desculpas e estão precisando desligar um de nossos servidores para inserção desse cabo.

Dia 11/01 às 11h55 da madrugada (60 minutos)

Pela compreensão, e todo o carinho sempre disponibilizado pelos nossos clientes, realizaremos upgrade de espaço em disco nas contas nesta semana.

 

Equipe Napoleon
[email protected]
+55 (11) 91301-0000

Upgrade de Hardware Resolvido
Prioridade - Alto

Upgrade de Hardware

Estaremos aumentando a nossa infra-estrutura de hardware global com novas contratações físicas, por isso estaremos passando por manutenção programada na noite de hoje, iniciando o procedimento interno de desligamento do servidor e em seguida a equipe da OVH estará assumindo os ajustes físicos da rede.

A estrutura visa aumentar e melhorar ainda mais os nossos serviços prestados.

Qualquer dúvida basta entrar em contato com a nossa equipe nos canais de comunicação disponíveis em nosso website.

Atualização Agendada no Banco MySQL Resolvido
Prioridade - Alto Afetando Outros - MySQL

Atualização Agendada no Banco MySQL

Inserção de certificado de segurança SSL no Banco MySQL para conexões seguras e remotas. Solicitação requisitadas por três clientes e que se estenderá a todos como upgrade do nosso ecossistema.

Status

Abaixo está uma lista em tempo real do status de nossos servidores, onde você pode verificar se há algum problema.

Servidor HTTP FTP POP3
PRO101
PRO102
PRO103
PRO104
PRO105
PRO106
PRO107
PRO108
PRO109
PRO110
PRO111
PRO112
PRO113
PRO114
PRO115
PRO116
PRO117