Há uma instabilidade junto ao LiteSpeed Enterprise que esta sendo investigado pela desenvolvedora. Fizemos o update da última versão, mas mesmo assim não foi resolvido por completo.
Prazo: 15h15 até as 17h00
Devido às recentes falhas na rede da HostDime SP01 causadas por ataques DDoS que nunca visaram diretamente nossos servidores, mas acabaram afetando toda a rede, enfrentamos diversos impactos.
Após várias reuniões com o Data Center, chegamos a um consenso sobre uma solução que envolve a troca do bloco de IPs dos nossos servidores. Em caráter de EMERGÊNCIA, alteramos o IP do seu servidor para o IP abaixo:
Servidor PRO102 - 187.33.241.31
Servidor PRO103 - 187.33.241.34
Servidor PRO104 - 187.33.241.37
Servidor PRO105 - 187.33.241.40
Servidor PRO106 - 187.33.241.43
Servidor PRO107 - 187.33.241.46
Servidor PRO109 - 187.33.241.49
Servidor PRO110 - 187.33.241.52
Servidor PRO114 - 187.33.241.58
Se você estiver utilizando o Cloudflare ou qualquer outra zona de DNS externa, por favor, corrija o apontamento imediatamente. Se estiver utilizando o nosso cluster de DNS, nenhuma alteração é necessária.
A IUGU (gateway de pagamento) está com problemas para gerar PIX, Boletos e pagamentos via cartão.
Segue o link do status deles:
https://status.iugu.com/incidents/rvzgbkmczqk5
Previsão: Até às 15:55 hrs para normalização.
Mitigação de tráfego na rede de entrada para serviços Web.
Estamos com instabilidade de rede em apenas uma parte de nossa infraestrutura em São Paulo devido a ataques massivos DDoS que estão sendo direcionados a ranges aleatórios ao Data Center SP01.
Importante: Não há qualquer ataque direcionado aos nossos servidores assim como os dados estão devidamente preservados.
Histórico 12/03:
Na noite de ontem foi trocado o Peering de Proteção para outro fornecedor (UPX + SAGE) e agora o nosso Data Center atua em ajustar os filtros desta nova proteção que é mais robusta e confiável.
Você ainda sente instabilidades porque Ataques DDoS são dinâmicos e neste caso específico o ataque está persistente com uma média de 200 GB/s, desta forma os filtros são ajustados para ser mais efetivo quando o ataque muda suas características.
Atualizado: (1.0) Nossa equipe esta diretamente em contato com os engenheiros de rede do Data Center realizando a solicitações de alterações de rotas e ajuste fino dos filtros para que os transtornos sejam minimizados até que o ataque seja 100% mitigado.
(1.1) Será realizada uma manobra na rede do servidor onde será trocado o fornecimento de link e proteção anti-ddos em uma nova faixa de IP, assim que houver novos detalhes e mais informações atualizamos aqui no nosso status de rede.
Investigado
Há um bug na plataforma cPanel relacionada a função Listar contas de e-mail no cPanel e então acessar o webmail a partir desta listagem.
O bug já está sendo investigado pela cPanel e será corrigido em breve, enquanto isto faça acesso à conta de e-mail diretamente ao webmail a partir das URLs:
www.seudominio.com.br/webmail ou webmail.seudominio.com.br
O sistema do meio de pagamento IUGU, responsável pelo boleto bancário, PIX e cartão de crédito recorrente esta offline na parte de invoices até o momento.
Já comunicamos o time de desenvolvimento deles e estamos aguardando um retorno e solução para o problema.
Qual é o problema?
O servidor possui os discos todos NVMe e o kernel do Cloudlinux apresentou um bug que leva a reinicialização até corrompimento do sistema de arquivos.
Após extensa investigação foi disponibilizado um patch pelo Cloudlinux que foi aplicado com sucesso em todos os servidores com sistema operacional Alma 8. Já neste servidor é utilizado CentOS 7.9 e o kernel da Cloudlinux foi codificado com uma extensão que corrompeu todo o sistema do servidor.
Durante toda a madrugada nossa equipe, os sys admins do Data Center e os engenheiros sêniors da Cloudlinux tentaram sem sucesso iniciar a máquina.
Nenhuma das tratativas tiveram êxito, desta forma o mais prudente é restaurarmos as contas em um novo hardware, pois o downtime seria muito maior sem nenhuma certeza de sucesso.
O que está sendo feito?
Faremos a restauração dos backups das contas em uma nova máquina.
Como isto afeta os serviços?
Os serviços retornaram gradativamente de acordo com o restore e apontamento de DNS, se houver necessidade de alteração.
Qual a segurança dos dados?
O servidor atual não é confiável e não pode ser utilizar para cópia, desta forma será utilizado o backup mais recente disponível no JetBackup para sua conta.
Qual o tempo para normalização?
Estimamos que o processo possa demorar até 36 horas para ser concluído. Os serviços retornaram gradativamente de acordo com o restore e apontamento de DNS, se houver necessidade de alteração.
Progresso:
--> 100% das contas já restauradas. Você recebeu um ticket e um email informando os novos dados de acesso e IP.
20/02/2024
21h49 - Restauração finalizada dos bancos de dados MySQL do servidor.
Resumo Prévio: Parece que o problema se originou no Kernel do Cloudlinux. O qual ainda esta sob investigação do time da CL. Com isso, a máquina ficava fazendo o boot e reiniciando na sequência. Então não era nenhum problema de hardware e sim do Kernel. Voltamos uma versão anterior para podermos dar vazão e analisar os logs. A troca de chassi foi suspensa durante esta tentativa bem sucedida de voltar o Kernel. Se o problema voltar a ocorrer neste meio tempo, a troca de chassi é iminente.
16h34 - Banco de dados MySQL ainda em restauração.
15h35 - Validando um kernel anterior + banco de dados.
14h33 - Iniciado o procedimento de troca de chassis e placa de rede.
13h57 - Os serviços web continuam desativados intencionalmente para manter a máquina ativa, enquanto finalizamos todos os testes.
13h20 - A máquina voltou a reiniciar, estaremos fazendo um full chassi swap.
13h02 - A máquina voltou a ficar online e disponível. A funcionalidade de backup via cPanel ou Jetbackup estará indisponível até finalizarmos 100% os testes e verificações.
12h30 - Finalizado os testes de hardware e não foi encontrado nenhum problema. O time de rede esta verificando a rede pública da máquina.
11h40 - A máquina está na bancada sendo analisado possíveis problemas de hardware.
10h06 - Análise e testes de software com testes de estresse para verificar o motivo dela estar reiniciando. Pois o problema parece ser outro.
05h36 - Após receber um ataque DDoS nesta madrugada, mesmo com a proteção segurando o ataque, o servidor estava entrando em loop e reiniciando. Correndo o risco de corromper o sistema (kernel). Desta forma foi desativada a porta pública da máquina até finalização de investigação. O servidor esta online e com os dados preservados.
PRO105
14/02/2024 - Por conta do problema de hardware, decidimos inutilizar esta máquina, migrando todos os clientes para máquinas novas e modernas. Depois de 100% finalizada as migrações, estaremos substituindo 100% do hardware.
PRO101
14/02/2024 - Ainda em andamento as migrações do Data Center Canadá para o nosso DC Brasil.
05/02/2024 - Ainda em andamento as migrações do Data Center Canadá para o nosso DC Brasil.
24/01/2024 - Ainda em andamento as migrações do Data Center Canadá para o nosso DC Brasil.
20/01/2024 - Iniciamos as migrações do DC Canadá para o nosso DC Brasil.
19/01/2024 - Identificado o problema.
16h45 - O serviço foi retornado em poucos minutos após desbloqueio do IP. Estamos em tratativa com o Data Center para entender a ocorrência.
16h21 - Em investigação.
18h48 - Parece ter retornado, ou a operadora mitigado. Detalhe interessante que acesso pela VIVO de São Paulo acima estava com este problema. VIVO Sul já estava funcionando normalmente. Repassamos essa info a operadora.
18h39 - Ataque massivo DDoS nessa rede utilizada pela Vivo. Já falamos com a operadora.
18h30 - Estamos investigando com o Data Center o motivo da queda. Todos os servidores estão funcionando, apenas é algo na rede com a VIVO. Parece ser o link da VIVO que perdeu acesso. Acesso pela Claro e outras operadoras esta normal.
Já iniciou a mitigação do ataque na rede. Em breve teremos novidades aqui no status.
A Iugu (Gateway) parece estar com problemas no faturamento e pagamento de PIX e Boleto bancário. Já acionamos o time de infra-estrutura do gateway para validação.
Caso você tenha urgência na ativação, entre em contato com o nosso suporte.
Já acionamos o time do PicPay que ainda esta buscando uma solução.
Olá, como vai?
Um de nossos storages está com dificuldades de funcionamento que ocasionou alertas novamente de monitoramento. E agora esta novamente passando por fsck. Suspeitamos que seja algo relacionado com o rebuild do disco que foi substítuido outro dia.
Por conta disso, estaremos realizando a formatação do disco para resolução definitiva do problema.
Servidores que dependem deste Storage:
PRO106
PRO107
PRO109
PRO111
Qualquer dúvida ficamos a completa disposição,
⠀⠀⠀⠀⠀⠀⠀⠀
Equipe de Atendimento ao Cliente
Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.
-
Suporte Online:
Olá, como vai?
Na noite de hoje, realizaremos o update do banco de dados do MariaDB 10.3 para versão 10.6 com uma janela de manutenção de 2 horas, em média. O processo gerará instabilidades no acesso ao serviço de banco de dados.
Qualquer dúvida ficamos a completa disposição,
⠀⠀⠀⠀⠀⠀⠀⠀
Equipe de Atendimento ao Cliente
Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.
-
Suporte Online:
Olá, como vai?
O disco do Storage (backup) do Servidor PRO111 houve falha física e estará sendo substituído na data de hoje, 13/12/2023 - Quarta-feira, pois consta o mesmo modelo em estoque.
Antes da data do início da falha 11/12/2023, os backups continuam preservados e podem ser restaurados normalmente.
Assim que for substituído o disco estaremos atualizando o status desta demanda.
Qualquer dúvida ficamos a completa disposição,
⠀⠀⠀⠀⠀⠀⠀⠀
Equipe de Atendimento ao Cliente
Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.
-
Suporte Online:
Olá,
A base de nossa parceria, além de oferecer a melhor infraestrutura para seus serviços, é, também, fortalecer a transparência de informações, por isso gostaríamos de informar sobre uma manutenção emergencial na infraestrutura de rede onde está alocado os seus serviços conosco.
A manutenção ocorrerá hoje, dia 23 de novembro de 2023. Por gentileza, leia atentamente este comunicado e esteja ciente das ações desta ação.
Tipo de manutenção:
Melhoria de performance no fluxo de rede.
Janela de Manutenção:
Início: Quinta-feira, 23 de novembro de 2023 às 23h59min (Horário de Brasília).
Término: Sexta-feira, 24 de novembro de 2023 às 01h00min (Horário de Brasília).
Tempo de instabilidade:
Durante a janela de manutenção não é esperada indisponibilidade de rede. Porém, é possível que em alguns momentos você note uma breve degradação de performance. Caso isso ocorra, nossos engenheiros de rede estarão acompanhando em tempo real o procedimento e caso necessário, a intervenção será imediata.
Caso tenha mais alguma dúvida referente ao procedimento de manutenção, é só entrar em contato conosco.
Atenciosamente,
Equipe Napoleon
16h08 - Resolvido o upload e download no link principal. Foi necessária uma troca física do link de fibra para fugirmos do link que estava com problemas via Telefônica. E o link de contingência que existia também estava com este mesmo problema, por conta disso foi demorada a solução, visto ser necessário alterar fisicamente a fibra.
-
15h43 - Ainda em andamento a propagação das alterações. Rede instável.
-
13h24 - Isolando problema com a Tely (rota de conexão com o DC).
-
12h50 - Identificado o problema de rota do DC de São Paulo da Lúmen (Cirion). Em atuação com o time de infra e rota da Telefônica.
-
11h39 - Nossos servidores estão online e estáveis, entretanto estamos recebendo reports de falhas de rede de usuários que utilizam Vivo ou rotas da Telefônica:
https://downdetector.com.br/fora-do-ar/vivo/: Por favor verifique junto ao seu provedor.
Apenas comunicando que o serviço do Freepik esta instável conforme relatado: https://downdetector.com/status/freepik/
//Atualização - 19h11
Identificamos uma falha na placa mãe do antigo servidor e realizamos uma troca completa do hardware. O acesso foi normalizado e faremos a migração gradual de todas as contas para um servidor novo. Durante este processo os procedimentos de backup por parte dos usuários estão suspensos e estarão liberados no servidor novo.
Assim que for migrado será necessário que caso esteja no Cloudflare, ou aponte para o IP, precisará alterar para o novo IP, enviaremos um ticket sobre a migração e também em seu e-mail os dados de acesso, logo quando for realizada a migração, ela será feita aos poucos, mas no momento, já conseguirão acessar seu servidor.
Terça-feira: 12/09/2023
// Atualização - 13h10
Status da cópia: 18%
Prazo previsto: 50 horas
// Estamos finalizando a cópia do disco para liberar a maquina. Foi implantado um novo NVMe.
Segunda-feira: 11/09/2023
// Atualização - 00h56
Status: fsck finalizou e agora estamos clonando o disco.
// Atualização - 20h17
Ainda esta rodando o comando. Previsão para as 22 horas a finalização. O horário é apenas uma previsão e pode sofrer alterações.
// Atualização - 12h50
Iniciamos o procedimento de fsck para resolução do arquivo de configuração da máquina chamado filesystem. Esse procedimento é em caráter EMERGENCIAL e estará deixando a máquina com indisponibilidade total até a sua finalização.
Isso deve levar algumas horas e estaremos informando aqui assim que ela retornar e quais serão as medidas tomadas posteriormente.
Por que fazer isso?
Fazendo isso a máquina normaliza para a total migração das contas.
-
Olá, queridos clientes da Napoleon,
Esperamos que estejam bem. Primeiramente, gostaríamos de agradecer pela sua paciência e compreensão durante o período de atualização pré-agendada do nosso servidor PRO105. Como vocês sabem, agendamos essas manutenções para os finais de semana, visando minimizar qualquer inconveniente.
Infelizmente, apesar de nossos melhores esforços, a atualização não atingiu o nível de qualidade que sempre buscamos oferecer. Identificamos que o problema está relacionado ao hardware, mais especificamente aos discos da máquina.
O Que Estamos Fazendo?
Para resolver essa questão de forma definitiva, decidimos realizar uma atualização significativa no hardware. Estamos substituindo os antigos discos, que tinham uma velocidade de 3.500 MB/S de leitura e gravação, por novos discos NVMe com impressionantes 7.000 MB/S.
Migração de Contas cPanel
Além disso, para garantir que não haja mais problemas de desempenho, vamos migrar todas as contas cPanel deste servidor para novas máquinas. Todo esse processo será feito com o máximo de cuidado e eficiência para garantir uma transição suave e segura.
Tempo Estimado e Disponibilidade
Estamos trabalhando incansavelmente para fazer essas mudanças o mais rápido possível. No entanto, pedimos a sua compreensão, pois algumas interrupções ou lentidões podem ocorrer durante este período.
Agradecemos a Sua Compreensão
Queremos assegurar que este foi um episódio isolado e estamos tomando todas as medidas necessárias para que não se repita. A sua satisfação e a performance dos nossos serviços são nossas prioridades máximas.
Se tiverem qualquer dúvida ou preocupação, por favor, não hesitem em entrar em contato conosco. Estamos aqui para ajudar!
Atenciosamente,
Equipe Napoleon
-
Sexta-feira: 08/09/2023
O servidor esta passando por uma atualização pré-agendada após o último incidente. E com isso a lentidão da máquina será sentida até finalizar a sincronização.
Ela é intencional até resolver 100% as questões de performance. Agendamos neste final de semana para ser um período de menos acessos.
Infelizmente o WABA - WhatsApp Business API esta offline e estamos ajustando. O suporte continua ativo via demais redes.
20h02 - Corrigido erro na rede desta máquina.
19h59 - Em andamento.
Em investigação.
[22h04] - Localizado o erro no DNS. Era uma configuração incorreta que forçava o DNS do Data Center, a qual foi corrigida. Pois quando caiu o DNS do DC a máquina foi junto. Removendo essa configuração, tudo voltou ao normal.
[22h01] - A máquina parece estar online, pois é possível fazer o ping no IP da rede local do PRO111. Ainda estamos investigando o motivo do downtime.
Em investigação
Causa raiz: Configuração de rota estática (artificial), sem autorização, por operadora de contingência, de forma a priorizar o tráfego, indevidamente, criando um caminho inconsistente.
Foi reestabeleciado mas ainda em investigação.
Problema de Rota
Problema de Rota
Detectamos recentemente algumas inconsistências de hardware no servidor onde seus serviços estão atualmente hospedados (pro108/pro109). Embora estas não tenham afetado seus serviços até o momento, acreditamos na importância de agir de forma preventiva para garantir a qualidade e segurança dos seus dados.
Por isso, decidimos que será benéfico para você migrar os seus dados para um novo e mais moderno servidor. Esta atualização não só proporcionará maior estabilidade e segurança, como também oferecerá um melhor desempenho e uma resposta mais rápida, o que acreditamos que irá melhorar ainda mais sua experiência conosco.
A migração será iniciada às 23 horas (horário de Brasília) na próxima sexta-feira e esperamos concluir o processo até Domingo, às 23 horas. Nosso objetivo é que este processo de migração seja o mais tranquilo possível. Nossa equipe técnica se encarregará de realizar esta transição de forma eficiente e segura, procurando evitar qualquer tempo de inatividade ou interrupção de seus serviços.
Caso utilize o Cloudflare, o novo IP para substituição sera este: 177.234.152.251
Estamos sempre à disposição para ajudá-lo. Caso tenha qualquer dúvida ou preocupação sobre este processo de migração, por favor, não hesite em entrar em contato conosco. Nossa equipe de suporte está pronta para auxiliá-lo em qualquer momento.
Agradecemos sua compreensão e apoio contínuos. Estamos confiantes de que esta migração trará benefícios significativos para você.
Atenciosamente,
João Rizzon
Gestor de Operações
[email protected]
Estamos realizando manutenção no bot de download. Durante certo tempo alguns serviços podem não funcionar 100% corretamente.
[15/06/2023] - As contas iniciaram a ser migradas para novas máquinas até a resolução do problema.
O Toolkit também esta desativado no momento pelo mesmo problema. Caso necessário, pode ser utilizado o Softaculous para executar funcionalidade similar.
A controladora HP esta agindo de maneira irregular prejudicando o I/O do Bare Metal e deverá ser substituída para uma controladora Dell após a identificação do problema. Neste meio tempo o serviço do Jetbackup foi desativado para garantir a segurança operacional da máquina.
O serviço do Jetbackup deverá ser reativado fora do horário comercial novamente.
[15/06/2023] - As contas iniciaram a ser migradas para novas máquinas até a resolução do problema.
[13/06 - 12h09] - O Toolkit também esta desativado no momento pelo mesmo problema. Caso necessário, pode ser utilizado o Softaculous para executar funcionalidade similar.
[13/06 - 11h50] - A controladora HP esta agindo de maneira irregular prejudicando o I/O do Bare Metal e deverá ser substituída para uma controladora Dell após a identificação do problema. Neste meio tempo o serviço do Jetbackup foi desativado para garantir a segurança operacional da máquina.
O serviço do Jetbackup deverá ser reativado fora do horário comercial novamente.
[16h21] - Tempo esta sendo maior que o previsto, pois houve uma burocracia documental no meio do caminho. Foi resolvido e esta sendo ligada a máquina no rack. Já foi testada em bancada o seu funcionamento.
[14h57] - A maquina esta sendo transportada até o rack e esta sendo montada. Retorno atualizado: 10~20 minutos de ativação.
[13h37] - A controladora da máquina HP foi substituida e esta sendo realizado um Chassis SWAP. A máquina deve estar estabelecida e online até as 15h00.
[04h06] - Na tentativa de reiniciar o servidor para seguir com a configuração do array, identificamos uma falha na Bios do servidor, a qual está impedindo que o mesmo seja iniciado corretamente. Seguimos verificando e o manteremos informado no decorrer do processo.
[09/06/2023 - 11h53] - Neste momento estamos reiniciando o servidor - pro109.dnspro.com.br para criar o raid-0 com os discos.
[19h55] - O servidor foi rapidamente desligado para correção do cabo SATA, por esta razão o IPMI parou de responder.
[19h40] - Realizando reboot após IPMI estar off.
[19h35] - Investigando PRO111.
Reinicialização de servidores nacionais - São Paulo/SP para efetivação de alteração de Hardware. O objetivo é melhorias propostas por clientes na parte de hardware, com upgrade de discos físicos.
Provavelmente o downtime será apenas o tempo de reinicialização da máquina. Questão de menos de 1 minuto.
O sistema de aplicativo WhatsApp parece estar offline. Por isso a API de integração com o nosso suporte também esta aguardando o retorno dos serviços do WhatsApp.
DownDetector: https://downdetector.com.br/fora-do-ar/whatsapp/
20h21 - PRO101, PRO108 e Cloud VPS Canadá - Manutenção do backbone. Aguardando resolução no Data Center.
20h28 - Não era esperada na manutenção a queda de nenhum serviço, por isso não foi programada. Mas algo no Data Center fez cair. O time de infra rapidamente subiu os equipamentos novamente.
Iniciaremos o remanejamento de alguns contas para servidores mais adequados e otimizados.
Servidores PRO102 e PRO104.
A partir desta mudança, caso você esteja com o seu domínio no Cloudflare ou Zona de DNS externa, você deve alterar o IP do servidor para continuar com o seu website online, estamos comunicando por este aviso e também cada cliente que será migrado receberá via ticket + E-mail.
Servidor em manutenção emergencial no RAID dos discos.
Localizado o problema e está havendo intervenção na máquina física.
20h35 - Finalizando a modificação no SWAP.
20h46 - Servidor sem SWAP, MySQL iniciado.
18/05 - 13h31 - Será realizada a realocação das contas deste servidor para outras máquinas a fim de garantir a qualidade de serviço. Os discos serão substituidos posteriomente.
WhatsApp API offline
O time de infra já esta trabalhando no caso.
23:31 - Reiniciado o banco MySQL para validar modificações.
Olá, como vai? Segue report abaixo:
O que aconteceu?
Iremos fazer a substituição de 02 discos (setores) do storage da Napoleon, por apresentarem falha física e a consequência disso é que algumas contas do Jetbackup estão sem backup atualizado / recente devido à estes erros. Então teremos que fazer a substituição dos discos em caráter de urgência.
O que estamos fazendo sobre isso?
Com a substituição dos discos no storage (backup) da Napoleon, alguns clientes poderão sentir lentidão no processo de backup do cPanel > Jetbackup ou indisponibilidade durante este período de substituição.
Qual é o objetivo da equipe a longo prazo?
Estamos trabalhando para substituir esses discos para corrigir permanentemente os problemas de backup no Storage da Napoleon. Além disso, estamos inserindo na rede local novos discos para diminuir o tempo de criação de backup. Fizemos novos pedidos de discos, incorporando a nossa infra-estrutura, para melhorar ainda mais o backup disponível no painel. Essa última parte, irá ajudar a ter diariamente os backups disponíveis. Hoje configuramos o Jetbackup para fazer o backup a cada 24 horas (daily). Mas, na prática, isso não está ocorrendo em algumas contas devido à demora na construção do backup incremental, construindo ele em 30-40 horas. Por isso estamos fazendo essa reestruturação interna no storage / rede local visando entregar mais qualidade e em menor tempo possível aos nossos clientes que precisam de backup.
Atenciosamente,
Napoleon - Hospedagem e Revenda Dedicada, Servidores Cloud e Bare Metal.
[24/02/2022] - Atualização:
Finalizamos a restauração de todas as contas. Entre no seu cPanel > No lado direito você verá o IP novo da sua conta para publicação caso esteja no Cloudflare.
Obs: Os bancos não foram corrompidos, temos eles na integra do dia do incidente. Caso seus posts, publicações ou dados do banco precisem de atualização, entre em contato e solicite para enviarmos ou inserirmos na sua conta. Obrigado!
-
[23/02/2022]
Caso queira entre em contato conosco (via WhatsApp) para restaurarmos a sua conta em outro servidor com o último backup disponível no Jetbackup, pois o disco anterior corrompeu e os arquivos ficaram inacessíveis.
O processo de sincronização ainda está acontecendo no pro105. Mas podemos adiantar o seu caso em outro servidor caso tenha urgência.
-
[18h21] - Os discos foram trocados e estão passando por processo de formatação. Os antigos dados (banco e files) já se encontram disponíveis para serem inseridos nos novos discos. Assim que finalizar o restore das contas inicia automaticamente e estarão disponíveis.
[16h32] - Atualização: Ainda em processamento.
[14h02] - O FSCK ainda está rodando e por isso o painel do cPanel já está aparecendo novamente. Mas ainda está rodando a reparação e por isso não estará em funcionamento completo. Atualizaremos aqui quando finalizar o reparo.
[12h23] - Estamos realizando xfs_repair no sistema de arquivos do disco md124, que no momento consta apenas um disco no array. Assim que concluído iremos inicializar novamente o servidor. Vamos mantendo informado durante a realização. No momento, está na última fase.
[11h47] - Continuamos analisando. Foi realizado um reboot, porém a unidade /home não inicializou. No momento estamos trabalhando para montá-la novamente.
[10h47] - Esta sendo feita a última checagem de software antes da intervenção na bancada do Data Center.
[Atualização - 23/02/2023] - O disco /home está travado e falhando. Não está conseguindo enviar os arquivos para outra máquina. Vamos ter que intervir fisicamente na máquina para corrigir a situação crítica.
-
[Em investigação/Em andamento - 22/02/2022] - Equipe de infra já está verificando.
Relato:
Não está resolvendo DNS, aparentemente um bloqueio na porta 53 nos servidores nacionais. Nos internacionais tudo normal. Ai não envia para Gmail, Hotmail, etc.
Problema Confirmado
Afeta desde e-mails à atualização do Wordpress. Equipe de proteção já está atuando.
Exemplo no Wordpress:
Exemplo no e-mail:
[root@~]# dig mx gmail.com @8.8.8.8
; <<>> DiG 9.11.4-P2-RedHat-9.11.4-26.P2.el7_9.10 <<>> mx gmail.com @8.8.8.8
;; global options: +cmd
;; connection timed out; no servers could be reached
Período: 09:43 - 09:46
Instabilidade no DC Nacional
Ainda em investigação
Foi constatado que na data de ontem as 23h30 iniciou um problema de rede no Data Center da Lumen. Afetando inúmeras empresas que possuem link dedicado de internet lá.
Depois de uma investigação minuciosa foi comprovado o ataque DDoS de rede. E substituímos o fornecedor de anti-DDoS para uma segunda camada, não afetando mais a Napoleon. Isso não afeta em nada a segurança dos servidores, até porque o ataque não foi nos servidores e sim na rede, apenas deixando o tráfego lento ou inoperante.
Foi alterado o fornecedor de proteção de rede (anti-DDoS) e tudo foi normalizado em poucos minutos. O que demorou um certo tempo foi a identificação do problema e acionamento das pessoas corretas.
17h44 - Corrigido, mas ainda aguardando um report oficial
17h01 - Provavelmente é o mesmo erro de antes de rede na Lumen/Cirion, que não é nosso fornecedor, mas tem rotas que passam por lá.
Empresas brasileiras de hosting que contrataram eles estão com downtime. Eles estão investigando no momento o motivo.
[Relatório Oficial]
ACR - Análise de Causa Raiz
Incidente Data Center SPO
No dia 15/12 às 10:35h nossos sistemas de monitoramento alertaram uma indisponibilidade
em um de nossos roteadores de borda, sem deixar rastros de logs, nete momento todo o
tráfego foi imediatamente redirecionado para as demais caixas às 10:45h. Após o
redirecionamento alguns clientes alegaram falta de conectividade de algumas regiões, então
os analistas iniciaram as tratativas junto ao provedor de link de trânsito de backup. O
comportamento notado apontou para uma falha de roteamento assíncrono no backbone do
parceiro, onde pacotes para determinadas origens eram dropados. Como o problema se
estendeu por um período maior que o esperado tomamos uma ação de contorno migrando os
links do equipamento problemático para o funcional, onde às 14:40h notamos a normalização
do ambiente. Em seguida, às 15:55h o equipamento danificado foi reestabelecido e assumiu
suas funcionalidades, contudo desligou-se inesperadamente, porém desta vez gerando log.
Identificamos a falha do equipamento, onde um dos discos naquele momento queimou.
Indisponibilizando-o por completo às 16:58h. Novamente mantemos toda a operação nos
demais equipamentos. Normalizando a situação às 17:20h até a execução da janela
emergencial no turno da madrugada, visando isolar o equipamento problemático.
O equipamento problemático foi isolado por completo durante a manutenção e atualmente
estamos trabalhando arduamente para trazê-lo de volta a operação numa outra janela
programada prevista para o final de semana.
Ações realizadas:
- Alteração do discos SSD de um dos roteadores de borda.
- Agendado janela de manutenção com o provedor de link problemático para identificar a causa raiz.
Report Oficial:
A máquina física/servidor não apresentava imagem ou resposta no teclado, e por conta disso optamos por um reset. Após isso, optamos por uma inspeção física, que acaba sendo comum ao realizar um simples reset, e o sistema veio a subir normalmente.
Qualquer coisa pode acionar a nossa equipe de suporte online via ticket ou WhatsApp em caso de dúvidas.
Downtime detectado. Máquina sendo reiniciada.
17h08 - Reiniciada a máquina. Ajustado o gateway de rede. Servidor online e serviços no ar. Estamos acompanhando a máquina para ver se tudo normalizou de maneira definitiva.
Causa: Erro no Gateway de Rede, o que forçou a reinicialização da máquina e reparo na configuração do gateway.
Houve um problema de hardware que está em andamento pela nossa equipe no Data Center em São Paulo. Isso pode demorar mais do que o normal. Estamos atualizando o Status da Rede conforme vai evoluindo a demanda.
Atualização - 12h17
Houve falha em um dos discos do RAID, esta sendo desmontado o RAID e subindo no disco secundário para ativação.
Atualização - 12h28
Estamos com acesso ao módulo iDrac do servidor tentando subir o sistema e identificando o que levou a indisponibilidade.
Atualização - 12h56
Ainda em andamento com a equipe de Hardware.
Atualização - 13h45
O filesystem de ambos NVMe foram corrompidos. Esta sendo rodado o fsck para verificar o file system check padrão do linux. Ele é demorado e com ele teremos a resolução do caso ou necessidade de restore integral da máquina.
Atualização - 14h17
Ainda em andamento com a equipe de Hardware.
Atualização - 15h01
Servidor voltou no ar. Ainda sob análise de logs e verificação.
Atualização - 15h35
Análises concluídas e medidas sendo tomadas no hardware e software.
A máquina não chegou a ficar offline, apenas com demora no carregamento por conta do problema localizado.
Tivemos um pico involuntário ao Lite Speed Web Server que retornou com um erro de acesso aos servidores. Tudo estava acessível, mas com lentidão agregada.
Foi normalizado e o erro foi corrigido. Da mesma forma, ainda estamos monitorando até complementar 48 horas a partir do incidente.
Erro de rota. Localizado o problema.
O servidor esta funcionando perfeitamente. Parece que uma das rotas de acesso da internet até o servidor estava perdendo pacotes. Isso é algo externo dos servidores. Parece que esta normalizando, mas ainda com pouca perda de pacotes.
Bug no Imunify360 - Antimalware/Firewall
Fizemos um ajuste no Imunify360 problemático hoje cedo. O Imunify precisou ser reinstalado em decorrência de um bug que causou um pico de consumo de memória RAM.
Olá, como vai?
O Cloudflare está passando por problemas regionais reportados em rotas nacionais brasileiras. Se o seu site der timeout 5XX, pode ser apenas na sua localização regional inacessível via Cloudflare.
Acompanhe o Status aqui: https://www.cloudflarestatus.com/
Ficou com dúvidas? Entre em contato conosco no suporte online.
Napoleon - Hospedagem e Revenda Dedicada de Servidores
Bitninja - WAF nos domínios do CloudFlare
Na sequência iremos atualizar sobre a resolução e a garantia dos serviços online.
Erro nos bancos de dados
Hoje cedo tivemos um erro em nossos bancos de dados gerando consumo de 100% de memória RAM e CPU.
Está tudo estável após reiniciar os bancos, mas irá exigir investigação da nossa equipe a qual já está mexendo nisso.
Em breve iremos atualizar o post com informações sobre o relatório oficial do erro.
Atualização - 21/04/2022
Fizemos as alterações necessárias para remover uma funcionalidade que estava bugando o consumo de memória e CPU. Iriamos aplicar ela ontem de madrugada, sendo necessário reiniciar o banco de dados (reboot), mas como houve um novo incidente, reiniciamos na mesma hora que ocorreu para evitar novos problemas ou interrupções.
Reinicialização do servidor para validar configurações no arquivo /tmp
Olá, como vai?
Estaremos fazendo nessa madrugada, às 04h00 - horário de Brasília, do dia 13/04, a reinicialização do servidor Carnegie para validar as configurações de arquivos temporários /tmp.
Prazo Previsto: 3 minutos
Data/Hora: 13/04 - às 04h00 da madrugada
Se você utiliza o Uptime Robot para monitorar o downtime e uptime do seu website, provavelmente você sinta nesse horário um downtime quando iremos reiniciar as máquinas do servidor Carnegie.
Atualização no config do cPanel
Olá, como vai?
Recebemos a informação que o cPanel solicitou atualização expressa na config do Apache. Iremos fazer esse update nessa madrugada, 04/04/22, às 3 horas da manhã - horário de Brasília. A equipe do cPanel ainda está investigando o caso, pois é algo global e que afeta todas as hospedagens que estão com o sistema WHM + cPanel.
Se você utiliza o Uptime Robot para monitorar o downtime e uptime do seu website, provavelmente sinta nessa madrugada um downtime quando iremos alterar e reiniciar o Apache.
Erro de conexão
Foi reportado um bug ao LiteSpeed e a incompetente equipe do suporte deles entrou para ajustar. Eles alteraram para Apache como fins de teste e demorou até recriar as configurações.
Ou seja, trocaram para Apache por um segundo e o servidor ficou sem conexão, aí demorou para recriar as configurações.
Não houve nenhuma alteração. Obrigado pela compreensão, precisando a nossa equipe esta a completa disposição =)
Erro no banco
Estamos com problema no banco de dados MariaDB e está sendo resolvido.
[01:36:34 94312343 root@94415050 ~]cPs# grep -w "oom-killer" /var/log/messages | tail
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x6000c0(GFP_KERNEL), order=0, oom_score_adj=0
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:27 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x7000c0(GFP_KERNEL_ACCOUNT), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x6000c0(GFP_KERNEL), order=0, oom_score_adj=0
Feb 10 01:25:28 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Feb 10 01:25:29 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x6000c0(GFP_KERNEL), order=0, oom_score_adj=0
Feb 10 01:25:29 94312343 kernel: lsphp invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=0
Um momento por gentileza que estamos trabalhando para reestabelecer todos os serviços.
Baixo consumo do banco de dados
Baixo consumo de processamento no banco de dados isso indica um problema. Estamos analisando e em breve teremos uma solução.
Falha no Banco de Dados
Estamos com uma instabilidade no banco de dados. Equipe esta em cima e a correção deve acontecer muito em breve.
Inserção de Novo Cabo de Alimentação na OVH
Olá, como vai?
Lembra da nossa última manutenção programada? A equipe da OVH acabou instalando toda a nossa infra-estrutura adicional de Cloud mas acabaram esquecendo de inserir um cabo de conexão/fonte de energia. Serão 60 minutos de interrupção. O Diretor da América Latina nos mandou pessoalmente um pedido de desculpas e estão precisando desligar um de nossos servidores para inserção desse cabo.
Dia 11/01 às 11h55 da madrugada (60 minutos)
Pela compreensão, e todo o carinho sempre disponibilizado pelos nossos clientes, realizaremos upgrade de espaço em disco nas contas nesta semana.
Equipe Napoleon
[email protected]
+55 (11) 91301-0000
Upgrade de Hardware
Estaremos aumentando a nossa infra-estrutura de hardware global com novas contratações físicas, por isso estaremos passando por manutenção programada na noite de hoje, iniciando o procedimento interno de desligamento do servidor e em seguida a equipe da OVH estará assumindo os ajustes físicos da rede.
A estrutura visa aumentar e melhorar ainda mais os nossos serviços prestados.
Qualquer dúvida basta entrar em contato com a nossa equipe nos canais de comunicação disponíveis em nosso website.
Atualização Agendada no Banco MySQL
Inserção de certificado de segurança SSL no Banco MySQL para conexões seguras e remotas. Solicitação requisitadas por três clientes e que se estenderá a todos como upgrade do nosso ecossistema.
Status
Abaixo está uma lista em tempo real do status de nossos servidores, onde você pode verificar se há algum problema.
Servidor | HTTP | FTP | POP3 |
---|---|---|---|
PRO101 |
|
|
|
PRO102 |
|
|
|
PRO103 |
|
|
|
PRO104 |
|
|
|
PRO105 |
|
|
|
PRO106 |
|
|
|
PRO107 |
|
|
|
PRO108 |
|
|
|
PRO109 |
|
|
|
PRO110 |
|
|
|
PRO111 |
|
|
|
PRO112 |
|
|
|
PRO113 |
|
|
|
PRO114 |
|
|
|
PRO115 |
|
|
|
PRO116 |
|
|
|
PRO117 |
|
|
|