[english version below]
Prezados usuários,
Informamos que entre os dias 07 e 17 de abril de 2025 será realizada uma parada programada completa no ambiente de HPC para a execução de uma série de atividades de manutenção e expansão da infraestrutura.
Durante esse período, todo o ambiente estará indisponível, incluindo os nós de login e os serviços de submissão e execução de jobs. Os seguintes recursos serão afetados:
– Cluster Apolo (execução de jobs e acesso aos nós de login);
– Sistema de arquivos Lustre, o que impacta o acesso aos dados armazenados nesse sistema;
– Plataforma web Open OnDemand.
As ações previstas incluem:
- Instalação física e lógica de dois novos nós de administração e login;
- Liberação de dois nós de processamento, atualmente utilizados como nós de administração e login — com isso, o cluster ganhará dois nós de processamento adicionais;
- Atualização de software, abrangendo:
- – Sistema Operacional dos nós do cluster;
- – Gerenciador de cluster HPCM;
- – Escalonador de jobs Slurm;
- Instalação de uma nova solução de armazenamento (HPE Apollo 4510) com 1.2 petabyte de capacidade;
- Atualização do sistema de arquivos de alto desempenho Lustre;
- Reorganização da infraestrutura de rede Infiniband, com intervenções físicas nos enlaces entre os nós.
Essas melhorias fazem parte dos preparativos para a implantação do IDAC Brasil, uma infraestrutura estratégica que integra as contribuições brasileiras à colaboração internacional com o Rubin Observatory/LSST.
Contamos com a compreensão de todos e recomendamos que os usuários se planejem considerando a indisponibilidade total do ambiente durante o período. Em caso de dúvidas, estamos à disposição pelos canais habituais de suporte.
Scheduled Downtime for the HPC Environment (April 7–17)
Dear Users,
We would like to inform you that a full scheduled downtime of the HPC environment will take place from April 7 to April 17, 2025, to carry out a series of maintenance and infrastructure expansion activities.
During this period, the entire environment will be unavailable, including login nodes and job submission and execution services. The following resources will be affected:
- Apolo Cluster (job execution and login node access).
- Lustre file system, impacting access to stored data;
- Open OnDemand web platform.
The planned actions include:
- Physical and logical installation of two new administration and login nodes;
- Release of two processing nodes, currently used as administration and login nodes—adding two additional processing nodes to the cluster;
- Software updates, including:
- Cluster node Operating System;
- HPCM cluster manager;
- Slurm job scheduler;
- Installation of a new storage solution (HPE Apollo 4510) with 1.2 petabytes of capacity;
- Upgrade of the Lustre high-performance file system;
- Reorganization of the Infiniband network infrastructure, with physical interventions in node link connections.
These improvements are part of the preparations for the implementation of IDAC Brazil, a strategic infrastructure integrating Brazilian contributions to the international collaboration with the Rubin Observatory/LSST.
We appreciate your understanding and recommend that users plan accordingly, considering the total unavailability of the environment during this period. Should you have any questions, please reach out through our usual support channels.
O LIneA é um instituto de ciência e tecnologia privado cuja missão é viabilizar a participação de pesquisadores e estudantes em colaborações internacionais, apoiar centros emergentes, fornecer acesso a acervos de dados astronômicos e a uma infraestrutura de processamento intensivo de dados, e desenvolver soluções para problemas de big data nas áreas de astronomia e cosmologia. Atualmente as atividades do LIneA são apoiadas pela FINEP e pelo INCT do e-Universo.