Comparteix:

Particionat del scratch al NAS del cluster

12/06/2020

Com sabeu, el disc de scratch del cluster arvei està disponible per NFS a partir del directori /scratch/nas/1 a cadascun dels nodes del cluster. Fins avui aquest era un únic filesystem ofert per un dels dos servidors de disc (NAS: Network Attached Storage).

Com també sabreu, des que es va posar en funcionament el nou servidor de disc del cluster a finals de juliol, estem experimentant problemes de rendiment especialment a les operacions d'escriptura al disc del NAS. Els enginyers d'Oracle, juntament amb la nostra col·laboració, estan tractant d'esbrinar-ne les causes (tot apunta a un bug del sistema que fa que reservi excessiva memòria física del NAS, i tot s'alenteixi). Malauradament, tenim la impressió que no trobarem la solució definitiva a curt termini.

Per tal de reduir l'impacte i millorar el rendiment del servidor NAS, hem particionat el disc de scratch NFS en dos filesystems, cadascun dels quals serà servit per un servidor dedicat. El vostre directori dins del NAS quedarà allotjat de la següent manera, segons la inicial del vostre username:

  • de la «a» a la «j» (servidor A): /scratch/nas/1
  • de la «k» a la «z» (servidor B): /scratch/nas/2

Per aquells que el vostre directori ha estat mogut, hem creat un symbolic link al path original per a conservar-ne la compatibilitat. Per exemple: si el vostre directori originalment era /scratch/nas/1/username i ara és /scratch/nas/2/username, el path original a /scratch/nas/1 ara serà un link que apuntarà a la localització correcta. Això fa que no calgui modificar cap dels vostres scripts per a que continuin sent operatius. De tota manera però, us recomanem que els actualitzeu convenientment si el vostre directori ha estat mogut. D'aquesta manera us estalvieu una indirecció i una dependència innecessària d'un altre filesystem, que en un moment determinat podria no estar disponible.

Addicionalment, per als usuaris que romangueu a /scratch/nas/1, hem recreat els vostres directoris amb un nou tamany de bloc, que confiem que també aporti beneficis en quant a rendiment. Aquest mateix tamany de bloc és el que hem usat per a crear el nou /scratch/nas/2.

Aquest procés de particionat del disc i recreació dels directoris ha estat realitzat sense interrupció de servei, i ha calgut dur-lo a terme de manera semi-automàtica comprovant que l'usuari propietari del directori no tingui cap treball ni cap procés interactiu al cluster en el moment de l'actuació. Hi ha un nombre d'usuaris pels quals encara no ha estat possible dur a terme el procés, degut a que sovint tenen processos en execució al cluster. En els propers dies ens posarem en contacte amb vosaltres per a dur a terme l'actuació de manera coordinada.

Keywords
blog