Une grappe de serveurs (cluster en Anglais) est un ensemble de serveurs indépendants fonctionnant comme un seul et même système. Un client dialogue avec un cluster comme s'il s'agissait d'une machine unique.
Dans les domaines scientifiques, les clusters sont habituellement constitués de nœuds de calcul, de nœuds de stockage, de un ou plusieurs nœuds frontaux et de nœuds supplémentaires dédiés au suivi (monitoring).
Les nœuds peuvent être reliés entre eux par plusieurs réseaux. Communément, le réseau avec le débit le plus lent est dédié aux tâches d'administration (chargement des systèmes sur les nœuds, suivi, mesure de charge ...). À ce premier réseau vient généralement s'adjoindre un second réseau, avec une bande passante beaucoup plus importante (plus de 10 Gigabits/s).
Notre cluster est constitué de 48 nœuds de calcul (nommés de cn101 à cn148), du front end (headnode : marvin) et d’un serveur qui sert à administrer le cluster (nommé cn149).Le headnode sert aussi à gérer les files d’attente des jobs grâce au logiciel Grid Engine. Il pourrait aussi être un nœud d’exécution.
Le nœud de gestion (cn149) est aussi utilisé par les programmes interactifs.
Accès
au cluster :
| ssh –X 132.208.132.89 | |
| ou bien | ssh –X –l <usager> 132.208.132.89 |
Headnode :
Le système d’exploitation sur tous les nœuds est centos 4.4 (linux)
Une unité
de stockage FLX240 « Fibre Channel » est
reliée
directement au headnode.
Trois
unités
de stockage FLC200 sont reliées en série à
l’unité FLX240.
L’unité FLX240 :
Elle est dotée de deux contrôleurs Fibre Channel dual port d’un débit de 2Gbs chacun.Elle comprend 8 disques Fibre Channel de 300 GB chacun.Les unités FLC200 :
Elles comprennent 14 disques SATA de 400GB chacun.| /local/fiber1: | 1.7 | TB |
| /local/sata1: | 7.8 | TB |
| /local/sata2: | 5.2 | TB |
| /home: | 67 | GB |
Les systèmes de fichiers sont montés (nfs) par «automontage» sur les différents nœuds.
Grid Engine :
C’est le logiciel qui permet de soumettre des travaux, et de gérer les files d’attente.
Il y a deux manières d’ exécuter Grid Engine: À partir de la ligne de commande (par des commandes), ou grâce à une interface utilisateur graphique (GUI).
L'interface graphique s'affiche en tapant la commande " qmon ".
Les commandes de base pour Grid Engine sont:
qconf [switches]
(configurer GE pour l'exécution d'une
tache)
qsub [switches] job_name
(soumettre une tache)
qstat [switches] (voir le statut d'une
tache)
qdel [switches]
job_id (détruire une tache)
documentation : La documentation détaillée de Grid Engine se trouve dans /home/sgeadmin/n1ge6_0u9/doc
Vous pouvez aussi accéder aux pages de manuel par la commande man.
Exemple :
man qsub
Quelques
exemples de commande Grid Engine :
| qstat –j <jobid> | raison d’un job suspendu. |
| qstat –u <user> | affiche les jobs d’un usager. |
| qstat –s r | affiche les jobs en exécution |
| qstat –s p | affiche les jobs en attente. |
| qstat –g c | affiche des information sur les cpus Nombre de cpus libres Nombre de cpu utilisés |
| qdel <jobid> | supprime le job La commande qstat affiche la valeur de jobid. |
PGI Cluster Development Kit.
Il inclus : F90, F77,C, C++.
| Pour lancer le compilateur F90 tapez : | pgf90 |
| Pour lancer le compilateur F77 tapez : | pgf77 |
| Pour lancer le compilateur c tapez : | pgfcc |
| Pour lancer le compilateur C++ tapez : | pgCC |
La documentation
détaillée des compilateurs pgi se trouve dans
/home/pgi/linux86-64/6.2/doc
Vous pouvez aussi accéder aux pages de manuels par la commande man.
Exemple man pgf77.
Matlab :
Il est installé sur le nœud cn149 : Pour l’utiliser :
Autres
logiciels : Tous installés sur cn149
Grads :
Pour lancer grads
il faut :
Politique de travail :
Nouveau compte :
Tout nouveau compte est créé avec l’environnement GEM, ou sans, d’après les besoins du nouvel usager.
Par défaut, le shell utilisé est le bourne shell.
Si l’environnement GEM est configuré, et que l’usager veut modifier son environnement, il faudra qu’il modifie le fichier «.profile_usr» qui se trouve dans son home (/home/usager). Sinon, il faudra qu’il modifie le fichier .bashrc qui se trouve dans son home aussi.
Un nouvel usager
a trois répertoires en plus de son home:
/local/fiber1/usager
/local/sata1/usager
/local/sata2/usager
| du –s –h </local/sata1/usager> | affiche la taille des fichier dans le répertoire /local/sata1/usager |
Dès
le premier accès au headnode, vous pouvez changer votre mot de
passe en tapant la commande yppasswd
Sauvegarde :
Des sauvegardes quotidiennes et hebdomadaires des homes des usagers sont faites régulièrement sur disque. Toutes les deux semaines, les sauvegardes des homes sont copiés sur cartouches.
Si vous désirez effectuer des sauvegardes de fichiers qui ne sont pas sur /home/usager), il faudra les copier sur /dmf1. Vous pouvez utiliser le script tardmf, qui fait un tar suivi d’une copie vers /dmf1/usager sur rhea.
Si vous désirez effectuer la copie d’un fichier sur /dmf1, vous pouvez utiliser la commande :
scp <nom-du-fichier> rhea.ouranos.ca:/dmf1/<usager>
Jobs interactifs :
Les exécutions doivent être soumises à Grid Engine sur les nœuds de calcul avec 'soumet' (password and login are 'science').
On peut seulement lancer des exécutions interactives sur le nœud cn149.
Pour lancer une impression tapez :
|
lp18 <fichier à imprimer> |
/* Imprimante HP Laserjet 4100 au 18ieme */ |
| lp19 <fichier à imprimer> | /* Imprimante HP Laserjet 4100 au 19ieme */ |
| lpcanon <fichier à imprimer> | /* Imprimante Canon au 19ieme */ |
Pour afficher les files d’attente d’impression :
lpq18
lpq19
lpqcanon
Pour arrêter une impression en cours :
lprm18
lprm19
lprmcanon
Impression à l’uqam
Pour lancer une impression taper :
lp2430
<nom-du-fichier>
lp2200
<nom-du-fichier>
Pour afficher les attentes d’impression :
lpq2430
lpq2200
Pour arreter une impression en cours :
lprm2430
lprm2200