Introduction :

Une grappe de serveurs (cluster en Anglais) est un ensemble de serveurs indépendants fonctionnant comme un seul et même système. Un client dialogue avec un cluster comme s'il s'agissait d'une machine unique.

Dans les domaines scientifiques, les clusters sont habituellement constitués de nœuds de calcul, de nœuds de stockage, de un ou plusieurs nœuds frontaux et de nœuds supplémentaires dédiés au suivi (monitoring).

Les nœuds peuvent être reliés entre eux par plusieurs réseaux. Communément, le réseau avec le débit le plus lent est dédié aux tâches d'administration (chargement des systèmes sur les nœuds, suivi, mesure de charge ...). À ce premier réseau vient généralement s'adjoindre un second réseau, avec une bande passante beaucoup plus importante (plus de 10 Gigabits/s).

Notre cluster est constitué de 48 nœuds de calcul (nommés de cn101 à cn148), du front end (headnode : marvin) et d’un serveur qui sert à administrer le cluster (nommé cn149).

Le headnode sert aussi à gérer les files d’attente des jobs grâce au logiciel Grid Engine. Il pourrait aussi être un nœud d’exécution.

Le nœud de gestion (cn149) est aussi utilisé par les programmes interactifs.


Accès au cluster :

L’accès au cluster se fait par l’ouverture d’une session ssh vers l’adresse IP 132.208.132.89 (adresse du headnode) :


ssh –X 132.208.132.89
ou bien ssh –X –l <usager> 132.208.132.89


Les nœuds :

Caractéristiques techniques des nœuds :

Headnode :

Les nœuds de calculs et le nœud de gestion:

Le système d’exploitation sur tous les nœuds est centos 4.4 (linux)


Le réseau :

Les nœuds de calculs sont reliés par un réseau infiniband d’une bande passante de 10 Gbs.

Le stockage :

Une unité de stockage FLX240 « Fibre Channel » est reliée directement au headnode.
Trois unités de stockage FLC200 sont reliées en série à l’unité FLX240.

Les unités de stockage sont toutes configurées en RAID5.

L’unité FLX240 :

Elle est dotée de deux contrôleurs Fibre Channel dual port d’un débit de 2Gbs chacun.Elle comprend 8 disques Fibre Channel de 300 GB chacun.

Les unités FLC200 :

Elles comprennent 14 disques SATA de 400GB chacun.

Les systèmes de fichiers


/local/fiber1:     1.7  TB
/local/sata1:     7.8 TB
/local/sata2:     5.2 TB
/home:     67 GB

Les systèmes de fichiers sont montés (nfs) par «automontage» sur les différents nœuds.


Logiciels :

Grid Engine :

C’est le logiciel qui permet de soumettre des travaux, et de gérer les files d’attente.

Il y a deux manières d’ exécuter Grid Engine: À partir de la ligne de commande (par des commandes), ou grâce à une interface utilisateur graphique (GUI).

L'interface graphique s'affiche en tapant la commande " qmon ".

Les commandes de base pour Grid Engine sont:

qconf [switches] (configurer GE pour l'exécution d'une tache)
qsub [switches] job_name (soumettre une tache)
qstat [switches] (voir le statut d'une tache)
qdel [switches] job_id (détruire une tache)

documentation : La documentation détaillée de Grid Engine se trouve dans /home/sgeadmin/n1ge6_0u9/doc

Vous pouvez aussi accéder aux pages de manuel par la commande man.

Exemple : man qsub
Quelques exemples de commande Grid Engine :


qstat –j <jobid> raison d’un job suspendu.
qstat –u <user>   affiche les jobs d’un usager.
qstat –s r affiche les jobs en exécution
qstat –s p affiche les jobs en attente.
qstat –g c affiche des information sur les cpus
  Nombre de cpus libres
  Nombre de cpu utilisés
qdel <jobid> supprime le job
La commande qstat affiche la valeur de jobid.


PGI Cluster Development Kit.

Il inclus : F90, F77,C, C++.

Pour lancer le compilateur F90 tapez : pgf90
Pour lancer le compilateur F77 tapez : pgf77
Pour lancer le compilateur c tapez : pgfcc
Pour lancer le compilateur C++ tapez : pgCC


La documentation détaillée des compilateurs pgi se trouve dans
/home/pgi/linux86-64/6.2/doc

Vous pouvez aussi accéder aux pages de manuels par la commande man.

  Exemple man pgf77.


Matlab :

Il est installé sur le nœud cn149 : Pour l’utiliser :



Autres logiciels :
Tous installés sur cn149


Grads 
:

Pour lancer grads il faut :


CDO :
Pour lancer cdo :


Politique de travail :

Nouveau compte :

Tout nouveau compte est créé avec l’environnement GEM, ou sans, d’après les besoins du nouvel usager.

Par défaut, le shell utilisé est le bourne shell.

Si l’environnement GEM est configuré, et que l’usager veut modifier son environnement, il faudra qu’il modifie le fichier «.profile_usr» qui se trouve dans son home (/home/usager). Sinon, il faudra qu’il modifie le fichier .bashrc qui se trouve dans son home aussi.

Un nouvel usager a trois répertoires en plus de son home:

    /local/fiber1/usager
    /local/sata1/usager
    /local/sata2/usager

du –s –h </local/sata1/usager> affiche la taille des fichier dans le répertoire /local/sata1/usager


Dès le premier accès au headnode, vous pouvez changer votre mot de passe en tapant la commande  yppasswd


Sauvegarde :

Des sauvegardes quotidiennes et hebdomadaires des homes des usagers sont faites régulièrement sur disque. Toutes les deux semaines, les sauvegardes des homes sont copiés sur cartouches.

Si vous désirez effectuer des sauvegardes de fichiers qui ne sont pas sur /home/usager), il faudra les copier sur /dmf1. Vous pouvez utiliser le script tardmf, qui fait un tar suivi d’une copie vers /dmf1/usager sur rhea.

Si vous désirez effectuer la copie d’un fichier sur /dmf1, vous pouvez utiliser la commande :

scp <nom-du-fichier> rhea.ouranos.ca:/dmf1/<usager>


Jobs interactifs :

Les exécutions doivent être soumises à Grid Engine sur les nœuds de calcul avec 'soumet' (password and login are 'science').

On peut seulement lancer des exécutions interactives sur le nœud cn149.

Impression à Ouranos

Pour lancer une impression tapez :


lp18 <fichier à imprimer>

/* Imprimante HP Laserjet 4100 au 18ieme */
lp19 <fichier à imprimer> /* Imprimante HP Laserjet 4100 au 19ieme */
lpcanon <fichier à imprimer> /* Imprimante Canon au 19ieme */

Pour afficher les files d’attente d’impression :

lpq18
lpq19
lpqcanon

Pour arrêter une impression en cours :

lprm18
lprm19
lprmcanon

Impression à l’uqam

Pour lancer une impression taper :

lp2430 <nom-du-fichier>
lp2200 <nom-du-fichier>

Pour afficher les attentes d’impression :

lpq2430
lpq2200

Pour arreter une impression en cours :

lprm2430
lprm2200





Author: Nadjet Labassi
Last update: June 2008 (Katja Winger)