La gamme des packages Essentials n'a rien de nouveau et la version vSphere Essentials est en ce moment très attractif car il y a une promo de -50% jusqu'au 15 juin 2010. Soit 3 serveurs ESX et 1 vCenter fondation avec 1 an de subscription pour 405 €uros. C'est une bonne occasion pour les PME de gouter à la virtualisation et d'upgrader des ESXi gratuit.
Pour rappel, depuis février dernier, il est possible d'upgrader des licences Essentials ou Essentials Plus vers du Standard ou Enterprise (pour quasiment le prix complet).
Par contre, je viens de découvrir un piège: Les serveurs ESX d'un Bundle Essentials ne peuvent être managé que par un vCenter Essential (et celui-ci ne dispose pas du Linked-Mode) c'est donc pour des solutions Stand-Alone.
Pour ajouter des ESX d'un Bundle Essential à un vCenter standard, il faut parti sur des Bundles Essentials for Retails and Branch Office aussi nommé ROBO. Et là, le prix est presque le même mais il faut partir sur un minimum de 10 Bundles (plus trop orienté PME).
Voici un tableau récapitulatif des différences entre les versions de la gamme Essentials : Lire la suite...
Et oui ca arrive les Purple Screen Of Death de VMware (rarement heureuse).
La situation c'est dans un Chassis Sun BL6000 avec des Lames X6250 sur lesquels sont installés des ESX 3.5 Update 4, sur lesquelles on a ajouté des cartes réseaux X7287A-Z. On avait un PSOD toutes les 48h même sans activité particulière (en Maintenance Mode).
Il faut préciser que ces cartes réseaux sont initialement prévu pour des Lames SPARC et même si elles sont marquées comme supporté dans le HCL de VMware en chargeant un driver spécifique (sinon elles ne sont pas reconnues), elles provoque ce PSOD:
Le Support VMware et celui de Sun n'ont du mal à résourdre cet incident alors que dans la capture on voit très bien dès la 2nde ligne l'erreur "Spin count exceeded (Net VmmGroupInfo) - possible deadlock" et plus loin un "Net_HaltResume". La KB1020105 explique les PSOD avec l'erreur 'Spin Count exceeded" mais ne donne pas solution pour le réseau. En tous cas, le problème était bien lié aux cartes réseaux, le remplacement par des cartes réseaux pour Lames x86 a résolu directement le problème.
Le problème est peut être résolu avec l'Update 5, je n'ai pas eu l'occasion de tester depuis.
Pour faire suite aux articles sur les KB, voici un outil récemment sorti qui est un "must-have" pour les administrateurs VMware: un plugin Firefox/IE/Safari pour avoir une barre d'outils du support VMware.

Elle comprend:
- un moteur de recherche dans les KBs
- un accès rapide aux communautés VMTN, aux documentations, aux téléchargements et au support
- des outils pour suivre le support VMware: un lecteur RSS et Twitter
- un chat pour dialoguer avec des Experts VMware et le Support
- un switch rapide entre la partie Infrastructure et la partie Desktop
- la compatibilité avec Firefox, IE et Safari
- et divers petits outils (notificateur email, lecteur radio, météo...)
L'accès au téléchargement: http://vmwaresupport.toolbar.fm/
Il y a aussi une vidéo explicative de la KBTV.
J'ai récemment rencontrer une erreur sur une VM windows qui s'arrêtait au lieu de faire le redémarrage automatique planifié. Bizarre seulement certaine VM avait le Pb alors qu'elle venait du même template.
En regardant dans les logs, on a le message suivant:
Apr 26 23:11:19.481: vcpu-0| Msg_Post: Error
Apr 26 23:11:19.481: vcpu-0| [msg.log.error.unrecoverable] VMware ESX unrecoverable error: (vcpu-0)
Apr 26 23:11:19.481: vcpu-0| Unexpected return status from VMKernel_SetupPhysMemMap(pagein, 250604 pages): Not found[msg.panic.haveLog] A log file is available in "/vmfs/volumes/.../.../vmware.log". [msg.panic.haveCore] A core file is available in "/vmfs/volumes/.../.../vmx-zdump.000". [msg.panic.requestSupport.withLogAndCore] Please request support and include the contents of the log file and core file. [msg.panic.requestSupport.vmSupport.vmx86]
Apr 26 23:11:19.481: vcpu-0| To collect data to submit to VMware support, run "vm-support".
Apr 26 23:11:19.481: vcpu-0| [msg.panic.response] We will respond on the basis of your support entitlement.
Apr 26 23:11:19.481: vcpu-0| ----------------------------------------
Apr 26 23:11:19.582: vmx| VTHREAD watched thread 4 "vcpu-0" died
Apr 26 23:11:19.682: Worker#0| VTHREAD watched thread 0 "vmx" died
Apr 26 23:11:19.684: mks| VTHREAD watched thread 0 "vmx" died
Ce problème est renseigner dans la KB1020158. La particularité c'est que cela intervient que pour les Windows 32bit avec plus de 3 Go de RAM et avec les VMware Tools au niveau de l'ESX en 4.0 update 1.
Pour le résoudre il faut revenir vers la version antérieure du driver SVGA (le driver est disponible en bas de la KB).
Après le plantage ou un arrêt violent d'un ESX, le FileSystem / ne peut être monté au démarrage, avec le message d'erreur "Kernel Panic: VFS: : unable to mount root fs on 00:00".
Vous avez essayer de monter le File System à la main en tapant les commandes "mount –o remount,rw /" puis "mount –a". On peut accéder au logs avec "dmesg", faire un vérification de la table de partition avec "fsck" (*) mais quand on redémarrage les services cela nécessité un reboot et au redémarrage, on perd de nouveau le FileSystem.
Ouf, heureusement il existe une KB pour ca: KB1004797. Voici la marche à suivre:
- Choissir "Service Console-troubleshooting mode" au GRUB de démarrage de l'ESX
- Se connecter avec le compte root
- taper la commande "esxcfg-boot -p" pour mettre à jour les paramètres PCI
- taper la commande "esxcfg-boot -b" pour mettre à jour les paramètres de démarrage
- taper la commande "esxcfg-boot -r" pour mettre à jour les fichiers de démarrage
- redémarrer l'ESX avec la commande "reboot" ou " "shutdown -r 0"
Et la on doit repartir sur un démarrage classique d'un ESX.
(*): si le démarrage plante que le FileSystem est en Read-Only, avec les messages d'erreurs "Failed to copy esx.conf from initrd to filesystem." et "Possible cause: Read-Only Filesystem or storage device". Il faut aller vers la KB1013233
Categories: ESX, KB Tags:
Je commence cette série sur les KB, qui à défaut d'avoir le temps de faire des articles de toutes ces infos, j'en fait une synthèse. Voici la liste des KB intéressantes de ce mois-ci. La liste est longue pour le début de série.
ESX
- LUNs manquantes après mise à jour ESX 3.5 update 5 vers ESX 4, KB1017469
- Gestion des LUNs détectés comme Snapshot en ESX4 , KB1011387 et ESX3, KB9453805
- Comprendre un PSOD avec le message "Failed to ack TLB invalidate" , KB1020214
- Comprendre un PSOD avec un "Exception 13" ou "Exception 14", KB1020181
- Valider la mémoire d'un Host, KB1004012
- Faire que le paramètre de LUN masking soit persistant sur les ESXs, KB2057
- Le service Hostd ne démarre plus après mise à jour d'ESX 4.0 à ESX 4.0 update 1, KB1016010
- Un host 64bits est reconnu seulement comme compatible 32bits, KB1006190
- Redémarrer les agents de management sur un ESX ou un ESXi, KB1003490
- Comprendre un PSOD avec un message "Spin count exceeded, possible deadlock", KB1020105
- Changer le mot de passe root oublié sur un ESX, KB1317898
- Désactiver et Activer le Web Access sur un ESX, KB1007617
- Erreur mémoire du service Pegasus (CIMserver) constaté sur ESX 3.5 update 2 et supérieur, KB1009607
- Paramètre HaltingIdleMsecPenalty: guide de modification l'équilibrage entre équité et débit des CPUs dans vSphere, KB1020233
- Envoyer les logs Hostd à un serveur Syslog distant, KB1019102
- Les paths des LUNs en iSCSI software ne reviennent pas après être passé offline, KB1016836
vCenter
- Erreur dans vCenter Service Status & Hardware Status quand on essaye de rafraichir l'Host, KB1014213
- Le service vCenter plante au démarrage avec l'erreur: the password for the user account has expired, KB1012498
- L'installation de vCenter 4 plante avec l'erreur 28035, KB1013530
- Plantage du service VirtualCenter avec une erreur SQL: Violation of PRIMARY KEY constraint 'PK_VPX_GUEST_DISK', KB1020317
- Clé USB n'est plus disponible après déconnection du View Client sous Linux, KB1019986
- VM en Fault Tolerant bascule rapidement entre ESX au démarrage, KB1013400
- Erreur de copie de fichier .vmx et .nvram d'une VM allumée à partir du Datastore Browser de vCenter, KB1019286
- Le plugin UpdateManager s'installe mais reste installable et ne peut être activé, KB1017052
- Après upgrade en ESX 4.0 update 1, les VMs plante au Power On avec l'erreur "Insufficient resources" et le message "COS Swap not configured" dans la console ESX, KB1016297
- Initier plus de 16 taches dans le VI Client prend longtemps, KB4329356
- Impossible de connecter le CDrom à travers le VI Client sous XP/Vista/7, KB1009065
- Installer PowerPath/VE pour vSphere en utilisant Update Manager, KB1019844
- Erreur dans Performance Overview avec l'erreur "STATs Report service internal error", KB1012812
- Sauvegarde file-level VCB n'arrive à libérer le Snapshot après le fin du job, KB1005845
- Le chemin actif ne disparait pas avec le LUN masking, KB1005596
- VCB avec BackupExec plante avec l'erreur: "Exit code 16", KB1012296
- Alarme Host connection state change fréquemment de Green à Red, KB1020210
- Déploiement d'un Template plante à 95 - 96%, KB1005783
- Certain stockage nécessité un second Rescan pendant un Test & Recovery SRM, KB1008283
- Gestion d'erreur de certificat dans SRM, KB1021031
View
- Supprimer manuellement les entrées des Linked Clones ou des Bureaux Virtuel expirés dans View Manager, KB1008658
- View Client 4.0.1 n'arrive pas a se connecter au bureau avec l'erreur: Connect desktop failed, KB1019742
- Erreur de connexion et écran noir en se connectant à un bureau View en PCoIP, KB1016753
- Clé USB n'est plus disponible après déconnection du View Client sous Linux, KB1019986
- Résoudre le message d'erreur "Missing VM was not in the original query" dans l'event log de View Manager, KB1009810
- Erreur "Missing VM was not in the original query" dans l'Event Log de View Manager, KB1009810
VMs
- Migrer une VM avec des disques en RDM, KB1005241
- Ré-enregistrer des VMs dans l'état Orphaned, KB1007541
- Windows 2008 R2 plante à l'installation avec un BSOD, KB1015624
- Customisation de Windows 2008 64bit et 2008 R2 plante avec l'erreur: Customization of the guest OS 'windows7server64guest' not supported in this configuration, KB1020716
- Impossible de créer des Snapshots sur un Guest OS Windows, KB1019848
- Ajout à chaud de disques plante depuis mise à jour en vSphere avec l'erreur: license not available to perform the operation, hot plug feature required, KB1013253
- Résoudre une VM qui apparait comme invalide, KB1002367
- Windows ne peut accéder aux fichiers hgfs.dat et vmhgs.dat dans les profiles, KB1317
- Erreur de version SCSIPORT.SYS ou BSOD avec l'erreur STOP Ox01E error lors du P2V d'un Windows 2000 SP4, KB1000719
- VM ne démarre pas à cause d'un fichier manquant ou verrouillé, KB10051
- Limite Mémoire en fonction de la version du Virtual Hardware d'une VM, KB1014006
- Le système de fichier Linux passe en Read-only, KB51306
Une bonne partie d'entre nous connait comment modifier les paramètres de Queue-Depth sur des ESX (standard) mais comment faire sur un ESXi? La procédure change quelque peu mais s'applique de la même facon pour modifier le NetQueue par exemple.
Pour modifier les paramètres sur les cartes QLogic, il faut effectuer la procédure suivante à partir du module vSphere CLI ou de la Virtual Appliance vMA (vSphere Management Assistant):
- Vérifier que le module des carte HBA QLogic est bien chargé, avec la commande vicfg-module -l | grep qla
- Ensuite taper la commande vicfg-module -s "ql2xmaxqdepth=64" ql2300_707 pour définir une carte QLogic accédant à des LUNs avec une Queue Depth de 64.
- Enfin redémarrer le serveur ESXi pour que la modification soit prise en compte
Pour les cartes Emulex, on utilisera la variable lpfc0_lun_queue_depth avec le module lpfcdd.
Référence:
NB:
Il est également possible de le faire en PowerShell comme expliquer dans le très bon article d'Hypervizor.
Lorsque vous déployez plusieurs VMS depuis un même template VMWare, il se peut que les différents serveurs n'apparaissent pas correctement dans la console WSUS. Dans mon cas, j'avais déployé 4 VMs et celles-ci apparaissaient à tour de rôle dans la console WSUS. Je n'avais, du coup, jamais les 4 serveurs au même moment dans la console.
Après plusieurs recherches, j'ai trouvé la KB suivante. Il existe en fait un identifiant client WSUS unique pour chaque serveur installé, mais vu que ces serveurs ont été déployé à partir du même template, l'Id est identique et les VMs sont vues de la même manière
Procédure à suivre :
net stop wuauserv
Supprimer les clés suivantes dans le registre :
- HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\WindowsUpdate\SusClientId
- HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\WindowsUpdate\susClientIDValidation
net start wuauserv
wuauclt.exe /resetauthorization /detectnow
http://support.microsoft.com/?scid=kb%3Ben-us%3B903262&x=17&y=11
Une KB1002281 VMware explique comment restaurer la table de partition VMFS. Cette KB est plus détaillée et contient la marche à suivre
Dans le cas de perte d'un Datastore VMFS et de message d'erreur "LVM could not open device" dans le fichier /var/log/vmkernel appliquer cette procédure qui s'applique au ESX 2/3/4.x, voici la marche à suivre:
- Se connecter au service console
- Identifier le périphérique SCSI (/dev/sdX) au volume VMFS concerné par le problème. En tapant la commande vmkpcidivy -q vmhba_devs en ESX 2.x, esxcfg-vmhbadevs -q en ESX 3.x ou esxcfg-scsidevs -c en ESX 4.x
- Confirmer la perte de la partition avec la commande fdisk -l /dev/sdX
- Recréer la table de la partition avec la commande fdisk /dev/sdX puis nouvelle partition n, primaire p, première partition 1 et valider 2 fois la valeur par défaut
- Choisir le type VMFS (fb) pour la partition avec p, la première partition 1 avec le type fb
- Aligner la partition avec le secteur 128 (sauf en ESX 2.x) avec les commandes expert x, begin b, première partition 1 et secteur 128
- Quitter fdisk en sauvegarde avec la commande w
- Redécouvrir le volume VMFS avec la commande vmkfstools -V
HP Virtual Connect Flex-10 10Gb est la nouvelle technologie HP embarquée sur les bladecenter HP (C3000/c7000) pour la gestion du réseau.
Dans le cadre de la virtualisation, cette technologie offre en effet de multiples possibilités. Elle permet de découper les cartes réseau 10Gb Flex-10 en plusieurs cartes virtuelles allant de 100Mb à 10Gb par tranche de 100Mb. Cela permet donc de mettre en place une plateforme 1Gb évolutive vers le 10Gb, qui au passage, reste encore très peu dévolopée dans les entreprises.
La prolifération des machines virtuelles et des nouvelles technologies (Fault Tolerance sous Vmware) en environnement BladeCenter amène ainsi de nouveaux besoins (Connexion 10Gb dans les machines virtuelles, VMotion/Fault Tolerance....)
La mise en place de VMware Fault Tolerance recommande 2 cartes giga, ajouter à cela 2 cartes giga pour VMotion, quelques cartes giga pour nos machines virtuelles et nous arrivons assez vite aux limites physiques, surtout dans une architecture blade.
Voici donc ici un exemple d'implémentation de cette technologie sur un infrastructure gigabit exclusivement. Nous verrons que certaines interfaces, avec des vitesses bien définies, peuvent être internes au blade.
Configuration exposée:
BladeSystem c3000
Lames BL460c G6
Switch : HP VirtualConnect Flex-10 10Gb Ethernet Module for BladeSystem c-Class
Carte réseau : Carte réseau multifonction 10 Gigabit Flex-10 2 ports (Broadcom HP NC532m) pour Bladesystem c-Class
Vue logique :
- Service Console (connecté sur le réseau de production) : vmnic0 et vmnic2
- LAN (connecté sur le réseau de production) : vmnic1 et vmni3
- VMotion (interne au blade): vmnic4 et vmnic10
- Fault Tolerance (interne au blade) : vmnic5 et vmnic11

Vue physique :

Infos supplémentaires:
HP BladeSystem Reference Architecture: HP Virtual Connect Flex-10 and VMware vSphere 4.0
HP Flex-10 technology
Understanding HP Flex-10 Mappings with VMware ESX/vSphere