PSOD en ESX3.5 sur Lame Sun avec carte X7287A-Z
Et oui ca arrive les Purple Screen Of Death de VMware (rarement heureuse).
La situation c’est dans un Chassis Sun BL6000 avec des Lames X6250 sur lesquels sont installés des ESX 3.5 Update 4, sur lesquelles on a ajouté des cartes réseaux X7287A-Z. On avait un PSOD toutes les 48h même sans activité particulière (en Maintenance Mode).
Il faut préciser que ces cartes réseaux sont initialement prévu pour des Lames SPARC et même si elles sont marquées comme supporté dans le HCL de VMware en chargeant un driver spécifique (sinon elles ne sont pas reconnues), elles provoque ce PSOD:
Le Support VMware et celui de Sun n’ont du mal à résourdre cet incident alors que dans la capture on voit très bien dès la 2nde ligne l’erreur « Spin count exceeded (Net VmmGroupInfo) – possible deadlock » et plus loin un « Net_HaltResume« . La KB1020105 explique les PSOD avec l’erreur ‘Spin Count exceeded » mais ne donne pas solution pour le réseau. En tous cas, le problème était bien lié aux cartes réseaux, le remplacement par des cartes réseaux pour Lames x86 a résolu directement le problème.
Le problème est peut être résolu avec l’Update 5, je n’ai pas eu l’occasion de tester depuis.

Des lames comme ça mériteraient ESXi 4
J’ai déjà eu le coup du spin count exceeded au boot avec un CPU défectueux sur un HP DL580 G5 pour ma part, il tournait bien depuis 6 mois…
Dans les Lames, il y a 4 slots disques hot-plug en façade. Et le client est Linuxien, on est donc parti vers une version ESX.
De toute façon les PSOD c’est souvent un Pb matériel.