venerdì 3 novembre 2017

Problema con la Management Network (vmk0) su vDS

Disclaimer: The procedure described below is not officially supported by VMware. Use it at you own risk.

La problematica che andiamo a descrivere si è presentata su un ambiente vSAN a 4 nodi. 



Ogni nodo dotato di schede di #2 schede rete a 10GB dove c'è configurato un unico vDS (ar-ds-vSAN) dove gli Uplink sono configurati in LACP. Ovviamente :-) la Management Interface e l'interfaccia di vSAN sono state migrate all'interno del Distributed Virtual Switch 



A seguito di una problematica sul Cluster, ci si è trovati a dover eseguire una KB che indicava di mettere in "Maintenance Mode" il nodo ("Ensure data accessibility from other hosts"), trascinare il nodo al di fuori dal Cluster, Disconnetterlo, rimuoverlo dall'inventario e quindi aggiungere nuovamente al Datacenter il nodo; ecc. ecc.
A seguito della rimozione del nodo dal vCenter abbiamo anche effettuato un riavvio del nodo.
In condizioni normali il nodo a seguito del riavvio ritorna raggiungibile ed è quindi possibile continuare le operazioni aggiungendolo al Cluster e riconfigurare il vDS.

Noi ci siamo trovati nelle condizioni che il nodo ESXi non era più raggiungibile sulla Managment Interface (vmk0) tuttavia la parte vSAN risultava essere integra (descriverò i controlli al cluster vSAN in un'altro post).

Ci siamo connessi tramite iDRAC per verificare le condizioni del nodo, ed abbiamo riscontrato lanciando il comando di seguito:

# esxcli network ip interface list


che la vmk0 sembra essere disabilitata (Enabled = false), MTU=0 e Port ID = 0. 


Proviamo quindi a riabilitare l'interfaccia (comando di seguito) sperando che le informazioni relative al DVS siano ancora disponibili e presenti sul nodo ESXi

# esxcli network ip interface set -e true -i vmk0 

Otteniamo il messaggio di errore di seguito "Operation not permitted" 


indagando all'interno dei log  

# cat /var/log/vmkernel.log  

osserviamo...  


che:
  • il sistema tenta di riconnettere l'interfaccia alla porta 10
  • ma i CID non "matchano"  (OLD VDS Connection = 117018537 ... nuovo 2093141832) 
risultato non è possibile ABILITARE la vmk0.

Soluzione:
Non ci resta che rimuovere la Management Network vmkernl (vmk0) e ricreala utilizzando la "command line" ESXi direttamente dalla console.

1. Prendere nota dell'attuale IP, la netmask ed il Default GW associati alla vmk0

                        IP: 10.0.100.232
          NETMASK: 255.255.255.0
         Default GW: 10.0.100.1
 

# esxcli network ip interface ipv4 get  



Nel caso non dovesse venir visualizzata la riga vmk0 lanciare il comando 

# esxcfg-vmknic -l | grep vmk0

e prendere nota ....



2. Conoscere il Port ID sul quale era agganciato il vmk0. Nel nostro caso possiamo vederlo dai log in fase di abilitazione della vmk0.



Possiamo anche verificarlo (in modo meno preciso) andando a vedere i Port ID relativi al "Port Group" (relativo) tramite Web client  



e quindi matcharli con quelli associati all'host

# esxcfg-vswitch -l

come possiamo vedere la porta 10 non è associata a nessuna NIC (ma associata all'host).




3. Eliminare l'interfaccia vmk0
Rimuovendo l'interfaccia vmk0 rimuoviamo ogni riferimento non corretto sull'host.

esxcli network ip interface remove --interface-name=vmk0

di seguito l'output dei log


4. Creare la nuova interfaccia vmk0
Ricreiamo l'interfaccia vmk0 nel seguente modo (fornendo il DVS name ed il Port ID precedentemente identificato) :


esxcli network ip interface add --interface-name=vmk0 --dvs-name=ar-ds-vSAN --dvport-id=10


verifichiamo:


# esxcfg-vswitch -l



5. Configurare l'IP verificare il Default GW
Configurata l'interfaccia dobbiamo associare l'indirizzo IP ed impostare il Default GW, nel seguente modo


esxcli network ip interface ipv4 set --interface-name=vmk0 --ipv4=10.0.100.232 --netmask=255.255.255.0 --type=static


ora il Default GW


esxcfg-route -a default 10.0.100.1
# esxcfg-route



6. Impostare l'interfaccia come Management

esxcli network ip interface tag add -i vmk0 -t Management


In questo modo il nodo ritorna nuovamente disponibile.

7. Verifica..
Lanciamo il comando comando di seguito:

# esxcli network ip interface list


That's IT

Nessun commento:

Posta un commento