Η NVIDIA Mellanox MCX556A-ECAT σε δράση: RDMA/RoCE επιτρέπει εξελίξεις σε εξαιρετικά χαμηλή καθυστέρηση και απόδοση του διακομιστή
April 23, 2026
Στο κατανεμημένο αποθηκευτικό χώρο, την υπολογιστική υψηλής απόδοσης (HPC) και τα συστοιχίες εκπαίδευσης AI, η καθυστέρηση δικτύου και η επιβάρυνση της CPU έχουν περιορίσει εδώ και καιρό τη συνολική αποδοτικότητα των διακομιστών. Μια πρόσφατη ανάπτυξη σε έναν πάροχο υπηρεσιών cloud μεγάλης κλίμακας δείχνει πώς η NVIDIA Mellanox MCX556A-ECAT αντιμετωπίζει αυτές τις προκλήσεις μέσω των τεχνολογιών RDMA και RoCE, προσφέροντας μετρήσιμα κέρδη τόσο στην απόδοση όσο και στη μείωση της καθυστέρησης.
Ο πελάτης διαχειρίζεται ένα συστοιχία αποθήκευσης Ceph πολλαπλών petabytes που υποστηρίζει χιλιάδες εικονικές μηχανές. Πριν από την αναβάθμιση, η υποδομή 25GbE που χρησιμοποιούσε τυπικό TCP/IP υπέφερε από υψηλή χρήση CPU (πάνω από 60% στους κόμβους αποθήκευσης) και ασυνεπή καθυστέρηση κατά τις αιχμές φορτίου. Τα παράθυρα δημιουργίας αντιγράφων ασφαλείας συχνά υπερέβαιναν τις οκτώ ώρες, και οι εργασίες εκπαίδευσης AI παρουσίαζαν διακοπές I/O. Η ομάδα χρειαζόταν μια λύση που θα μπορούσε να μειώσει την παρέμβαση της CPU, να μειώσει την καθυστέρηση και να κλιμακωθεί χωρίς πλήρη ανακαίνιση της υποδομής. Αφού εξέτασαν το φύλλο δεδομένων MCX556A-ECAT και συνέκριναν τις προδιαγραφές MCX556A-ECAT, επέλεξαν την MCX556A-ECAT ως το βασικό στοιχείο αναβάθμισης.
Η αρχιτεκτονική επικεντρώθηκε στην κάρτα προσαρμογέα Ethernet MCX556A-ECAT, έναν προσαρμογέα διπλής θύρας 100GbE που υποστηρίζει PCIe 3.0/4.0 x16. Αναπτυγμένη ως κάρτα δικτύου PCIe προσαρμογέα MCX556A-ECAT ConnectX, επέτρεψε το RoCE v2 στην υπάρχουσα τοπολογία leaf-spine με ελάχιστες αλλαγές στους διακόπτες. Τα βασικά βήματα ανάπτυξης περιλάμβαναν:
- Αντικατάσταση παλαιών προσαρμογέων 25GbE με την MCX556A-ECAT σε 40 κόμβους αποθήκευσης και 150 κόμβους υπολογιστών.
- Ενεργοποίηση εκφόρτισης υλικού: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA και T10-DIF για ακεραιότητα δεδομένων.
- Ρύθμιση Priority Flow Control (PFC) και Enhanced Transmission Selection (ETS) για απώλεια-ελεύθερη μεταφορά RoCE.
- Επαλήθευση της κατάστασης συμβατές διαμορφώσεις MCX556A-ECAT με υπάρχοντες διακόπτες Mellanox Spectrum και οπτικά QSFP28.
Η πλήρης ανάπτυξη διήρκεσε δύο Σαββατοκύριακα, με μηδενικό χρόνο διακοπής λειτουργίας χρησιμοποιώντας ζωντανή μετανάστευση για φόρτους εργασίας υπολογιστών.
Οι μετρήσεις μετά την ανάπτυξη αποκάλυψαν δραματικές βελτιώσεις σε βασικές μετρήσεις. Ο παρακάτω πίνακας συνοψίζει τη σύγκριση πριν/μετά:
| Μετρική | Πριν (25GbE TCP/IP) | Μετά (MCX556A-ECAT με RoCE) | Βελτίωση |
|---|---|---|---|
| Χρήση CPU κόμβου αποθήκευσης | 62% | 18% | ↓ 71% |
| Μέση καθυστέρηση (4K τυχαία ανάγνωση) | 450 µs | 42 µs | ↓ 90.7% |
| Συνολική απόδοση συστοιχίας | 38 Gb/s | 172 Gb/s | ↑ 353% |
| Διάρκεια παραθύρου αντιγράφων ασφαλείας | 8.5 ώρες | 1.8 ώρες | ↓ 79% |
Πέρα από τους αριθμούς, η ομάδα μηχανικών ανέφερε ότι το RDMA μείωσε σημαντικά το jitter, εξαλείφοντας τις αιχμές "tail latency" που προηγουμένως ταλαιπωρούσαν τα σημεία ελέγχου εκπαίδευσης AI. Ως ώριμη λύση κάρτας προσαρμογέα Ethernet MCX556A-ECAT, η κάρτα απλοποίησε επίσης την αντιμετώπιση προβλημάτων μέσω ενσωματωμένης τηλεμετρίας και ειδοποίησης συμφόρησης. Για οργανισμούς που αξιολογούν την τιμή MCX556A-ECAT έναντι των κερδών απόδοσης, ο πελάτης πέτυχε ROI εντός εννέα μηνών αποκλειστικά από την εξοικονόμηση πυρήνων CPU και την ταχύτερη ολοκλήρωση παρτίδων εργασιών. Ο προσαρμογέας είναι πλέον MCX556A-ECAT προς πώληση μέσω πολλαπλών συνεργατών καναλιών, καθιστώντας αυτό το επίπεδο απόδοσης προσβάσιμο και σε μεσαίες επιχειρήσεις.
Η ανάπτυξη αποδεικνύει ότι η MCX556A-ECAT εκπληρώνει την υπόσχεσή της: καθυστέρηση RDMA κάτω του μικροδευτερολέπτου, δραστική εκφόρτιση CPU και γραμμική κλιμάκωση απόδοσης. Είτε εκτελείτε κατανεμημένες βάσεις δεδομένων, προσομοιώσεις HPC ή αποθήκευση NVMe-oF, η NVIDIA Mellanox MCX556A-ECAT προσφέρει ένα θεμέλιο έτοιμο για το μέλλον. Καθώς τα 100GbE γίνονται το νέο πρότυπο για τα spines των κέντρων δεδομένων, οι λύσεις που βασίζονται σε αυτόν τον προσαρμογέα θα συνεχίσουν να υπερτερούν των παλαιών στοιβών TCP/IP. Για λεπτομερή σχεδιασμό, ανατρέξτε στο επίσημο φύλλο δεδομένων MCX556A-ECAT ή συμβουλευτείτε αρχιτέκτονες λύσεων για να επικυρώσετε συμβατές διαμορφώσεις MCX556A-ECAT για το συγκεκριμένο περιβάλλον σας.

