Λύση επιτάχυνσης κατάρτισης τεχνητής νοημοσύνης: Ενσωμάτωση των κλαστρών DPU και GPU Mellanox

September 28, 2025

Λύση επιτάχυνσης κατάρτισης τεχνητής νοημοσύνης: Ενσωμάτωση των κλαστρών DPU και GPU Mellanox
Λύση επιτάχυνσης εκπαίδευσης τεχνητής νοημοσύνης: Ενσωμάτωση της Mellanox DPU με τα γκλαστέρια GPU για άνευ προηγουμένου απόδοση

Καθώς τα μοντέλα τεχνητής νοημοσύνης αυξάνονται εκθετικά σε μέγεθος και πολυπλοκότητα, οι παραδοσιακές αρχιτεκτονικές κέντρων δεδομένων φτάνουν στα όριά τους.Εκπαίδευση τεχνητής νοημοσύνηςέχει κάνει αποτελεσματικήΔικτύωση GPUΤο παρόν έγγραφο λύσεων εξετάζει πώς η στρατηγική ολοκλήρωση τωνMellanox DPU(Μονάδα επεξεργασίας δεδομένων) εντός των γκρουπ GPU αντιμετωπίζει κρίσιμα σημεία συμφόρησης, απομακρύνει τα έξοδα CPU host και ξεκλειδώνει νέα επίπεδα κλιμακωτότητας και αποδοτικότητας για φορτία εργασίας τεχνητής νοημοσύνης μεγάλης κλίμακας.

Προηγούμενο: Το νέο υπολογιστικό πρότυπο για την ΤΝ

Η εποχή των μοντέλων τρισεκατομμυρίων παραμέτρων έχει καθιερώσει σταθερά το γκρουπ GPU ως τη μηχανή της σύγχρονης τεχνητής νοημοσύνης.η CPU του διακομιστή υποδοχής κατακλύζεται από την κίνηση δεδομένωνΤο κόστος αυτό, το οποίο περιλαμβάνει δίκτυα, αποθήκευση I/O και πρωτόκολλα ασφαλείας,μπορεί να καταναλώνει πάνω από το 30% των κύκλων CPU ενός διακομιστή ∆ύκλων που είναι απεγνωσμένα απαραίτητα για την πραγματική διαδικασία εκπαίδευσης AIΑυτή η αναποτελεσματικότητα αυξάνει άμεσα το χρόνο κατάρτισης και το συνολικό κόστος ιδιοκτησίας (TCO).

Η πρόκληση: Η υπερχρέωση της CPU και η αναποτελεσματική μετακίνηση δεδομένων

Το κύριο εμπόδιο στη μεγάλη κλίμακαΕκπαίδευση τεχνητής νοημοσύνηςΤο πρόβλημα δεν είναι πλέον μόνο τα ακατέργαστα FLOPS, είναι η συστημική αναποτελεσματικότητα των αγωγών δεδομένων.

  • Πεινάς από CPU:Οι host CPUs έχουν κολλήσει στη διαχείριση των network stacks (TCP/IP), των drivers αποθήκευσης και της εικονικοποίησης, αφήνοντας λιγότερους πόρους για το πλαίσιο AI.
  • Σκουφίτες εισόδου/εξόδου:Η μετακίνηση τεράστιων συνόλων δεδομένων από την αποθήκευση στη μνήμη GPU δημιουργεί συμφόρηση στο λεωφορείο και το δίκτυο PCIe, οδηγώντας σε χρόνο αδρανούς λειτουργίας της GPU.
  • Πληροφορίες ασφαλείας:Σε περιβάλλοντα με πολλούς ενοικιαστές, η εφαρμογή πολιτικών κρυπτογράφησης και ασφάλειας επιβαρύνει περαιτέρω τον CPU οικοδεσπότη.
  • ΑποτελεσματικήΔικτύωση GPU:Οι πράξεις συλλογικής επικοινωνίας (όπως το All-Reduce) χειρίζονται σε λογισμικό, δημιουργώντας καθυστέρηση και νευρικότητα που επιβραδύνουν τη συγχρονισμένη εκπαίδευση.

Αυτές οι προκλήσεις δημιουργούν ένα σενάριο όπου οι ακριβές GPU παραμένουν σε αναμονή δεδομένων, μειώνοντας δραστικά τη συνολική αξιοποίηση και την απόδοση από την επένδυση της υποδομής AI.

Η λύση: Αποφόρτιση, επιτάχυνση και απομόνωση με την Mellanox DPU

ΗMellanox DPU(τώρα μέρος της σειράς προϊόντων BlueField της NVIDIA) είναι ένας επαναστατικός επεξεργαστής σχεδιασμένος ειδικά για την αντιμετώπιση αυτών των προβλημάτων υποδομής.Δεν είναι απλώς μια κάρτα διεπαφής δικτύου (NIC) αλλά ένα πλήρως προγραμματιζόμενο σύστημα-σε-τσίπ (SoC) που περιλαμβάνει ισχυρούς πυρήνες Arm και εξειδικευμένους κινητήρες επιτάχυνσης. Με την ανάπτυξη DPU σε κάθε διακομιστή, οι οργανισμοί μπορούν να δημιουργήσουν ένα υλικό επιταχυνόμενο επίπεδο υποδομής.

Πώς το Mellanox DPU μεταμορφώνει AI Clusters:
  • Αποφόρτιση υποδομής:ΗMellanox DPUΑποφορτίζει ολόκληρο το δίκτυο, την αποθήκευση και την ασφάλεια από τον host CPU. Αυτό περιλαμβάνει TCP / IP, NVMe over Fabrics (NVMe-oF), κρυπτογράφηση και λειτουργίες firewall.Αυτό "απελευθερώνει" πυρήνες CPU αποκλειστικά για την εφαρμογή AI.
  • Επιταχυνόμενη επικοινωνία:Η DPU διαθέτει αποφορτισμένη με υλικό Remote Direct Memory Access (RDMA), η οποία επιτρέπει στις GPU να έχουν άμεση πρόσβαση στη μνήμη άλλων GPU σε όλο το δίκτυο με πολύ χαμηλή καθυστέρηση,ένας ακρογωνιαίος λίθος της υψηλής απόδοσηςΔικτύωση GPU.
  • Βελτιωμένη κλιμακωτότητα:Με την CPU host απαλλαγμένη από καθήκοντα υποδομής, η κλιμάκωση ενός cluster δεν οδηγεί σε γραμμική αύξηση των γενικών δαπανών της CPU.Αυτό επιτρέπει πιο αποτελεσματική και προβλέψιμη κλιμάκωση σε τεράστια αριθμούς κόμβων.
  • Ασφάλεια μηδενικής εμπιστοσύνης:Η DPU επιτρέπει ένα μοντέλο ασφαλείας "μηδενικής εμπιστοσύνης" παρέχοντας απομονωμένη από το υλικό ρίζα εμπιστοσύνης, διαχείριση κλειδιών και τη δυνατότητα εκτέλεσης εφαρμογών ασφαλείας σε απομονωμένο περιβάλλον στην ίδια τη DPU,χωριστά από τον ξενιστή.
Μετρήσιμα αποτελέσματα: Απόδοση, αποδοτικότητα και κέρδη του συνολικού κόστους παραγωγής

Η ολοκλήρωση τηςMellanox DPUπαράγει άμεσες και μετρήσιμες βελτιώσεις σε όλους τους βασικούς δείκτες απόδοσης.

Μετρική Παραδοσιακός διακομιστής (κεντρικός στον επεξεργαστή) Διακομιστής με Mellanox DPU Βελτίωση
Διαθέσιμοι πυρήνες CPU για AI ~ 70% > 95% ~ 36% Αύξηση
Όλο-μείωση της καθυστέρησης (256 GPU) ~ 500 μs ~ 180 μs 64% μείωση
Δυνατότητα εισόδου/εξόδου αποθήκευσης ~12 GB/s ~40 GB/s Αύξηση 233%
Συνολικός χρόνος εκπαίδευσης (BERT-Large) ~ 60 ώρες ~ 42 ώρες 30% μείωση

Οι βελτιώσεις αυτές στην απόδοση μεταφράζονται άμεσα σε επιχειρηματική αξία: ταχύτερος χρόνος μοντέλο, χαμηλότερα κόστη cloud/computing,και την ικανότητα αντιμετώπισης πιο πολύπλοκων προβλημάτων στο πλαίσιο του ίδιου υποδομής.

Συμπέρασμα: Κατασκευή της μελλοντικής υποδομής τεχνητής νοημοσύνης

Η τροχιά της τεχνητής νοημοσύνης είναι σαφής: τα μοντέλα θα συνεχίσουν να αυξάνονται και οι συστάδες θα κατανεμηθούν ακόμη περισσότερο.Η παραδοσιακή προσέγγιση να ρίχνουμε περισσότερους CPU στο πρόβλημα της υποδομής είναι μη βιώσιμη.. τοMellanox DPUαντιπροσωπεύει μια θεμελιώδης αρχιτεκτονική αλλαγή, δημιουργώντας ένα ειδικό, επιταχυνόμενο επίπεδο υποδομής που επιτρέπει στα GPU clusters να επιτύχουν πρωτοφανή επίπεδα απόδοσης και αποδοτικότητας.Είναι ένα κρίσιμο συστατικό για κάθε οργανισμό που επιθυμεί να διατηρήσει ένα ανταγωνιστικό πλεονέκτημα στην έρευνα και ανάπτυξη τεχνητής νοημοσύνης.