H DeepSeek αλλάζει τα δεδομένα της ΑΙ - Πόση ηλεκτρική ενέργεια απαιτείται τελικά για τα data centers;

29 01 2025 | 07:32

Tις τελευταίες ημέρες, ο Ντόναλντ Τραμπ προσπαθεί να βρει μια λύση που θα επιτρέψει στο TikTok να συνεχίσει να λειτουργεί στις ΗΠΑ, αλλά ενώ ο Λευκός Οίκος εργάζεται για να κλείσει μια συμφωνία, μια άλλη κινεζική εφαρμογή κερδίζει έδαφος στα καταστήματα εφαρμογών, ένα chatbot τεχνητής νοημοσύνης από μια εταιρεία που ήταν προηγουμένως άγνωστη σε πολλούς: την DeepSeek.

Ο λόγος; Το μοντέλο GenAI της εταιρείας λειτουργεί παρόμοια με το ChatGPT του OpenAI, αλλά απαιτεί σημαντικά λιγότερη υπολογιστική ισχύ για να λειτουργήσει. Βασίζεται σε τσιπ τεχνητής νοημοσύνης που είναι πολύ λιγότερο προηγμένα από τα κορυφαία τσιπ της Nvidia. Εάν αυτό αντιπροσωπεύει μια πραγματική ανακάλυψη στις δυνατότητες εκπαίδευσης μοντέλων τεχνητής νοημοσύνης, θα μπορούσε να είναι άσχημα νέα για τη Nvidia, της οποίας ο ρόλος στην επανάσταση της τεχνητής νοημοσύνης τα τελευταία τρία χρόνια έχει ωθήσει την αξία της σε περίπου 3,5 τρισεκατομμύρια δολάρια. Θα μπορούσε επίσης να έχει επιπτώσεις για άλλους κατασκευαστές τσιπ που ελπίζουν να κερδίσουν έδαφος στην αγορά. Η ειρωνεία; Αυτή η αλλαγή οφείλεται, εν μέρει, στις πολιτικές που εφάρμοσε ο πρώην Πρόεδρος των ΗΠΑ Τζο Μπάιντεν, και συγκεκριμένα στους περιορισμούς στις εξαγωγές τσιπ που επιβλήθηκαν κατά τη διάρκεια της κυβέρνησής του.

Η κατανάλωση ενέργειας

Οι αναλυτές της BMO Capital Markets εισημαίνουν ιδιαίτερα την υψηλή απόδοση και τη χαμηλή κατανάλωση ενέργειας του DeepSeek .

Οι διακομιστές DeepSeek χρησιμοποιούν 50-75% λιγότερη ενέργεια από τις πιο πρόσφατες GPU της Nvidia, κάτι που είναι σημαντικό για κέντρα δεδομένων υψηλής έντασης ενέργειας.

Οι επιπτώσεις της ενεργειακής απόδοσης του DeepSeek έχουν βρεθεί στο στόχαστρο του ενεργειακού τομέα. Η τρέχουσα υποδομή τεχνητής νοημοσύνης, ιδιαίτερα στις Ηνωμένες Πολιτείες, βασίζεται σε μεγάλο βαθμό σε τεχνολογίες έντασης ισχύος, όπως οι GPU H100 της Nvidia, οι οποίες απαιτούν περίπου 150 MW ισχύος για ένα σύμπλεγμα 100.000 μονάδων.

Συγκριτικά, ένα σύμπλεγμα που χρησιμοποιεί τα τσιπ H800 της Nvidia, που φέρεται να χρησιμοποιεί η DeepSeek, θα μπορούσε να λειτουργήσει με σχεδόν το ήμισυ αυτής της χωρητικότητας, καταναλώνοντας μόλις 75 MW για ισοδύναμη διαμόρφωση.

Αυτή η μείωση της έντασης ισχύος θα μπορούσε να οδηγήσει σε σημαντικές αλλαγές στη ζήτηση ηλεκτρικής ενέργειας, μια ανησυχία για τις εταιρείες που επηρεάζονται βαθιά από την έκρηξη των κέντρων δεδομένων.

Οι αναλυτές της BMO δήλωσαν ότι ενώ οι ΗΠΑ χρειάζεται να αυξήσουν τον ενεργειακό εφοδιασμό, οι εξελίξεις του DeepSeek πιθανότατα θα επιταχύνουν τη ζήτηση για πιο αποτελεσματική υποδομή τεχνητής νοημοσύνης.

Το DeepSeek σηματοδοτεί μια στροφή στον ενεργειακό τομέα. Καθώς η υποδομή τεχνητής νοημοσύνης γίνεται πιο ενεργειακά αποδοτική, ο ενεργειακός τομέας πρέπει να προσαρμοστεί.

Αυτό μπορεί να μην μειώσει τη συνολική ζήτηση ενέργειας για τις εταιρείες ηλεκτρικής ενέργειας, αλλά πιθανότατα θα αλλάξει τη φύση αυτής της ζήτησης, απαιτώντας επαναξιολόγηση των παραδοσιακών προσδοκιών ανάπτυξης.

Η ιστορία και οι προκλήσεις

Στις 20 Ιανουαρίου, η DeepSeek παρουσίασε το τελευταίο της μοντέλο GenAI, το R1. Η εταιρεία είχε ήδη παρουσιάσει μια ελαφρύτερη έκδοση αυτού του μοντέλου πέρυσι, αλλά η πλήρης έκδοση σηματοδοτεί ένα σημαντικό άλμα προς τα εμπρός. Οι δοκιμές έδειξαν ότι το μοντέλο είναι συγκρίσιμο ή ακόμη και ξεπερνά τα κορυφαία μοντέλα από εταιρείες όπως η OpenAI, η Google και η Anthropic σε τομείς όπως η επίλυση μαθηματικών προβλημάτων και η σύνταξη κώδικα. Επιπλέον, σε αντίθεση με τα περισσότερα κορυφαία μοντέλα (εκτός από το Meta), το μοντέλο του DeepSeek είναι ανοιχτού κώδικα.

Αυτό σημαίνει ότι οποιοσδήποτε έχει τις απαραίτητες γνώσεις μπορεί να εξετάσει τον τρόπο κατασκευής του μοντέλου ή να το χρησιμοποιήσει στο δικό του υπολογιστικό περιβάλλον, χωρίς να χρειάζεται να βασιστεί στο DeepSeek.

Το Deepseek R1 είναι μια από τις πιο εκπληκτικές και εντυπωσιακές ανακαλύψεις που έχω δει ποτέ», δήλωσε ο επενδυτής Marc Andreessen, βασικό πρόσωπο στη Silicon Valley. "Και ως ανοιχτού κώδικα, ένα βαθύ δώρο στον κόσμο."

Λιγότερη ενέργεια

Αυτό που εντυπωσίασε τον Andreessen δεν ήταν μόνο οι δυνατότητες του μοντέλου - παρόμοιες με αυτές που υπάρχουν σε άλλα συστήματα τεχνητής νοημοσύνης - αλλά και ο τρόπος με τον οποίο το DeepSeek πέτυχε αυτή την ανακάλυψη. Η συμβατική προσέγγιση για την ανάπτυξη μοντέλων GenAI περιλαμβάνει τη συγκέντρωση τεράστιων συνόλων δεδομένων και στη συνέχεια την εφαρμογή τεράστιων ποσοτήτων υπολογιστικής ισχύος για την επεξεργασία τους — συχνά με μεγάλο κόστος.

Οι εταιρείες τεχνητής νοημοσύνης ξοδεύουν δισεκατομμύρια για την κατασκευή και τη συντήρηση των κέντρων δεδομένων που απαιτούνται για την εκπαίδευση και τη λειτουργία αυτών των μοντέλων. Εν τω μεταξύ, οι κατασκευαστές τσιπ τεχνητής νοημοσύνης, με επικεφαλής την Nvidia, η οποία έχει γίνει de facto μονοπώλιο σε αυτόν τον χώρο, έχουν επωφεληθεί πολύ από αυτές τις επενδύσεις.

Η επικρατούσα πεποίθηση είναι ότι αυτή η τάση θα συνεχιστεί στο άμεσο μέλλον. Μόλις την περασμένη εβδομάδα, ο Τραμπ ανακοίνωσε ένα νέο εγχείρημα με την υποστήριξη των OpenAI, SoftBank και Oracle για την κατασκευή μιας υπολογιστικής υποδομής σχεδιασμένης για την ανάπτυξη και λειτουργία συστημάτων AI, με επένδυση συνολικά μισού τρισεκατομμυρίου δολαρίων. Η λειτουργία εκπαιδευμένων μοντέλων τεχνητής νοημοσύνης είναι επίσης απίστευτα δαπανηρή, με κάθε ερώτημα να καταναλώνει αρκετή ενέργεια για να τροφοδοτήσει έναν λαμπτήρα για αρκετά λεπτά.

Ενεργειακή απόδοση

Αυτό έρχεται σε αντίθεση με τις παραδοσιακές μηχανές αναζήτησης, οι οποίες είναι πολύ πιο ενεργειακά αποδοτικές. Η επικρατούσα γνωση είναι ότι ο μόνος τρόπος για να αναπτυχθούν πιο προηγμένα μοντέλα τεχνητής νοημοσύνης είναι η χρήση τεράστιων ποσοτήτων υπολογιστικής ισχύος σε αυτά. Αυτή η πεποίθηση έχει διαμορφώσει επίσης τις πολιτικές εξαγωγών τσιπ της κυβέρνησης Μπάιντεν.

Τον Οκτώβριο του 2022, αναγνωρίζοντας ότι τα τσιπ είναι θεμελιώδη για την πρόοδο τόσο στην τεχνητή νοημοσύνη όσο και στις στρατιωτικές τεχνολογίες, η κυβέρνηση Μπάιντεν άρχισε να περιορίζει τις εξαγωγές τσιπ υψηλής απόδοσης στην Κίνα. Με την πάροδο του χρόνου, αυτοί οι περιορισμοί έγιναν αυστηρότεροι, με αποκορύφωμα μια σημαντική αλλαγή πολιτικής στο τέλος της θητείας του Μπάιντεν, η οποία προσπάθησε να περιορίσει τις εξαγωγές επεξεργαστών τεχνητής νοημοσύνης παγκοσμίως, με την Κίνα να περιλαμβάνεται σε μια ομάδα χωρών που αντιμετωπίζουν πλήρη απαγόρευση.

Το «πλεονέκτημα» των περιορισμένων πόρων

Αποκομμένη από την πρόσβαση στους πιο ισχυρούς επεξεργαστές του κόσμου, η DeepSeek και άλλες κινεζικές εταιρείες τεχνητής νοημοσύνης αναγκάστηκαν να λειτουργούν με περιορισμένους υπολογιστικούς πόρους και μια εγχώρια βιομηχανία τσιπ που δεν είναι σε θέση να παράγει τα τσιπ τελευταίας γενιάς σε επαρκή κλίμακα. Με λίγες διαθέσιμες επιλογές, αυτές οι εταιρείες έπρεπε να σπάσουν το παραδοσιακό καλούπι και να βρουν εναλλακτικούς τρόπους για να αναπτύξουν μοντέλα GenAI χωρίς να βασίζονται στην τεράστια υπολογιστική ισχύ που διαθέτουν οι αμερικανικές εταιρείες.

Η νέα μέθοδος

Η κύρια μέθοδος του DeepSeek ονομάζεται «ενισχυτική μάθηση», μια τεχνική που μιμείται την ανθρώπινη διαδικασία μάθησης μέσω δοκιμής και λάθους. Σε αντίθεση με την παραδοσιακή προσέγγιση, η οποία βασίζεται σε δεδομένα με ετικέτα και απαιτεί σημαντική ανθρώπινη συμμετοχή και υπολογιστική ισχύ, η ενισχυτική μάθηση απαιτεί πολύ λιγότερους υπολογιστικούς πόρους.

Με απλά λόγια το νέο σύστημα λειτουργεί ως εξής: μετά από μια σύντομη αρχική φάση εκπαίδευσης, το μοντέλο είναι επιφορτισμένο με την παραγωγή αποτελεσμάτων για διάφορα ερωτήματα. Στη συνέχεια, αυτές οι έξοδοι αξιολογούνται από ένα άλλο μοντέλο τεχνητής νοημοσύνης, το οποίο επιλέγει τις καλύτερες απαντήσεις. Με αυτόν τον τρόπο, το μοντέλο μαθαίνει να διακρίνει απαντήσεις υψηλής ποιότητας και χαμηλής ποιότητας, βελτιώνοντας σταδιακά την απόδοσή του.

Ελάχιστη επένδυση

Αυτή η προσέγγιση επιτρέπει στο μοντέλο να μαθαίνει αυτόνομα και με πολύ λιγότερη υπολογιστική ισχύ. Σύμφωνα με το DeepSeek, ξόδεψε μόνο 6 εκατομμύρια δολάρια σε υπολογιστικούς πόρους για την ανάπτυξη του μοντέλου R1, που είναι περίπου 3% έως 5% του κόστους που επιβαρύνθηκε το OpenAI για την ανάπτυξη των δικών του μοντέλων.

Επιπλέον, η μέθοδος εκπαίδευσης του μοντέλου του επιτρέπει να λειτουργεί με πολύ χαμηλότερη κατανάλωση ενέργειας, καθιστώντας το αρκετά αποδοτικό ώστε να λειτουργεί σε τοπικά διαθέσιμα υπολογιστικά συστήματα. Αυτό θα μπορούσε να προαναγγέλλει μια επανάσταση στην αγορά της τεχνητής νοημοσύνης, η οποία έχει γίνει σε μεγάλο βαθμό εξαρτημένη από την ακριβή υπολογιστική υποδομή.

Αυτό που έχει δείξει το DeepSeek είναι ότι ακόμη και με σχετικά μέτριες επενδύσεις, ταλαντούχοι επιχειρηματίες μπορούν να εισχωρήσουν στον τομέα της GenAI και να δημιουργήσουν σημαντικό ανταγωνισμό για εταιρείες που έχουν δισεκατομμύρια σε χρηματοδότηση.

Ανοικτός κώδικας

Το γεγονός ότι το μοντέλο R1 είναι ανοιχτού κώδικα καθιστά επίσης προσβάσιμες τις προηγμένες δυνατότητες GenAI σε ερευνητές, επιστήμονες, επαγγελματίες και χομπίστες χωρίς τα τέλη και τους περιορισμούς που επιβάλλονται από μεγαλύτερες εταιρείες. Αυτό έχει πολλά πλεονεκτήματα, ιδιαίτερα για τον ακαδημαϊκό χώρο, καθώς επιτρέπει στους ερευνητές να μελετούν τα μοντέλα και να τα χρησιμοποιούν ελεύθερα, οδηγώντας ενδεχομένως σε σημαντικές ανακαλύψεις. Ωστόσο, υπάρχουν και κίνδυνοι. Χωρίς την επίβλεψη που παρέχουν πλατφόρμες όπως το ChatGPT (όπως ο εντοπισμός και ο αποκλεισμός της κακής χρήσης από άτομα από ορισμένες περιοχές), δεν υπάρχει σαφής μηχανισμός που να αποτρέπει την ανήθικη χρήση του μοντέλου.