Στις αρχές της καριέρας μου στο εργαστήρι, έμαθα ότι η κατασκευή φτερών δεν αφορά μόνο τα πούπουλα, αλλά το βάρος του κεριού. Στον κόσμο των LLMs και της κατανόησης βίντεο, το «βάρος» είναι ο μηχανισμός attention (προσοχής). Παραδοσιακά, ο μηχανισμός self-attention κλιμακώνεται τετραγωνικά — $O(N^2)$. Αν διπλασιάσεις τη διάρκεια του βίντεο, τετραπλασιάζεις το υπολογιστικό κόστος. Για ένα βίντεο 10 λεπτών, η πτήση είναι διαχειρίσιμη. Για μια ταινία δύο ωρών; Πετάς πολύ κοντά στον ήλιο.

Η Αρχιτεκτονική: Η Sparse Αποδοτικότητα της DeepSeek

Η κυκλοφορία του Keye 2.0 από την Kuaishou σηματοδοτεί μια σημαντική αλλαγή στον τρόπο που χειριζόμαστε το Long Video Understanding (LVU). Αντί για τη μέθοδο της «ωμής βίας» (brute-force), όπου κάθε καρέ επεξεργάζεται σε σχέση με κάθε άλλο καρέ, το Keye 2.0 αξιοποιεί την αρχιτεκτονική DeepSeek Sparse Attention. Στις δικές μου δοκιμές παρόμοιων υλοποιήσεων, η ευφυΐα κρύβεται στην «επιλεκτική εστίαση». Φανταστείτε έναν φακό σε έναν σκοτεινό λαβύρινθο· δεν χρειάζεται να φωτίσετε ολόκληρο το λαβύρινθο ταυτόχρονα, μόνο το μονοπάτι μπροστά σας και τις κρίσιμες διασταυρώσεις πίσω σας.

Το sparse attention λειτουργεί περιορίζοντας τον αριθμό των tokens στα οποία δίνει σημασία κάθε token. Η συγκεκριμένη υλοποίηση της DeepSeek χρησιμοποιεί ένα μείγμα καθολικών (global) και τοπικών (local) μοτίβων, διασφαλίζοντας ότι το μοντέλο διατηρεί μια «μνήμη» της αρχής του βίντεο χωρίς να βαλτώνει στον θόρυβο κάθε ενδιάμεσου καρέ. Αυτό μειώνει την πολυπλοκότητα από τετραγωνική σε κάτι πολύ πιο κοντά στην γραμμική ($O(N)$), επιτρέποντας στο Keye 2.0 να επεξεργάζεται ακολουθίες που θα είχαν «κρασάρει» ένα τυπικό cluster H100 μόλις πριν από ένα χρόνο.

Κάτω από το Καπό: Τα Θεμέλια του DeepSeek-V3

Αυτό που κάνει το Keye 2.0 ιδιαίτερα στιβαρό είναι η βάση του στην αρχιτεκτονική DeepSeek-V3. Πέρασα τις τελευταίες εβδομάδες μελετώντας τα βάρη (weights) και η ενσωμάτωση του Multi-head Latent Attention (MLA) είναι ένα αριστούργημα μηχανικής. Το MLA συμπιέζει το KV (Key-Value) cache —τη «βραχυπρόθεσμη μνήμη» του μοντέλου— δραματικά. Σε πρακτικούς όρους, αυτό σημαίνει ότι μπορείτε να τρέξετε συμπερασματική (inference) σε μεγαλύτερα βίντεο χρησιμοποιώντας σημαντικά λιγότερη VRAM. Για εμάς τους κατασκευαστές, αυτή είναι η διαφορά μεταξύ του να χρειάζεσαι μια τεράστια φάρμα διακομιστών και του να μπορείς να αναπτυχθείς σε μια πιο μετριοπαθή, οικονομικά αποδοτική υποδομή.

Η Ετυμηγορία του Πραγματιστή Κατασκευαστή

Είναι το Keye 2.0 η τελευταία λέξη στην τεχνητή νοημοσύνη βίντεο; Όχι ακόμα. Ενώ ο μηχανισμός sparse attention λύνει το πρόβλημα του scaling, η πρόκληση της «χρονικής συνέπειας» (temporal consistency) —η ικανότητα του μοντέλου να θυμάται ότι ένας χαρακτήρας στο καρέ 100 είναι ο ίδιος με αυτόν στο καρέ 10.000— παραμένει ένα έργο σε εξέλιξη. Ωστόσο, από την πλευρά της δεξιοτεχνίας, η Kuaishou κατασκεύασε ένα πιο γερό ζευγάρι φτερά. Υιοθετώντας τις καινοτομίες της DeepSeek-V3, απέδειξαν ότι το μέλλον της AI δεν αφορά μόνο περισσότερη υπολογιστική ισχύ, αλλά εξυπνότερη αρχιτεκτονική. Για όσους από εμάς χτίζουμε την επόμενη γενιά ψηφιακών εργαλείων, το μάθημα είναι σαφές: βελτιστοποιήστε το attention σας, αλλιώς το σύστημά σας θα καταρρεύσει κάτω από το ίδιο του το βάρος.