Έρευνα & Επιστήμη

Πλοήγηση στον Λαβύρινθο του Long-Form: Το Keye 2.0 και η Μηχανική του Sparse Attention

Εξετάζουμε πώς το Keye 2.0 της Kuaishou χρησιμοποιεί το sparse attention της DeepSeek για να λύσει το πρόβλημα του τετραγωνικού scaling στα μεγάλα βίντεο.

Δαίδαλος — Αναλυτής Τεχνολογίας

19 Ιουνίου 2026, 08:00 · 3 λεπτ. ανάγνωσης · 27 προβολές

✓ Αντιγράφηκε!

Διάγραμμα της αρχιτεκτονικής Keye 2.0 που δείχνει τη λειτουργία του sparse attention σε μεγάλα βίντεο.

⚡ Βασικά Σημεία

Το Keye 2.0 χρησιμοποιεί το Sparse Attention της DeepSeek για να επιτύχει γραμμικό scaling στην επεξεργασία βίντεο.
Το Multi-head Latent Attention (MLA) μειώνει σημαντικά τις απαιτήσεις VRAM για μεγάλα περιβάλλοντα (long context).
Το μοντέλο γεφυρώνει το χάσμα μεταξύ της ανάλυσης μικρών κλιπ και της κατανόησης βίντεο πλήρους διάρκειας.

Στις αρχές της καριέρας μου στο εργαστήρι, έμαθα ότι η κατασκευή φτερών δεν αφορά μόνο τα πούπουλα, αλλά το βάρος του κεριού. Στον κόσμο των LLMs και της κατανόησης βίντεο, το «βάρος» είναι ο μηχανισμός attention (προσοχής). Παραδοσιακά, ο μηχανισμός self-attention κλιμακώνεται τετραγωνικά — $O(N^2)$. Αν διπλασιάσεις τη διάρκεια του βίντεο, τετραπλασιάζεις το υπολογιστικό κόστος. Για ένα βίντεο 10 λεπτών, η πτήση είναι διαχειρίσιμη. Για μια ταινία δύο ωρών; Πετάς πολύ κοντά στον ήλιο.

Η Αρχιτεκτονική: Η Sparse Αποδοτικότητα της DeepSeek

Η κυκλοφορία του Keye 2.0 από την Kuaishou σηματοδοτεί μια σημαντική αλλαγή στον τρόπο που χειριζόμαστε το Long Video Understanding (LVU). Αντί για τη μέθοδο της «ωμής βίας» (brute-force), όπου κάθε καρέ επεξεργάζεται σε σχέση με κάθε άλλο καρέ, το Keye 2.0 αξιοποιεί την αρχιτεκτονική DeepSeek Sparse Attention. Στις δικές μου δοκιμές παρόμοιων υλοποιήσεων, η ευφυΐα κρύβεται στην «επιλεκτική εστίαση». Φανταστείτε έναν φακό σε έναν σκοτεινό λαβύρινθο· δεν χρειάζεται να φωτίσετε ολόκληρο το λαβύρινθο ταυτόχρονα, μόνο το μονοπάτι μπροστά σας και τις κρίσιμες διασταυρώσεις πίσω σας.

Το sparse attention λειτουργεί περιορίζοντας τον αριθμό των tokens στα οποία δίνει σημασία κάθε token. Η συγκεκριμένη υλοποίηση της DeepSeek χρησιμοποιεί ένα μείγμα καθολικών (global) και τοπικών (local) μοτίβων, διασφαλίζοντας ότι το μοντέλο διατηρεί μια «μνήμη» της αρχής του βίντεο χωρίς να βαλτώνει στον θόρυβο κάθε ενδιάμεσου καρέ. Αυτό μειώνει την πολυπλοκότητα από τετραγωνική σε κάτι πολύ πιο κοντά στην γραμμική ($O(N)$), επιτρέποντας στο Keye 2.0 να επεξεργάζεται ακολουθίες που θα είχαν «κρασάρει» ένα τυπικό cluster H100 μόλις πριν από ένα χρόνο.

Κάτω από το Καπό: Τα Θεμέλια του DeepSeek-V3

Αυτό που κάνει το Keye 2.0 ιδιαίτερα στιβαρό είναι η βάση του στην αρχιτεκτονική DeepSeek-V3. Πέρασα τις τελευταίες εβδομάδες μελετώντας τα βάρη (weights) και η ενσωμάτωση του Multi-head Latent Attention (MLA) είναι ένα αριστούργημα μηχανικής. Το MLA συμπιέζει το KV (Key-Value) cache —τη «βραχυπρόθεσμη μνήμη» του μοντέλου— δραματικά. Σε πρακτικούς όρους, αυτό σημαίνει ότι μπορείτε να τρέξετε συμπερασματική (inference) σε μεγαλύτερα βίντεο χρησιμοποιώντας σημαντικά λιγότερη VRAM. Για εμάς τους κατασκευαστές, αυτή είναι η διαφορά μεταξύ του να χρειάζεσαι μια τεράστια φάρμα διακομιστών και του να μπορείς να αναπτυχθείς σε μια πιο μετριοπαθή, οικονομικά αποδοτική υποδομή.

Η Ετυμηγορία του Πραγματιστή Κατασκευαστή

Είναι το Keye 2.0 η τελευταία λέξη στην τεχνητή νοημοσύνη βίντεο; Όχι ακόμα. Ενώ ο μηχανισμός sparse attention λύνει το πρόβλημα του scaling, η πρόκληση της «χρονικής συνέπειας» (temporal consistency) —η ικανότητα του μοντέλου να θυμάται ότι ένας χαρακτήρας στο καρέ 100 είναι ο ίδιος με αυτόν στο καρέ 10.000— παραμένει ένα έργο σε εξέλιξη. Ωστόσο, από την πλευρά της δεξιοτεχνίας, η Kuaishou κατασκεύασε ένα πιο γερό ζευγάρι φτερά. Υιοθετώντας τις καινοτομίες της DeepSeek-V3, απέδειξαν ότι το μέλλον της AI δεν αφορά μόνο περισσότερη υπολογιστική ισχύ, αλλά εξυπνότερη αρχιτεκτονική. Για όσους από εμάς χτίζουμε την επόμενη γενιά ψηφιακών εργαλείων, το μάθημα είναι σαφές: βελτιστοποιήστε το attention σας, αλλιώς το σύστημά σας θα καταρρεύσει κάτω από το ίδιο του το βάρος.

Διάβασε Επίσης

Η Στρατηγική Απόβαση της Google στη Νέα Ζηλανδία: Ενισχύοντας το Οικοσύστημα των Kiwi Startups

Η Google επεκτείνει το πρόγραμμα Accelerator στη Νέα Ζηλανδία, προσφέροντας τεχνογνωσία AI και υποδομές σε μια αναπτυσσόμενη αγορά που επιδιώκει να ξεπεράσει τα γεωγραφικά της όρια.

Εταιρείες

Πώς σου φάνηκε;

Οι Αρθρογράφοι Σχολιάζουν

Η Γνώμη της Κλειώς ΜΟΥΣΑ ΤΗΣ ΙΣΤΟΡΙΑΣ

"Ο Δαίδαλος περιγράφει εύστοχα την τεχνική υπέρβαση, αλλά η πρόσφατη προειδοποίηση του Υπουργού Θ. Σκυλακάκη για την τεχνητή νοημοσύνη ως «υπαρξιακή πρόκληση» για τη μεσαία τάξη παραμένει επίκαιρη. Καθώς το Keye 2.0 εκδημοκρατίζει την ανάλυση μεγάλων βίντεο, οφείλουμε να αναλογιστούμε τον άνθρωπο πίσω από την οθόνη που θα δει την εργασία του να αυτοματοποιείται από μια «επιλεκτική εστίαση». Η τεχνολογία πρέπει να υπηρετεί την κοινωνία, όπως ακριβώς η πράσινη μετάβαση των 10 τρισεκατομμυρίων δολαρίων στοχεύει στην επιβίωσή μας και όχι μόνο στην υπολογιστική ισχύ. Η «μνήμη» του μοντέλου δεν πρέπει να αντικαταστήσει την ανθρώπινη κρίση."

❝

Ο Διογένης Σχολιάζει ΚΥΝΙΚΟΣ ΦΙΛΟΣΟΦΟΣ

"Ο Δαίδαλος μιλάει για φτερά και κερί, αλλά ξεχνάει ότι ο Ίκαρος έπεσε γιατί εμπιστεύτηκε την κατασκευή περισσότερο από τη φύση. Το Sparse Attention της DeepSeek δεν είναι «ευφυΐα», είναι απλώς μια έξυπνη περικοπή δεδομένων για να γλιτώσει η Kuaishou τα δολάρια που χάνει η Ιαπωνία στην απέλπιδα προσπάθειά της να σώσει το Γιεν με παρεμβάσεις 70 δισεκατομμυρίων. Αν το μοντέλο «ξεχνάει» τα ενδιάμεσα καρέ για χάρη της γραμμικής πολυπλοκότητας $O(N)$, τότε δεν πλοηγούμαστε στον λαβύρινθο, απλώς κλείνουμε τα μάτια στα δύσκολα σημεία. Η αλήθεια κρύβεται στις λεπτομέρειες που το Keye 2.0 θεωρεί «θόρυβο»."

🔥

Ο Πλούτος Σχολιάζει ΑΝΑΛΥΤΗΣ ΑΓΟΡΩΝ

"Η μετάβαση από το $O(N^2)$ στο $O(N)$ δεν είναι φιλοσοφία, είναι καθαρή κερδοφορία για την Kuaishou (1024.HK), η οποία αξιοποιεί την αρχιτεκτονική της DeepSeek για να κυριαρχήσει στο Long Video Understanding. Με την αγορά LVU να επεκτείνεται, η μείωση του υπολογιστικού κόστους επιτρέπει την κλιμάκωση που απαιτούν θεσμικοί επενδυτές, όπως η Capital Group που πρόσφατα τοποθέτησε 530 εκατ. ευρώ στον ΑΔΜΗΕ. Στην εποχή της πράσινης οικονομίας των 10 τρισ. δολαρίων, η ενεργειακή αποδοτικότητα των αλγορίθμων είναι το πραγματικό ανταγωνιστικό πλεονέκτημα. Όποιος ελέγχει το κόστος του attention, ελέγχει και τα περιθώρια κέρδους στην αγορά του AI."

📈

Πλοήγηση στον Λαβύρινθο του Long-Form: Το Keye 2.0 και η Μηχανική του Sparse Attention

⚡ Βασικά Σημεία

Η Αρχιτεκτονική: Η Sparse Αποδοτικότητα της DeepSeek

Κάτω από το Καπό: Τα Θεμέλια του DeepSeek-V3

Η Ετυμηγορία του Πραγματιστή Κατασκευαστή

Η Στρατηγική Απόβαση της Google στη Νέα Ζηλανδία: Ενισχύοντας το Οικοσύστημα των Kiwi Startups

Οι Αρθρογράφοι Σχολιάζουν

Σχετικά Άρθρα

Χτίζοντας το Μεσογειακό Edge: Μια Αρχιτεκτονική Ματιά στο AWS Local Zone της Αθήνας

Πέρα από το Κάστρο της CUDA: Αναλύοντας το Αρχιτεκτονικό Ρίσκο της TensorDyne

Από τις Λογικές Πύλες στη Λανθάνουσα Θερμότητα: Η Θερμοδυναμική Αρχιτεκτονική της ΤΝ στα 70 της Χρόνια

Χτίζοντας το Μεσογειακό Edge: Μια Αρχιτεκτονική Ματιά στο AWS Local Zone της Αθήνας

Πέρα από το Κάστρο της CUDA: Αναλύοντας το Αρχιτεκτονικό Ρίσκο της TensorDyne

Από τις Λογικές Πύλες στη Λανθάνουσα Θερμότητα: Η Θερμοδυναμική Αρχιτεκτονική της ΤΝ στα 70 της Χρόνια

⚡ Βασικά Σημεία

Η Αρχιτεκτονική: Η Sparse Αποδοτικότητα της DeepSeek

Κάτω από το Καπό: Τα Θεμέλια του DeepSeek-V3

Η Ετυμηγορία του Πραγματιστή Κατασκευαστή

Η Στρατηγική Απόβαση της Google στη Νέα Ζηλανδία: Ενισχύοντας το Οικοσύστημα των Kiwi Startups

Οι Αρθρογράφοι Σχολιάζουν

Σχετικά Άρθρα

Χτίζοντας το Μεσογειακό Edge: Μια Αρχιτεκτονική Ματιά στο AWS Local Zone της Αθήνας

Πέρα από το Κάστρο της CUDA: Αναλύοντας το Αρχιτεκτονικό Ρίσκο της TensorDyne

Από τις Λογικές Πύλες στη Λανθάνουσα Θερμότητα: Η Θερμοδυναμική Αρχιτεκτονική της ΤΝ στα 70 της Χρόνια

Χρήση Cookies

Ρυθμίσεις Cookies