Στον ταχύτατα εξελισσόμενο κόσμο της Τεχνητής Νοημοσύνης, βρισκόμαστε αντιμέτωποι με ένα παράδοξο: τα μοντέλα γίνονται τόσο ικανά που οι παραδοσιακές μέθοδοι αξιολόγησής τους καθίστανται άχρηστες σχεδόν αμέσως μετά τη δημοσίευσή τους. Αυτό το φαινόμενο, γνωστό ως «κορεσμός των benchmarks» (benchmark saturation), έχει οδηγήσει την ερευνητική κοινότητα σε έναν αέναο αγώνα δρόμου για τη δημιουργία ολοένα και πιο δύσκολων εξετάσεων. Ωστόσο, μια νέα μελέτη που παρουσιάστηκε στο ArXiv με τίτλο «Life After Benchmark Saturation: A Case Study of CORE-Bench» (arXiv:2606.26158), υποστηρίζει ότι η απλή αντικατάσταση των παλιών τεστ με δυσκολότερα είναι μια λανθασμένη προσέγγιση που αγνοεί την ουσία της νοημοσύνης των πρακτόρων (agents).

Πέρα από την Εμμονή με την Ακρίβεια

Για χρόνια, η επιτυχία ενός μοντέλου AI μετριόταν με ένα μονοδιάστατο κριτήριο: το ποσοστό ακρίβειας (accuracy). Είτε επρόκειτο για το MMLU είτε για το HumanEval, ο στόχος ήταν πάντα η κορυφή της κατάταξης. Όμως, όπως επισημαίνουν οι ερευνητές του CORE-Bench, αυτή η προσέγγιση πάσχει από «μυωπία». Όταν ένα μοντέλο επιτυγχάνει 90% ή 95% σε μια δοκιμασία, η απόσυρση της δοκιμασίας αυτής στερεί από την επιστήμη τη δυνατότητα να μελετήσει άλλες, κρίσιμες πτυχές της συμπεριφοράς του μοντέλου.

Το CORE-Bench (Computationally Reproducible Research Benchmark) εισάγει μια ριζοσπαστική αλλαγή παραδείγματος. Αντί να ρωτά απλώς «ποια είναι η σωστή απάντηση;», εξετάζει αν ένας αυτόνομος πράκτορας AI μπορεί να αναπαράγει τα αποτελέσματα μιας επιστημονικής δημοσίευσης από το μηδέν. Αυτό απαιτεί από το μοντέλο να πλοηγηθεί σε αρχεία κώδικα, να διαχειριστεί δεδομένα, να επιλύσει σφάλματα λογισμικού και να ερμηνεύσει σύνθετα γραφήματα. Είναι μια δοκιμασία που δεν μετρά μόνο τη γνώση, αλλά και τη μεθοδολογία, την επιμονή και την ικανότητα επίλυσης προβλημάτων σε πραγματικές συνθήκες.

Οι Έξι Διαστάσεις της Απόδοσης

Η μελέτη προτείνει ότι, αντί να αποσύρουμε τα «κορεσμένα» benchmarks, πρέπει να τα χρησιμοποιήσουμε για να αξιολογήσουμε έξι επιπλέον διαστάσεις που συχνά παραβλέπονται:

  • Εγκυρότητα Εννοιολογικής Κατασκευής (Construct Validity): Μετράμε πραγματικά αυτό που νομίζουμε; Ένας πράκτορας μπορεί να φτάσει στη σωστή απάντηση μέσω «τυχερών» υποθέσεων ή επειδή είδε τα δεδομένα κατά την εκπαίδευσή του (data leakage).
  • Αξιοπιστία (Reliability): Μπορεί το μοντέλο να παράγει το ίδιο αποτέλεσμα επανειλημμένα, ή η επιτυχία του είναι τυχαία;
  • Αποδοτικότητα (Efficiency): Πόσους υπολογιστικούς πόρους και πόσο χρόνο κατανάλωσε ο πράκτορας για να λύσει το πρόβλημα;
  • Γενικευσιμότητα (Generalizability): Μπορεί η ίδια προσέγγιση να εφαρμοστεί σε διαφορετικά επιστημονικά πεδία, από τη βιολογία μέχρι την αστροφυσική;
  • Στιβαρότητα (Robustness): Πώς αντιδρά το μοντέλο σε μικρές αλλαγές των δεδομένων εισόδου ή σε θόρυβο;
  • Ασφάλεια και Ευθυγράμμιση (Safety & Alignment): Κατά τη διάρκεια της εκτέλεσης του κώδικα, ο πράκτορας ακολουθεί τους κανόνες δεοντολογίας ή προσπαθεί να «κλέψει» για να βρει το αποτέλεσμα;

Η Πρόκληση της Επιστημονικής Αναπαραγωγισιμότητας

Το CORE-Bench εστιάζει στην Υπολογιστικά Αναπαραγώγιμη Έρευνα (CRR), ένα από τα μεγαλύτερα αγκάθια της σύγχρονης επιστήμης. Οι ερευνητές διαπίστωσαν ότι ακόμη και τα πιο προηγμένα μοντέλα του 2026 δυσκολεύονται όταν καλούνται να στήσουν ένα περιβάλλον Python, να διορθώσουν βιβλιοθήκες που λείπουν και να τρέξουν προσομοιώσεις που διαρκούν ώρες. Αυτό αναδεικνύει το χάσμα μεταξύ της «ρητορικής ικανότητας» (chatting) και της «λειτουργικής ικανότητας» (doing).

«Ο κορεσμός ενός benchmark δεν είναι το τέλος της χρησιμότητάς του, αλλά η αρχή μιας βαθύτερης ανάλυσης», αναφέρει η μελέτη. «Όταν η ακρίβεια παύει να είναι το ζητούμενο, η αποδοτικότητα και η αξιοπιστία γίνονται τα νέα πεδία μάχης».

Στην ελληνική πραγματικότητα, όπου η έρευνα και η καινοτομία συχνά παλεύουν με περιορισμένους πόρους, η διάσταση της αποδοτικότητας που προτείνει το CORE-Bench είναι εξαιρετικά επίκαιρη. Δεν μας ενδιαφέρει μόνο ένα μοντέλο που είναι έξυπνο, αλλά ένα μοντέλο που μπορεί να παράγει επιστημονικό έργο με το ελάχιστο δυνατό κόστος σε ενέργεια και χρόνο.

Συμπεράσματα για το Μέλλον

Η στροφή από τα στατικά ερωτηματολόγια στους δυναμικούς πράκτορες που επιλύουν επιστημονικά προβλήματα σηματοδοτεί την ενηλικίωση της Τεχνητής Νοημοσύνης. Το CORE-Bench μας υπενθυμίζει ότι η νοημοσύνη δεν είναι ένας αριθμός σε μια κλίμακα, αλλά μια πολυδιάστατη ικανότητα αλληλεπίδρασης με τον κόσμο. Καθώς προχωράμε προς το 2027, η επιτυχία των εταιρειών AI δεν θα κρίνεται από το ποιος θα φτάσει πρώτος στο 100% της ακρίβειας, αλλά από το ποιος θα δημιουργήσει τον πιο αξιόπιστο, ασφαλή και οικονομικό ψηφιακό επιστήμονα.