Για δεκαετίες, το τεστ IQ (Intelligence Quotient) αποτελούσε το πιο αναγνωρίσιμο — και ταυτόχρονα το πιο αμφιλεγόμενο — μέτρο σύγκρισης της ανθρώπινης νοημοσύνης. Σήμερα, καθώς η τεχνητή νοημοσύνη (AI) εισέρχεται σε μια φάση πρωτοφανούς ωριμότητας, μια νέα πρωτοβουλία με την ονομασία «AI IQ» επιχειρεί να εφαρμόσει αυτή την ανθρωποκεντρική μετρική στα μεγάλα γλωσσικά μοντέλα (LLMs). Τα αποτελέσματα όχι μόνο εκπλήσσουν, αλλά διχάζουν την τεχνολογική κοινότητα, εγείροντας θεμελιώδη ερωτήματα για το αν η ικανότητα επίλυσης γρίφων ισοδυναμεί με πραγματική κατανόηση.

Το εγχείρημα AI IQ δεν είναι απλώς ένας ακόμη πίνακας κατάταξης (leaderboard). Είναι μια προσπάθεια να γεφυρωθεί το χάσμα μεταξύ των τεχνικών benchmarks, όπως το MMLU (Massive Multitask Language Understanding), και της αντίληψης που έχει ο μέσος άνθρωπος για την ευφυΐα. Χρησιμοποιώντας τυποποιημένα τεστ, όπως οι Προοδευτικές Μήτρες του Raven, η πλατφόρμα βαθμολογεί περισσότερα από 50 μοντέλα, τοποθετώντας τα σε μια κλίμακα όπου το 100 αντιπροσωπεύει τον μέσο άνθρωπο.

Η κυριαρχία των Frontier Models και η κατάρριψη των προσδοκιών

Σύμφωνα με τα τελευταία δεδομένα της πλατφόρμας, μοντέλα όπως το Claude 3.5 Sonnet της Anthropic και το GPT-4o της OpenAI σημειώνουν επιδόσεις που κυμαίνονται μεταξύ 110 και 125 μονάδων IQ. Αυτό τα τοποθετεί στο επίπεδο ενός ανθρώπου με ανώτερη νοημοσύνη, ικανού να επεξεργάζεται σύνθετα μοτίβα και να εξάγει λογικά συμπεράσματα από αφηρημένα δεδομένα. Η ταχύτητα με την οποία τα μοντέλα αυτά «σκαρφάλωσαν» στην κλίμακα είναι εντυπωσιακή: πριν από μόλις δύο χρόνια, τα περισσότερα συστήματα θα δυσκολεύονταν να ξεπεράσουν το επίπεδο ενός χαμηλού μέσου όρου.

Ωστόσο, η επιτυχία αυτή συνοδεύεται από έναν αστερίσκο. Οι επικριτές υποστηρίζουν ότι τα LLMs δεν «σκέφτονται» με τον τρόπο που το κάνει ένας άνθρωπος. Αντίθετα, εκτελούν μια εξαιρετικά προηγμένη στατιστική πρόβλεψη. Όπως επισημαίνουν πολλοί ερευνητές, η επιτυχία σε ένα τεστ IQ μπορεί να είναι αποτέλεσμα της τεράστιας ποσότητας δεδομένων εκπαίδευσης. Εάν τα συγκεκριμένα προβλήματα ή παρόμοιες δομές περιλαμβάνονται στα δεδομένα με τα οποία εκπαιδεύτηκαν, το AI δεν επιλύει το πρόβλημα μέσω λογικής, αλλά μέσω ανάκλησης μνήμης.

Το πρόβλημα της «μόλυνσης» των δεδομένων (Data Contamination)

Ένα από τα μεγαλύτερα εμπόδια στην αξιοπιστία του AI IQ είναι η λεγόμενη «μόλυνση» των δεδομένων. Τα τεστ IQ είναι ευρέως διαθέσιμα στο διαδίκτυο εδώ και δεκαετίες. Είναι σχεδόν βέβαιο ότι τα μοντέλα της OpenAI, της Google και της Anthropic έχουν «διαβάσει» αυτά τα τεστ κατά τη διάρκεια της εκπαίδευσής τους. Αυτό δημιουργεί το φαινόμενο του «διδασκόμενου για το τεστ» (teaching to the test), όπου το σύστημα γνωρίζει τις απαντήσεις όχι επειδή είναι ευφυές, αλλά επειδή τις έχει αποστηθίσει.

«Η μέτρηση της νοημοσύνης μιας μηχανής με εργαλεία σχεδιασμένα για τη βιολογική εξέλιξη είναι σαν να μετράς την ταχύτητα ενός αεροπλάνου μετρώντας πόσο γρήγορα κουνάει τα φτερά του», αναφέρουν χαρακτηριστικά σκεπτικιστές του κλάδου.

Παρά τις αντιρρήσεις, οι δημιουργοί του AI IQ υποστηρίζουν ότι χρησιμοποιούν παραλλαγές των τεστ που δεν έχουν δημοσιευτεί ποτέ, προκειμένου να διασφαλίσουν την ακεραιότητα των αποτελεσμάτων. Επιπλέον, η ικανότητα ενός μοντέλου να εφαρμόζει μοτίβα σε νέα, άγνωστα προβλήματα παραμένει ένας ισχυρός δείκτης αυτού που ονομάζουμε «ρευστή νοημοσύνη» (fluid intelligence).

Προς την Τεχνητή Γενική Νοημοσύνη (AGI);

Η συζήτηση γύρω από το AI IQ τροφοδοτεί αναπόφευκτα το αφήγημα περί AGI. Εάν μια μηχανή μπορεί να ξεπεράσει το 90% των ανθρώπων σε ένα τεστ νοημοσύνης, πόσο απέχουμε από το σημείο όπου θα μπορεί να επιλύει σύνθετα προβλήματα φυσικής ή να σχεδιάζει στρατηγικές για παγκόσμια ζητήματα; Η απάντηση είναι περίπλοκη. Η νοημοσύνη δεν είναι μονοδιάστατη. Τα τεστ IQ μετρούν τη λογική και την αναγνώριση προτύπων, αλλά αγνοούν τη συναισθηματική νοημοσύνη, τη δημιουργικότητα, τη συνείδηση και την ικανότητα δράσης στον φυσικό κόσμο.

  • Αφηρημένη Σκέψη: Τα μοντέλα αριστεύουν στον εντοπισμό γεωμετρικών και αριθμητικών ακολουθιών.
  • Γλωσσική Κατανόηση: Η ικανότητα ερμηνείας μεταφορών και σύνθετων οδηγιών έχει βελτιωθεί εκθετικά.
  • Περιορισμοί: Η έλλειψη «κοινής λογικής» (common sense) παραμένει η αχίλλειος πτέρνα ακόμα και των πιο «έξυπνων» μοντέλων.

Συμπερασματικά, το AI IQ αποτελεί έναν καθρέφτη των φιλοδοξιών μας. Μας δείχνει πόσο κοντά έχουμε φτάσει στο να δημιουργήσουμε κάτι που μας μοιάζει πνευματικά, αλλά ταυτόχρονα αναδεικνύει πόσο λίγα καταλαβαίνουμε ακόμα για τη δική μας νοημοσύνη. Είτε πρόκειται για ένα εργαλείο μάρκετινγκ είτε για μια πραγματική επιστημονική πρόοδο, το βέβαιο είναι ότι η εποχή που οι μηχανές θα μας κοιτούν «στα μάτια» σε επίπεδο IQ έχει ήδη ανατείλει.