Για χρόνια, η κοινότητα της τεχνητής νοημοσύνης πανηγυρίζει για τις επιδόσεις των Μεγάλων Γλωσσικών Μοντέλων (LLMs) σε τυποποιημένες εξετάσεις. Από το USMLE (ιατρικές εξετάσεις των ΗΠΑ) μέχρι τα τεστ δικηγορικών συλλόγων, μοντέλα όπως το GPT-4 και το Med-PaLM 2 έχουν επιτύχει σκορ που ξεπερνούν τον μέσο άνθρωπο. Ωστόσο, μια αυξανόμενη δέσμη στοιχείων, που αναδεικνύεται από πρόσφατες αναφορές στο HealthExec, υποδεικνύει μια ανησυχητική αλήθεια: όταν αυτά τα συστήματα αφήνουν το αποστειρωμένο περιβάλλον των εργαστηριακών δοκιμών και έρχονται αντιμέτωπα με την «άγρια» πραγματικότητα των νοσοκομείων και των κλινικών, η απόδοσή τους συχνά καταρρέει.

Το πρόβλημα δεν έγκειται στην έλλειψη γνώσεων, αλλά στην αδυναμία διαχείρισης του «θορύβου». Στον πραγματικό κόσμο, τα δεδομένα δεν είναι καθαρά. Οι ασθενείς χρησιμοποιούν αργκό, οι γιατροί κρατούν σημειώσεις με ελλιπείς προτάσεις και οι ιατρικοί φάκελοι είναι συχνά γεμάτοι αντιφάσεις. Ενώ ένα AI μοντέλο μπορεί να διαγνώσει μια σπάνια ασθένεια σε ένα τέλεια δομημένο σενάριο εξετάσεων, μπορεί να αποτύχει παταγωδώς να αναγνωρίσει τα συμπτώματα ενός ηλικιωμένου ασθενούς που μιλάει με τοπική προφορά ή παραλείπει κρίσιμες λεπτομέρειες λόγω άγχους.

Το Φαινόμενο της «Εύθραυστης» Νοημοσύνης

Οι ερευνητές ονομάζουν αυτό το φαινόμενο «brittleness» (ευθραυστότητα). Τα μοντέλα AI είναι εκπαιδευμένα σε τεράστια σύνολα δεδομένων, αλλά η εκπαίδευσή τους βασίζεται σε στατικά στιγμιότυπα πληροφοριών. Η πραγματικότητα, αντίθετα, είναι δυναμική. Στον τομέα της υγείας, η ικανότητα ενός συστήματος να προσαρμόζεται σε νέες μεταλλάξεις ιών, αλλαγές στα πρωτόκολλα θεραπείας ή ακόμα και στην κοινωνικοοικονομική κατάσταση ενός ασθενούς είναι καθοριστική. Τα LLMs, παρά την εντυπωσιακή τους ευφράδεια, παραμένουν «στοχαστικοί παπαγάλοι» που στερούνται βαθιάς κατανόησης της αιτιότητας.

Επιπλέον, η εξάρτηση από τα benchmarks δημιουργεί μια ψευδαίσθηση ασφάλειας. Όταν μια εταιρεία ανακοινώνει ότι το μοντέλο της πέρασε τις ιατρικές εξετάσεις με 90%, οι διοικήσεις των νοσοκομείων σπεύδουν να το υιοθετήσουν για τη διαλογή ασθενών (triage). Ωστόσο, η διαλογή σε ένα πραγματικό τμήμα επειγόντων περιστατικών δεν απαιτεί μόνο ιατρική γνώση, αλλά και συναισθηματική νοημοσύνη, ιεράρχηση προτεραιοτήτων σε πραγματικό χρόνο και κατανόηση του πλαισίου – ικανότητες που η τρέχουσα γενιά AI απλώς δεν διαθέτει.

Η Παγίδα των Δεδομένων και η Προκατάληψη

Ένας άλλος κρίσιμος παράγοντας που οδηγεί στο «σκοντάψιμο» της AI στον πραγματικό κόσμο είναι η προκατάληψη των δεδομένων (data bias). Τα μοντέλα εκπαιδεύονται κυρίως σε δεδομένα από δυτικές χώρες και συγκεκριμένες δημογραφικές ομάδες. Όταν αυτά τα μοντέλα εφαρμόζονται σε πληθυσμούς με διαφορετικά πολιτισμικά υπόβαθρα ή σε περιοχές με περιορισμένους πόρους, οι προτάσεις τους μπορεί να είναι όχι μόνο άστοχες αλλά και επικίνδυνες. Για παράδειγμα, μια διάγνωση που βασίζεται σε δερματικά συμπτώματα μπορεί να αποδειχθεί ανακριβής αν το μοντέλο έχει εκπαιδευτεί κυρίως σε φωτογραφίες ανοιχτόχρωμου δέρματος.

Η «άγρια» πραγματικότητα περιλαμβάνει επίσης το ζήτημα της ευθύνης. Σε ένα εργαστήριο, ένα λάθος είναι απλώς ένα στατιστικό στοιχείο. Σε ένα χειρουργείο ή σε μια μονάδα εντατικής θεραπείας, ένα λάθος είναι μια ανθρώπινη ζωή. Η έλλειψη διαφάνειας στον τρόπο με τον οποίο τα LLMs καταλήγουν σε συμπεράσματα –το λεγόμενο «μαύρο κουτί»– καθιστά δύσκολο για τους γιατρούς να εμπιστευτούν τις συστάσεις τους όταν αυτές έρχονται σε αντίθεση με την κλινική τους εμπειρία.

Από το Εργαστήριο στην Κλινική: Η Ανάγκη για Νέα Πρότυπα

Για να γεφυρωθεί το χάσμα, η βιομηχανία της τεχνολογίας και η ιατρική κοινότητα πρέπει να αλλάξουν τον τρόπο αξιολόγησης της AI. Δεν αρκεί πλέον ένα υψηλό σκορ σε ένα τυποποιημένο τεστ. Απαιτούνται δοκιμές «αιχμής» (stress testing) σε περιβάλλοντα που προσομοιώνουν την πολυπλοκότητα της πραγματικής ζωής. Αυτό σημαίνει δοκιμή των μοντέλων με ελλιπή δεδομένα, αντικρουόμενες πληροφορίες και σε διαφορετικές γλώσσες και διαλέκτους.

Η μελλοντική πορεία απαιτεί μια στροφή προς την «Ανθεκτική Τεχνητή Νοημοσύνη» (Robust AI). Αντί να επιδιώκουμε όλο και μεγαλύτερα μοντέλα με δισεκατομμύρια παραμέτρους, η έρευνα πρέπει να επικεντρωθεί στη δημιουργία συστημάτων που αναγνωρίζουν πότε δεν γνωρίζουν κάτι και ζητούν ανθρώπινη παρέμβαση. Η συνεργασία ανθρώπου-μηχανής παραμένει το κλειδί. Η AI δεν πρέπει να αντιμετωπίζεται ως αντικαταστάτης του γιατρού, αλλά ως ένας βοηθός που χρειάζεται συνεχή επίβλεψη και κριτική σκέψη από τον άνθρωπο χρήστη.