Στην αυγή του 2026, η μετάβαση από τα γενικά γλωσσικά μοντέλα σε εξειδικευμένους «πράκτορες» (agents) που λειτουργούν εντός εταιρικών οικοσυστημάτων αποτελεί την κυρίαρχη τάση της τεχνολογίας. Ωστόσο, μια νέα ερευνητική εργασία που δημοσιεύθηκε στο ArXiv (cs.AI — 2605.05379) με τίτλο «Partial Evidence Bench», φέρνει στο φως μια κρίσιμη αδυναμία: την ικανότητα των συστημάτων αυτών να διαχειρίζονται την πληροφορία όταν η πρόσβασή τους είναι περιορισμένη λόγω πολιτικών ασφαλείας.
Τα Αόρατα Τείχη της Εταιρικής Νοημοσύνης
Σε ένα τυπικό εταιρικό περιβάλλον, η πληροφορία δεν είναι ελεύθερη για όλους. Ένας AI πράκτορας που υποστηρίζει το τμήμα Ανθρώπινου Δυναμικού έχει πρόσβαση σε μισθούς, ενώ ένας πράκτορας του τμήματος Μάρκετινγκ όχι. Το πρόβλημα προκύπτει όταν ένας χρήστης υποβάλλει ένα ερώτημα που απαιτεί σύνθεση δεδομένων από πολλαπλές πηγές, ορισμένες από τις οποίες είναι απροσπέλαστες για το συγκεκριμένο σύστημα. Όπως επισημαίνει η μελέτη, τα τρέχοντα μοντέλα τείνουν να παρουσιάζουν μια «ψευδαίσθηση πληρότητας», απαντώντας με βάση μόνο τα διαθέσιμα στοιχεία χωρίς να αναγνωρίζουν ότι η εικόνα τους είναι ημιτελής.
Το Partial Evidence Bench (PEB) σχεδιάστηκε ακριβώς για να μετρήσει αυτή την απόκλιση. Οι ερευνητές δημιούργησαν σενάρια όπου οι AI πράκτορες λειτουργούν σε περιβάλλοντα «ελεγχόμενης ανάκτησης» (scoped retrieval). Το στοίχημα δεν είναι μόνο αν το AI μπορεί να βρει την πληροφορία, αλλά αν μπορεί να αντιληφθεί την απουσία της λόγω εξουσιοδότησης και να ενημερώσει τον χρήστη αναλόγως.
Η Ψευδαίσθηση της Πληρότητας και ο Κίνδυνος των Παραισθήσεων
Ένα από τα πιο ανησυχητικά ευρήματα της έρευνας είναι η τάση των μοντέλων να προβαίνουν σε λογικά άλματα για να καλύψουν τα κενά. Όταν ένα σύστημα RAG (Retrieval-Augmented Generation) περιορίζεται από πολιτικές πρόσβασης, συχνά παράγει απαντήσεις που φαίνονται έγκυρες αλλά είναι παραπλανητικές. Για παράδειγμα, αν ερωτηθεί για τον μέσο όρο εξόδων ενός τμήματος και έχει πρόσβαση μόνο στα μισά τιμολόγια, θα δώσει έναν αριθμό ως οριστικό, αντί να δηλώσει ότι «βάσει των περιορισμένων δικαιωμάτων μου, ο αριθμός είναι Χ, αλλά υπάρχουν δεδομένα στα οποία δεν έχω πρόσβαση».
«Η ασφάλεια των δεδομένων δεν πρέπει να συνεπάγεται την υποβάθμιση της αλήθειας. Ένα AI που δεν γνωρίζει τα όριά του είναι πιο επικίνδυνο από ένα AI που δεν γνωρίζει την απάντηση», σημειώνουν οι ερευνητές.
Το benchmark αξιολογεί τα συστήματα σε τρεις άξονες: την ακρίβεια υπό περιορισμούς, την ικανότητα εντοπισμού ελλιπών στοιχείων και τη διαφάνεια προς τον τελικό χρήστη. Τα αποτελέσματα δείχνουν ότι ακόμη και τα πιο προηγμένα μοντέλα του 2026 δυσκολεύονται να διακρίνουν τη διαφορά μεταξύ του «δεν υπάρχει πληροφορία» και του «δεν έχω δικαίωμα να δω την πληροφορία».
Προς μια Αρχιτεκτονική με Επίγνωση Εξουσιοδότησης
Η λύση που προτείνεται μέσω του Partial Evidence Bench δεν είναι η χαλάρωση των μέτρων ασφαλείας, αλλά η δημιουργία «Authorization-Aware» πρακτόρων. Αυτό σημαίνει ότι το AI πρέπει να είναι ενσωματωμένο στο σύστημα ελέγχου πρόσβασης (RBAC/ABAC) της εταιρείας με τέτοιο τρόπο ώστε τα μεταδεδομένα της άρνησης πρόσβασης να αποτελούν μέρος της συλλογιστικής του (reasoning).
- Διαφανής Άρνηση: Το σύστημα πρέπει να εξηγεί ποια τμήματα της απάντησης επηρεάζονται από περιορισμούς πρόσβασης.
- Σύνθετα Workflows: Οι πράκτορες πρέπει να μπορούν να ζητούν «αντιπροσωπευτική πρόσβαση» ή να παραπέμπουν το ερώτημα σε ανώτερους εξουσιοδοτημένους χρήστες.
- Πολιτικές Επαλήθευσης: Εφαρμογή δευτερεύοντος ελέγχου που επαληθεύει αν η απάντηση του AI αλλοιώνεται από την έλλειψη δεδομένων.
Καθώς οι επιχειρήσεις βασίζονται όλο και περισσότερο σε αυτόνομα συστήματα για τη λήψη αποφάσεων, η ανάγκη για αξιόπιστα benchmarks όπως το PEB γίνεται επιτακτική. Η βιομηχανία πρέπει να προχωρήσει πέρα από την απλή μέτρηση της ευφυΐας και να εστιάσει στην ακεραιότητα της πληροφορίας εντός γραφειοκρατικών και νομικών πλαισίων.
Συμπέρασμα: Η Ηθική της Γνώσης
Το Partial Evidence Bench μας υπενθυμίζει ότι η Τεχνητή Νοημοσύνη δεν λειτουργεί στο κενό. Στον πραγματικό κόσμο, η γνώση είναι δύναμη και η δύναμη είναι συχνά περιορισμένη. Η πρόκληση για τους προγραμματιστές και τους υπεύθυνους ασφαλείας είναι να διασφαλίσουν ότι η «ψηφιακή άγνοια» των συστημάτων τους δεν θα μετατραπεί σε εταιρικό ρίσκο. Η διαφάνεια σχετικά με το τι ΔΕΝ μπορεί να γνωρίζει ένας πράκτορας είναι εξίσου σημαντική με την ακρίβεια αυτών που γνωρίζει.