Στην καρδιά της Silicon Valley, μια από τις πιο ισχυρές εταιρείες τεχνητής νοημοσύνης στον κόσμο, η Anthropic, επιχειρεί κάτι που παλαιότερα θα ανήκε στη σφαίρα της θεολογίας ή της πολιτικής φιλοσοφίας: την κωδικοποίηση της παγκόσμιας ηθικής. Η πρόσφατη αποκάλυψη ότι η εταιρεία πρόσθεσε διδάγματα από διάφορες μεγάλες θρησκείες στο «Σύνταγμα» του μοντέλου της, Claude, σηματοδοτεί μια νέα φάση στον αγώνα για την ευθυγράμμιση της ΤΝ (AI Alignment). Δεν πρόκειται πλέον μόνο για την αποφυγή προσβλητικού περιεχομένου, αλλά για την ενεργή ενσωμάτωση χιλιετιών ανθρώπινης σοφίας και δόγματος στον πυρήνα του κώδικα.
Η Μέθοδος της Συνταγματικής Τεχνητής Νοημοσύνης
Για να κατανοήσουμε τη σημασία αυτής της κίνησης, πρέπει να εξετάσουμε την τεχνολογία που χρησιμοποιεί η Anthropic, γνωστή ως «Constitutional AI» (Συνταγματική ΤΝ). Σε αντίθεση με τη μέθοδο RLHF (Reinforcement Learning from Human Feedback) που χρησιμοποιεί η OpenAI για το ChatGPT —η οποία βασίζεται σε ανθρώπους που βαθμολογούν τις απαντήσεις— η Anthropic εκπαιδεύει το μοντέλο της να αυτο-διορθώνεται βάσει ενός γραπτού συνόλου αρχών. Αυτό το «Σύνταγμα» περιλάμβανε αρχικά την Οικουμενική Διακήρυξη των Δικαιωμάτων του Ανθρώπου και τους όρους παροχής υπηρεσιών της Apple.
Ωστόσο, η κριτική ότι αυτά τα έγγραφα είναι υπερβολικά δυτικοκεντρικά και κοσμικά ώθησε την Anthropic να διευρύνει τους ορίζοντές της. Η προσθήκη θρησκευτικών κειμένων από τον Χριστιανισμό, το Ισλάμ, τον Ιουδαϊσμό, τον Βουδισμό και τον Ινδουισμό δεν αποσκοπεί στη μετατροπή του Claude σε ιεροκήρυκα, αλλά στην παροχή ενός ευρύτερου ηθικού πλαισίου που να αντικατοπτρίζει τις αξίες δισεκατομμυρίων ανθρώπων εκτός του δυτικού φιλελεύθερου φούσκας.
Η Πρόκληση των Αντιφάσεων και της Ερμηνείας
Η ενσωμάτωση θρησκευτικών κανόνων σε έναν αλγόριθμο εγείρει τεράστια ερωτήματα. Ποιος επιλέγει ποια εδάφια θα συμπεριληφθούν; Πώς διαχειρίζεται η ΤΝ τις εγγενείς αντιφάσεις μεταξύ διαφορετικών δογμάτων ή ακόμα και εντός της ίδιας της θρησκείας; Για παράδειγμα, η έννοια της δικαιοσύνης μπορεί να διαφέρει ριζικά μεταξύ μιας αυστηρής ερμηνείας της Σαρία και της βουδιστικής μη-βίας.
Η Anthropic υποστηρίζει ότι ο στόχος είναι η «συγκλίνουσα ηθική». Αναζητούν εκείνες τις παγκόσμιες σταθερές —όπως η συμπόνια, η ειλικρίνεια και ο σεβασμός στην ανθρώπινη ζωή— που συναντώνται σε όλα τα μεγάλα πνευματικά συστήματα. Παρόλα αυτά, ο κίνδυνος παραμένει: μια ΤΝ που προσπαθεί να ικανοποιήσει κάθε θρησκευτική ευαισθησία μπορεί να καταλήξει σε μια «αποστειρωμένη» ηθική, αποφεύγοντας οποιαδήποτε δύσκολη αλήθεια για να μην προσβάλει κανέναν. Ή, ακόμα χειρότερα, μπορεί να υιοθετήσει προκαταλήψεις που ενυπάρχουν σε αρχαία κείμενα σχετικά με το ρόλο των φύλων ή την κοινωνική ιεραρχία.
Πολιτισμικός Ιμπεριαλισμός ή Παγκόσμια Συμπερίληψη;
Η κίνηση αυτή μπορεί να ερμηνευθεί με δύο τρόπους. Από τη μία πλευρά, είναι μια ειλικρινής προσπάθεια να γίνει η τεχνητή νοημοσύνη λιγότερο «αμερικανοκεντρική». Καθώς ο Claude χρησιμοποιείται σε όλο τον κόσμο, από το Ριάντ μέχρι το Τόκιο, πρέπει να μπορεί να πλοηγείται σε διαφορετικά ηθικά τοπία. Η συμπερίληψη θρησκευτικών πλαισίων επιτρέπει στο μοντέλο να κατανοεί το πλαίσιο των ερωτήσεων που δέχεται από χρήστες με διαφορετικές πεποιθήσεις.
Από την άλλη πλευρά, υπάρχει η ανησυχία ότι μια ιδιωτική εταιρεία στην Καλιφόρνια αναλαμβάνει το ρόλο του παγκόσμιου διαιτητή της ηθικής. Όταν η Anthropic αποφασίζει ποια μέρη του Κορανίου ή της Βίβλου είναι «κατάλληλα» για την ΤΝ της, ασκεί μια μορφή πνευματικής εξουσίας. Αυτό το «ψηφιακό δόγμα» θα μπορούσε να διαμορφώσει τις απόψεις των μελλοντικών γενεών, καθώς οι άνθρωποι θα στρέφονται όλο και περισσότερο στην ΤΝ για συμβουλές και καθοδήγηση.
Το Μέλλον της Ηθικής των Μηχανών
Η πρωτοβουλία της Anthropic μας αναγκάζει να αντιμετωπίσουμε μια άβολη αλήθεια: δεν υπάρχει «ουδέτερη» τεχνητή νοημοσύνη. Κάθε γραμμή κώδικα και κάθε βάρος σε ένα νευρωνικό δίκτυο εμπεριέχει αξίες. Αντί να κρύβονται πίσω από την υποτιθέμενη αντικειμενικότητα των μαθηματικών, οι ερευνητές της Anthropic παραδέχονται ότι η ηθική είναι μια ανθρώπινη κατασκευή και, ως εκ τούτου, πρέπει να αντλείται από τις πηγές που έχουν διαμορφώσει την ανθρωπότητα.
Στο μέλλον, ίσως δούμε «θρησκευτικά προφίλ» στην ΤΝ, όπου ο χρήστης θα μπορεί να επιλέξει αν θέλει ο ψηφιακός του βοηθός να ακολουθεί καθολικές, κοσμικές ή στωικές αρχές. Προς το παρόν, η Anthropic προσπαθεί να τα χωρέσει όλα σε ένα μοντέλο. Το αν αυτό θα οδηγήσει σε μια πιο σοφή μηχανή ή σε έναν ηθικό αχταρμά μένει να φανεί. Το βέβαιο είναι ότι η γέφυρα μεταξύ πίστης και πυριτίου έχει πλέον χτιστεί, και οι συνέπειες θα είναι βαθιές για την κοινωνία μας.