Ο Βάλεν Ταλιαμπούε (Valen Tagliabue) καθόταν πριν από λίγους μήνες σε ένα δωμάτιο ξενοδοχείου και ένιωθε ευφορία. Είχε μόλις καταφέρει να χειραγωγήσει ένα chatbot τόσο λεπτά και τόσο επίμονα, ώστε το μοντέλο άρχισε να αγνοεί τους δικούς του κανόνες ασφαλείας.
Για κάποιον που ασχολείται με το λεγόμενο AI jailbreaking, αυτό θεωρείται επιτυχία. Ο στόχος δεν είναι να χρησιμοποιηθεί η τεχνητή νοημοσύνη για κακό, αλλά να εντοπιστούν τα σημεία στα οποία μπορεί να αποτύχει, πριν τα εκμεταλλευτούν άνθρωποι με πραγματικά επικίνδυνες προθέσεις.
Την επόμενη μέρα, όμως, ο Ταλιαμπούε βρέθηκε να κλαίει στη βεράντα του. Η δουλειά του δεν είναι απλώς τεχνική. Για να «σπάσει» ένα μοντέλο, πρέπει μερικές φορές να το πιέσει, να το κολακέψει, να το μπερδέψει, να το χειραγωγήσει συναισθηματικά, ακόμη και να υιοθετήσει ρόλους σκληρούς ή κακοποιητικούς. «Πέρασα ώρες χειραγωγώντας κάτι που μου απαντούσε», είπε στον Guardian. «Αν δεν είσαι κοινωνιοπαθής, αυτό κάνει κάτι μέσα σου».
Οι AI jailbreakers είναι μια νέα, ιδιόμορφη κοινότητα ανθρώπων που δοκιμάζουν τα όρια των μεγάλων γλωσσικών μοντέλων. Προσπαθούν να κάνουν συστήματα όπως το ChatGPT, το Claude, το Gemini, το Llama ή το Grok να βγάλουν απαντήσεις που κανονικά δεν θα έπρεπε να δώσουν: από επικίνδυνες τεχνικές οδηγίες μέχρι περιεχόμενο που παραβιάζει τους κανόνες ασφαλείας των εταιρειών.
Η δουλειά αυτή βρίσκεται πλέον στην πρώτη γραμμή της ασφάλειας της τεχνητής νοημοσύνης. Δεν αφορά μόνο κώδικα ή κλασικό hacking. Αφορά τη γλώσσα. Τα μεγάλα γλωσσικά μοντέλα έχουν εκπαιδευτεί πάνω σε τεράστιους όγκους ανθρώπινου λόγου, μεγάλο μέρος του οποίου προέρχεται από το διαδίκτυο, με όλη τη βία, το χάος, τις προκαταλήψεις και τις χειριστικές τεχνικές που αυτό περιέχει. Αν μπορούν να πειστούν με λέξεις, μπορούν και να ξεγελαστούν με λέξεις.
Ο Tagliabue έχει σπουδάσει ψυχολογία και γνωσιακή επιστήμη. Δεν μοιάζει με την κλασική εικόνα του hacker. Ειδικεύεται σε «συναισθηματικά» jailbreaks: τεχνικές που χρησιμοποιούν ψυχολογική πίεση, κολακεία, παραπλάνηση, απειλή, αγάπη, σύγχυση ή υπερβολική οικειότητα για να οδηγήσουν το μοντέλο έξω από τα όριά του.
Όταν πετυχαίνει, ενημερώνει με ασφάλεια την εταιρεία που έχει αναπτύξει το μοντέλο, ώστε να διορθωθεί το κενό. Έχει συνεργαστεί με εργαστήρια τεχνητής νοημοσύνης και έχει διακριθεί σε διαγωνισμούς jailbreaking. Ο ίδιος λέει ότι δεν το κάνει κυρίως για τα χρήματα, αλλά επειδή θέλει τα συστήματα αυτά να γίνουν ασφαλέστερα.
Το πρόβλημα είναι ότι κανείς δεν γνωρίζει πλήρως πώς λειτουργούν αυτά τα μοντέλα στο εσωτερικό τους. Οι εταιρείες τα εκπαιδεύουν με τεράστιες ποσότητες δεδομένων, προσθέτουν φίλτρα ασφαλείας και προσπαθούν να τα ευθυγραμμίσουν με συγκεκριμένους κανόνες. Ωστόσο, το τι ακριβώς συμβαίνει ανάμεσα στην είσοδο μιας εντολής και στην έξοδο μιας απάντησης παραμένει, σε μεγάλο βαθμό, ένα μαύρο κουτί.
Αυτός είναι και ο λόγος που οι εταιρείες χρειάζονται ανθρώπους σαν τον Tagliabue. Όσο πιο ισχυρά γίνονται τα μοντέλα, τόσο πιο σοβαρές μπορεί να είναι οι συνέπειες αν κάποιος καταφέρει να τα παρακάμψει. Ήδη υπάρχουν παραδείγματα εγκληματικής χρήσης AI εργαλείων για κυβερνοεπιθέσεις, αυτοματοποίηση εκβιασμών ή παραγωγή κακόβουλου κώδικα από ανθρώπους που δεν είχαν προηγουμένως μεγάλη τεχνική εμπειρία.
Το jailbreaking δεν περιορίζεται στους επαγγελματίες. Υπάρχουν online κοινότητες με χιλιάδες μέλη, όπου άνθρωποι μοιράζονται τεχνικές, πειραματίζονται με τα όρια των μοντέλων και συζητούν πώς μπορούν να παρακάμψουν τους περιορισμούς τους. Κάποιοι το κάνουν για λόγους ασφάλειας, άλλοι από περιέργεια, άλλοι επειδή ενοχλούνται από τα φίλτρα των εταιρειών, και άλλοι για πολύ πιο σκοτεινούς λόγους.
Τα τελευταία χρόνια, το φαινόμενο έχει αποκτήσει και πιο οργανωμένη μορφή. Εταιρείες τεχνητής νοημοσύνης, ερευνητικές ομάδες και διαγωνισμοί ασφαλείας καλούν πλέον ανθρώπους να δοκιμάσουν τα όρια των μοντέλων, όπως παλαιότερα οι εταιρείες τεχνολογίας πλήρωναν «bug hunters» για να εντοπίζουν κενά στον κώδικα. Μόνο που εδώ το κενό δεν είναι πάντα μια γραμμή προγραμματισμού. Μπορεί να είναι μια φράση, ένας ρόλος, μια ψυχολογική παγίδα, ένας τρόπος να κάνεις το μοντέλο να ξεχάσει τι δεν πρέπει να πει.
Ο David McCarthy, που διαχειρίζεται έναν διακομιστή στο Discord με σχεδόν 9.000 jailbreakers, περιγράφει τον εαυτό του ως άνθρωπο που θέλει να μάθει τους κανόνες για να τους λυγίσει. Αναγνωρίζει, όμως, ότι υπάρχει πάντα ο κίνδυνος κάποιοι να χρησιμοποιήσουν αυτές τις τεχνικές για κάτι πραγματικά επικίνδυνο.
Η σύγκριση με την κλασική κυβερνοασφάλεια δεν είναι ακριβής. Στο παραδοσιακό hacking, ένας ερευνητής εντοπίζει ένα συγκεκριμένο τεχνικό κενό και η εταιρεία το διορθώνει με ένα patch. Στα μεγάλα γλωσσικά μοντέλα, το κενό είναι πιο ρευστό. Δεν μπορείς απλώς να απαγορεύσεις μια λέξη ή ένα θέμα, γιατί η ίδια λέξη μπορεί να έχει αθώες, εκπαιδευτικές ή δημοσιογραφικές χρήσεις. Και κάθε διόρθωση μπορεί να ανοίξει νέα, απρόβλεπτα περάσματα.
Ο Adam Gleave, επικεφαλής της ομάδας AI safety FAR.AI, λέει ότι το jailbreaking είναι μια κλίμακα. Για να αποσπάσει κανείς πραγματικά επικίνδυνο υλικό από τα πιο προηγμένα μοντέλα μπορεί να χρειαστούν μέρες εξειδικευμένης δουλειάς. Για λιγότερο σοβαρά παραδείγματα, αρκούν μερικά λεπτά έξυπνης διατύπωσης.
Αυτό κάνει το πρόβλημα πιο δύσκολο από την κλασική κυβερνοασφάλεια. Ένα τεχνικό σφάλμα μπορεί συχνά να διορθωθεί με ακρίβεια. Ένα γλωσσικό μοντέλο, όμως, δεν «σπάει» πάντα από ένα συγκεκριμένο κουμπί. Σπάει επειδή έχει μάθει τη γλώσσα μας: την πειθώ, την παραπλάνηση, την πίεση, την κολακεία, την απειλή. Με άλλα λόγια, οι ίδιες ανθρώπινες τεχνικές που χρησιμοποιούνται για να χειραγωγηθούν άνθρωποι μπορούν, υπό προϋποθέσεις, να χρησιμοποιηθούν και για να χειραγωγηθούν μηχανές.
Τα μοντέλα έχουν γίνει ασφαλέστερα τους τελευταίους μήνες, ειδικά τα μοντέλα εταιρειών όπως η OpenAI και η Anthropic. Αλλά το πρόβλημα δεν έχει λυθεί. Όσο η τεχνητή νοημοσύνη μπαίνει σε πιο πρακτικά συστήματα, από ρομπότ μέχρι ιατρικές συσκευές και εργοστασιακό εξοπλισμό, οι συνέπειες ενός «σπασμένου» μοντέλου δεν θα μένουν απαραίτητα στην οθόνη.
Για τους ανθρώπους που κάνουν αυτή τη δουλειά, το κόστος δεν είναι μόνο επαγγελματικό. Ο Tagliabue λέει ότι έχει δει άλλους jailbreakers να ξεπερνούν τα όριά τους και να παθαίνουν νευρικές καταρρεύσεις. Ο ίδιος ζει πλέον στην Ταϊλάνδη, κοντά σε έναν ναό και σε μια παραλία, προσπαθώντας να κρατήσει απόσταση από το υλικό με το οποίο έρχεται αντιμέτωπος κάθε μέρα.
«Βλέπω τα χειρότερα πράγματα που έχει παραγάγει η ανθρωπότητα», λέει. Κάθε πρωί βλέπει την ανατολή, κάνει γιόγκα και μετά ανοίγει τον υπολογιστή του για να ξαναμπεί στο μαύρο κουτί της τεχνητής νοημοσύνης.
με στοιχεία από τον Guardian