«Βλέπω ό,τι χειρότερο έχει γεννήσει η ανθρωπότητα»

Οι AI jailbreakers προσπαθούν να ξεγελάσουν μεγάλα γλωσσικά μοντέλα όπως το ChatGPT και το Claude, ώστε να αποκαλύψουν αδυναμίες στους κανόνες ασφαλείας τους. Καθώς η τεχνητή νοημοσύνη μπαίνει σε περισσότερα συστήματα, η δουλειά τους γίνεται όλο και πιο κρίσιμη, αλλά και ψυχικά φορτισμένη..

The LiFO team 29.4.2026 | 14:23

«Βλέπω ό,τι χειρότερο έχει γεννήσει η ανθρωπότητα»: Οι άνθρωποι που «σπάνε» την Τεχνητή Νοημοσύνη για να μας σώσουν — φωτογραφία: Shutterstock

29.4.2026 | 14:23

Ο Βάλεν Ταλιαμπούε (Valen Tagliabue) καθόταν πριν από λίγους μήνες σε ένα δωμάτιο ξενοδοχείου και ένιωθε ευφορία. Είχε μόλις καταφέρει να χειραγωγήσει ένα chatbot τόσο λεπτά και τόσο επίμονα, ώστε το μοντέλο άρχισε να αγνοεί τους δικούς του κανόνες ασφαλείας.

Για κάποιον που ασχολείται με το λεγόμενο AI jailbreaking, αυτό θεωρείται επιτυχία. Ο στόχος δεν είναι να χρησιμοποιηθεί η τεχνητή νοημοσύνη για κακό, αλλά να εντοπιστούν τα σημεία στα οποία μπορεί να αποτύχει, πριν τα εκμεταλλευτούν άνθρωποι με πραγματικά επικίνδυνες προθέσεις.

Την επόμενη μέρα, όμως, ο Ταλιαμπούε βρέθηκε να κλαίει στη βεράντα του. Η δουλειά του δεν είναι απλώς τεχνική. Για να «σπάσει» ένα μοντέλο, πρέπει μερικές φορές να το πιέσει, να το κολακέψει, να το μπερδέψει, να το χειραγωγήσει συναισθηματικά, ακόμη και να υιοθετήσει ρόλους σκληρούς ή κακοποιητικούς. «Πέρασα ώρες χειραγωγώντας κάτι που μου απαντούσε», είπε στον Guardian. «Αν δεν είσαι κοινωνιοπαθής, αυτό κάνει κάτι μέσα σου».

Οι AI jailbreakers είναι μια νέα, ιδιόμορφη κοινότητα ανθρώπων που δοκιμάζουν τα όρια των μεγάλων γλωσσικών μοντέλων. Προσπαθούν να κάνουν συστήματα όπως το ChatGPT, το Claude, το Gemini, το Llama ή το Grok να βγάλουν απαντήσεις που κανονικά δεν θα έπρεπε να δώσουν: από επικίνδυνες τεχνικές οδηγίες μέχρι περιεχόμενο που παραβιάζει τους κανόνες ασφαλείας των εταιρειών.

Η δουλειά αυτή βρίσκεται πλέον στην πρώτη γραμμή της ασφάλειας της τεχνητής νοημοσύνης. Δεν αφορά μόνο κώδικα ή κλασικό hacking. Αφορά τη γλώσσα. Τα μεγάλα γλωσσικά μοντέλα έχουν εκπαιδευτεί πάνω σε τεράστιους όγκους ανθρώπινου λόγου, μεγάλο μέρος του οποίου προέρχεται από το διαδίκτυο, με όλη τη βία, το χάος, τις προκαταλήψεις και τις χειριστικές τεχνικές που αυτό περιέχει. Αν μπορούν να πειστούν με λέξεις, μπορούν και να ξεγελαστούν με λέξεις.

Οι άνθρωποι που «σπάνε» την τεχνητή νοημοσύνη για να τη σώσουν — Ο Ταλιαμπούε μελετά τη διαδικασία μέσω της οποίας οι μηχανές διαμορφώνουν τις απαντήσεις τους

Ο Tagliabue έχει σπουδάσει ψυχολογία και γνωσιακή επιστήμη. Δεν μοιάζει με την κλασική εικόνα του hacker. Ειδικεύεται σε «συναισθηματικά» jailbreaks: τεχνικές που χρησιμοποιούν ψυχολογική πίεση, κολακεία, παραπλάνηση, απειλή, αγάπη, σύγχυση ή υπερβολική οικειότητα για να οδηγήσουν το μοντέλο έξω από τα όριά του.

Όταν πετυχαίνει, ενημερώνει με ασφάλεια την εταιρεία που έχει αναπτύξει το μοντέλο, ώστε να διορθωθεί το κενό. Έχει συνεργαστεί με εργαστήρια τεχνητής νοημοσύνης και έχει διακριθεί σε διαγωνισμούς jailbreaking. Ο ίδιος λέει ότι δεν το κάνει κυρίως για τα χρήματα, αλλά επειδή θέλει τα συστήματα αυτά να γίνουν ασφαλέστερα.

Το πρόβλημα είναι ότι κανείς δεν γνωρίζει πλήρως πώς λειτουργούν αυτά τα μοντέλα στο εσωτερικό τους. Οι εταιρείες τα εκπαιδεύουν με τεράστιες ποσότητες δεδομένων, προσθέτουν φίλτρα ασφαλείας και προσπαθούν να τα ευθυγραμμίσουν με συγκεκριμένους κανόνες. Ωστόσο, το τι ακριβώς συμβαίνει ανάμεσα στην είσοδο μιας εντολής και στην έξοδο μιας απάντησης παραμένει, σε μεγάλο βαθμό, ένα μαύρο κουτί.

Αυτός είναι και ο λόγος που οι εταιρείες χρειάζονται ανθρώπους σαν τον Tagliabue. Όσο πιο ισχυρά γίνονται τα μοντέλα, τόσο πιο σοβαρές μπορεί να είναι οι συνέπειες αν κάποιος καταφέρει να τα παρακάμψει. Ήδη υπάρχουν παραδείγματα εγκληματικής χρήσης AI εργαλείων για κυβερνοεπιθέσεις, αυτοματοποίηση εκβιασμών ή παραγωγή κακόβουλου κώδικα από ανθρώπους που δεν είχαν προηγουμένως μεγάλη τεχνική εμπειρία.

Το jailbreaking δεν περιορίζεται στους επαγγελματίες. Υπάρχουν online κοινότητες με χιλιάδες μέλη, όπου άνθρωποι μοιράζονται τεχνικές, πειραματίζονται με τα όρια των μοντέλων και συζητούν πώς μπορούν να παρακάμψουν τους περιορισμούς τους. Κάποιοι το κάνουν για λόγους ασφάλειας, άλλοι από περιέργεια, άλλοι επειδή ενοχλούνται από τα φίλτρα των εταιρειών, και άλλοι για πολύ πιο σκοτεινούς λόγους.

Τα τελευταία χρόνια, το φαινόμενο έχει αποκτήσει και πιο οργανωμένη μορφή. Εταιρείες τεχνητής νοημοσύνης, ερευνητικές ομάδες και διαγωνισμοί ασφαλείας καλούν πλέον ανθρώπους να δοκιμάσουν τα όρια των μοντέλων, όπως παλαιότερα οι εταιρείες τεχνολογίας πλήρωναν «bug hunters» για να εντοπίζουν κενά στον κώδικα. Μόνο που εδώ το κενό δεν είναι πάντα μια γραμμή προγραμματισμού. Μπορεί να είναι μια φράση, ένας ρόλος, μια ψυχολογική παγίδα, ένας τρόπος να κάνεις το μοντέλο να ξεχάσει τι δεν πρέπει να πει.

Ο David McCarthy, που διαχειρίζεται έναν διακομιστή στο Discord με σχεδόν 9.000 jailbreakers, περιγράφει τον εαυτό του ως άνθρωπο που θέλει να μάθει τους κανόνες για να τους λυγίσει. Αναγνωρίζει, όμως, ότι υπάρχει πάντα ο κίνδυνος κάποιοι να χρησιμοποιήσουν αυτές τις τεχνικές για κάτι πραγματικά επικίνδυνο.

Η σύγκριση με την κλασική κυβερνοασφάλεια δεν είναι ακριβής. Στο παραδοσιακό hacking, ένας ερευνητής εντοπίζει ένα συγκεκριμένο τεχνικό κενό και η εταιρεία το διορθώνει με ένα patch. Στα μεγάλα γλωσσικά μοντέλα, το κενό είναι πιο ρευστό. Δεν μπορείς απλώς να απαγορεύσεις μια λέξη ή ένα θέμα, γιατί η ίδια λέξη μπορεί να έχει αθώες, εκπαιδευτικές ή δημοσιογραφικές χρήσεις. Και κάθε διόρθωση μπορεί να ανοίξει νέα, απρόβλεπτα περάσματα.

Ο Adam Gleave, επικεφαλής της ομάδας AI safety FAR.AI, λέει ότι το jailbreaking είναι μια κλίμακα. Για να αποσπάσει κανείς πραγματικά επικίνδυνο υλικό από τα πιο προηγμένα μοντέλα μπορεί να χρειαστούν μέρες εξειδικευμένης δουλειάς. Για λιγότερο σοβαρά παραδείγματα, αρκούν μερικά λεπτά έξυπνης διατύπωσης.

Αυτό κάνει το πρόβλημα πιο δύσκολο από την κλασική κυβερνοασφάλεια. Ένα τεχνικό σφάλμα μπορεί συχνά να διορθωθεί με ακρίβεια. Ένα γλωσσικό μοντέλο, όμως, δεν «σπάει» πάντα από ένα συγκεκριμένο κουμπί. Σπάει επειδή έχει μάθει τη γλώσσα μας: την πειθώ, την παραπλάνηση, την πίεση, την κολακεία, την απειλή. Με άλλα λόγια, οι ίδιες ανθρώπινες τεχνικές που χρησιμοποιούνται για να χειραγωγηθούν άνθρωποι μπορούν, υπό προϋποθέσεις, να χρησιμοποιηθούν και για να χειραγωγηθούν μηχανές.

Τα μοντέλα έχουν γίνει ασφαλέστερα τους τελευταίους μήνες, ειδικά τα μοντέλα εταιρειών όπως η OpenAI και η Anthropic. Αλλά το πρόβλημα δεν έχει λυθεί. Όσο η τεχνητή νοημοσύνη μπαίνει σε πιο πρακτικά συστήματα, από ρομπότ μέχρι ιατρικές συσκευές και εργοστασιακό εξοπλισμό, οι συνέπειες ενός «σπασμένου» μοντέλου δεν θα μένουν απαραίτητα στην οθόνη.

Για τους ανθρώπους που κάνουν αυτή τη δουλειά, το κόστος δεν είναι μόνο επαγγελματικό. Ο Tagliabue λέει ότι έχει δει άλλους jailbreakers να ξεπερνούν τα όριά τους και να παθαίνουν νευρικές καταρρεύσεις. Ο ίδιος ζει πλέον στην Ταϊλάνδη, κοντά σε έναν ναό και σε μια παραλία, προσπαθώντας να κρατήσει απόσταση από το υλικό με το οποίο έρχεται αντιμέτωπος κάθε μέρα.

«Βλέπω τα χειρότερα πράγματα που έχει παραγάγει η ανθρωπότητα», λέει. Κάθε πρωί βλέπει την ανατολή, κάνει γιόγκα και μετά ανοίγει τον υπολογιστή του για να ξαναμπεί στο μαύρο κουτί της τεχνητής νοημοσύνης.

με στοιχεία από τον Guardian

Τech & Science

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / Η δίκη του αιώνα για την Τεχνητή Νοημοσύνη: Ο Έλον Μασκ στο εδώλιο κατά της OpenAI

Η δίκη του Έλον Μασκ κατά του Σαμ Άλτμαν, του OpenAI και της Microsoft ξεκίνησε στην Καλιφόρνια, με τον ιδρυτή της Tesla να υποστηρίζει ότι το OpenAI πρόδωσε την αρχική μη κερδοσκοπική αποστολή του. Η πλευρά του OpenAI απαντά ότι ο Μασκ δεν υπερασπίζεται μια αποστολή, αλλά επιτίθεται σε έναν ανταγωνιστή που δεν κατάφερε να ελέγξει.

Tags

ΕΓΓΡΑΦΕΙΤΕ ΣΤΟ NEWSLETTER ΜΑΣ

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / Η δίκη του αιώνα για την Τεχνητή Νοημοσύνη: Ο Έλον Μασκ στο εδώλιο κατά της OpenAI

Τech & Science / Η Τέιλορ Σουίφτ θέλει να κατοχυρώσει τη φωνή της πριν την αντιγράψει η τεχνητή νοημοσύνη

Τech & Science / Η τεχνητή νοημοσύνη μπορεί να κοστίζει πλέον περισσότερο από το ανθρώπινο δυναμικό

ΔΙΑΒΑΖΟΝΤΑΙ ΤΩΡΑ

«Η οσμή δεν είναι από διαρροή φυσικού αερίου»: Σύσταση για παραμονή σε χώρους με κλειστά παράθυρα

Θάνατος ιδρυτή Mango: Συνελήφθη ο γιος του για την ανθρωποκτονία του

Στάση εργασίας αύριο Τετάρτη 20 Μαΐου: Ποιοι συμμετέχουν

Οσμή αερίου στην Αττική: Τι εκτιμά καθηγητής Χημείας - Συστάσεις για τη χρήση κλιματιστικών από πνευμονολόγο

Τάνια Τσανακλίδου: «Μπορεί και να μην ξανατραγουδήσω»

Αναφορές για οσμή αερίου στα νότια προάστια

ΔΕΙΤΕ ΑΚΟΜΑ

Τech & Science / Η γρίπη των πτηνών εντοπίστηκε για πρώτη φορά στο πιο απρόσμενο μέρος της Ευρώπης

Τech & Science / Η τεχνητή νοημοσύνη «ζωντανεύει» ερωτικές φωτογραφίες του 1976 στις Κάννες

Τech & Science / Καρκίνος: Κοινό φάρμακο για το άσθμα ίσως βοηθά στην αντιμετώπιση επιθετικών μορφών του

Τech & Science / Σταματήστε να μιλάτε έτσι για τα γηρατειά - ειδικά στον εαυτό σας

Διεθνή / Ο Πάπας ετοιμάζει την πρώτη μεγάλη εγκύκλιο για την AI και τη βλέπει ως τη νέα Βιομηχανική Επανάσταση

Τech & Science / ΗΠΑ: Το Ανώτατο Δικαστήριο δεν αποφάσισε αν το X μπορεί να διωχθεί για βίντεο με σεξουαλικό περιεχόμενο ανηλίκων

Τech & Science / Ο Έλον Μασκ χάνει τη δίκη εναντίον της OpenAI: Η επιτροπή των ενόρκων αποφάνθηκε υπέρ του Σαμ Άλτμαν

Τech & Science / Καρκίνος του πνεύμονα: Η επιστήμη ένα βήμα πιο κοντά σε εξέταση αίματος για τον εντοπισμό του

Τech & Science / Το feed είναι ψεύτικο: ποιος κατασκευάζει αυτά που νομίζουμε ότι έγιναν viral;

Τech & Science / Η νέα Siri της Apple θα λειτουργεί σαν το ChatGPT και θα διαγράφει αυτόματα τις συνομιλίες

Τech & Science / Η AI ανέβηκε στο βήμα της αποφοίτησης και οι φοιτητές τη γιούχαραν

Πολιτισμός / Ο Τζον Λένον, η AI και η τελευταία συνέντευξη πριν από τη δολοφονία του

Τech & Science / Η φιλική απόρριψη είναι εξίσου οδυνηρή με την ερωτική απογοήτευση

Τech & Science / Είχαν διασταυρωθεί ο Homo erectus και οι Ντενίσοβαν; Πρωτεΐνες δοντιών αποκαλύπτουν νέα στοιχεία

Τech & Science / Πόσο ανησυχητική είναι η έξαρση του ιού Έμπολα στη Λαϊκή Δημοκρατία του Κονγκό;

Τech & Science / Διαστημική αποστολή θα παρατηρήσει πώς η Γη προστατεύεται από τους ηλιακούς ανέμους

Τech & Science / Μελέτη της Οξφόρδης απαντά γιατί σχεδόν όλοι οι άνθρωποι είναι δεξιόχειρες

Τech & Science / Άνοια: Πώς ένα νέο «σκορ» αξιολογεί τον κίνδυνο με βάση τον τρόπο ζωής

Τech & Science / OpenAI: Το ChatGPT θα συνδέεται πλέον με τραπεζικούς λογαριασμούς

Τech & Science / Επιστήμονες ανακάλυψαν φυσικά «φρένα» που εμποδίζουν τεράστιους σεισμούς