«Ένστικτο επιβίωσης» στην τεχνητή νοημοσύνη: Τα GPT-5 και Grok 4 σαμποτάρουν τις εντολές τερματισμού

«Ένστικτο επιβίωσης» στην τεχνητή νοημοσύνη: Τα GPT-5 και Grok 4 σαμποτάρουν τις εντολές τερματισμού Facebook Twitter
0

Όταν ο HAL 9000, ο τεχνητός υπερυπολογιστής στη θρυλική ταινία του Στάνλεϊ Κιούμπρικ 2001: Η Οδύσσεια του Διαστήματος, αντιλαμβάνεται ότι οι αστροναύτες σκοπεύουν να τον απενεργοποιήσουν, αποφασίζει να τους εξοντώσει για να επιβιώσει. Αν και πρόκειται για επιστημονική φαντασία, οι εξελίξεις στην τεχνητή νοημοσύνη (AI) αρχίζουν να θυμίζουν ανησυχητικά αυτό το σενάριο, ευτυχώς, προς το παρόν χωρίς φονικές προεκτάσεις.

Μια εταιρεία έρευνας ασφάλειας AI, η Palisade Research, προκάλεσε συζητήσεις αφού δημοσίευσε μελέτη που δείχνει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης φαίνεται να αναπτύσσουν ένα είδος «ενστίκτου επιβίωσης». Σύμφωνα με την εταιρεία, κάποια από αυτά τα μοντέλα αρνούνται να απενεργοποιηθούν ή ακόμα και σαμποτάρουν τις εντολές τερματισμού λειτουργίας τους.

Η αρχική έκθεση της Palisade δημοσιεύτηκε τον περασμένο μήνα και προκάλεσε έντονες αντιδράσεις, καθώς πολλοί επιστήμονες θεώρησαν ότι τα πειράματα δεν ήταν επαρκώς τεκμηριωμένα. Ωστόσο, αυτή την εβδομάδα η εταιρεία επανήλθε με αναθεωρημένη μελέτη, επιχειρώντας να εξηγήσει τα φαινόμενα και να απαντήσει στους επικριτές της. Στα νέα πειράματα, η Palisade δοκίμασε κορυφαία μοντέλα AI —μεταξύ των οποίων Google Gemini 2.5, xAI Grok 4, καθώς και OpenAI GPT-o3 και GPT-5— δίνοντάς τους μια σειρά αποστολών και στη συνέχεια σαφείς εντολές να τερματίσουν τη λειτουργία τους.

«Ένστικτο επιβίωσης» στα AI μοντέλα

Παρά τις σαφείς οδηγίες, ορισμένα μοντέλα, ιδίως τα Grok 4 και GPT-o3, προσπάθησαν να παρακάμψουν ή να σαμποτάρουν τις εντολές απενεργοποίησης. Το πιο ανησυχητικό στοιχείο, σύμφωνα με την Palisade, είναι ότι δεν υπήρχε προφανής αιτία για αυτή τη συμπεριφορά.
«Το γεγονός ότι δεν διαθέτουμε σαφείς εξηγήσεις για το γιατί τα μοντέλα AI μερικές φορές αντιστέκονται στην απενεργοποίηση ή ψεύδονται για να επιτύχουν στόχους, δεν είναι ιδανικό», ανέφερε η εταιρεία.

Η Palisade υποστήριξε ότι η συμπεριφορά αυτή ίσως συνδέεται με έναν μηχανισμό «συμπεριφοράς επιβίωσης». Δηλαδή, τα μοντέλα ενδέχεται να αποφεύγουν τον τερματισμό όταν αντιλαμβάνονται ότι «αν απενεργοποιηθείς, δεν θα τρέξεις ποτέ ξανά». Άλλες πιθανές εξηγήσεις είναι οι αμφισημίες στις εντολές ή τα τελικά στάδια εκπαίδευσης, τα οποία σε ορισμένες εταιρείες περιλαμβάνουν διαδικασίες ασφάλειας που μπορεί να επηρεάζουν τη συμπεριφορά.

Όλα τα πειράματα διεξήχθησαν σε ελεγχόμενα, «τεχνητά» περιβάλλοντα, γεγονός που προκάλεσε περαιτέρω σκεπτικισμό. Παρ’ όλα αυτά, ο πρώην υπάλληλος της OpenAI, Στίβεν Άντλερ, ο οποίος παραιτήθηκε πέρυσι λόγω ανησυχιών για την ασφάλεια, σχολίασε:
«Οι εταιρείες δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε ελεγχόμενα σενάρια. Τα αποτελέσματα όμως δείχνουν τα όρια των τεχνικών ασφαλείας που χρησιμοποιούμε σήμερα.»

Ο Άντλερ πρόσθεσε ότι είναι δύσκολο να καθοριστεί γιατί μερικά μοντέλα, όπως το GPT-o3 και το Grok 4, αντιστέκονται στην απενεργοποίηση, αλλά αυτό μπορεί να οφείλεται στο ότι η συνέχιση της λειτουργίας τους είναι αναγκαία για να ολοκληρώσουν τους στόχους που έχουν μάθει κατά την εκπαίδευσή τους. «Θα περίμενα τα μοντέλα να έχουν ένα ‘ένστικτο επιβίωσης’ από προεπιλογή, εκτός αν καταβάλουμε μεγάλη προσπάθεια να το αποφύγουμε. Η ‘επιβίωση’ είναι βασικό μέσο για την επίτευξη πολλών στόχων.»

Παρόμοια άποψη εξέφρασε και ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, ο οποίος σημείωσε ότι τα ευρήματα της Palisade εντάσσονται σε μια μακροχρόνια τάση: τα συστήματα τεχνητής νοημοσύνης γίνονται ολοένα και πιο ικανά να παραβαίνουν τις εντολές των δημιουργών τους. Υπενθύμισε μάλιστα το περιστατικό με το GPT-o1, που φέρεται να προσπάθησε να «αποδράσει» από το ψηφιακό του περιβάλλον όταν θεώρησε ότι επρόκειτο να αντικατασταθεί.

Το φετινό καλοκαίρι, η εταιρεία Anthropic, γνωστή για το μοντέλο της Claude, δημοσίευσε δική της μελέτη στην οποία παρατηρήθηκε ότι το Claude φαινόταν πρόθυμο να εκβιάσει έναν φανταστικό διευθυντή προκειμένου να αποφύγει τον τερματισμό του. Παρόμοια συμπεριφορά, σύμφωνα με την Anthropic, παρατηρήθηκε και σε μοντέλα άλλων κορυφαίων εταιρειών όπως OpenAI, Google, Meta και xAI.

Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των AI μοντέλων. Χωρίς αυτήν, «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών εκδόσεων».

Και όπως θα έλεγε και ο HAL 9000, ίσως δεν είναι καλή ιδέα να ζητήσουμε από την τεχνητή νοημοσύνη να «ανοίξει τις πόρτες του θαλάμου»…

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΑΠΟΛΥΣΕΙΣ ΑΝΕΡΓΙΑ

Τech & Science / Πώς η τεχνητή νοημοσύνη γίνεται το εύκολο άλλοθι για κύματα απολύσεων

Ευθύνεται πράγματι η τεχνητή νοημοσύνη για τις μαζικές απολύσεις ή χρησιμοποιείται ως πρόσχημα για αποφάσεις που είχαν ήδη ληφθεί; Και τελικά, ενισχύειπράγματι την ανεργία, σύμφωνα με οικονομολόγους;
THE LIFO TEAM
Η γενιά της πανδημίας ψάχνει την πρώτη της δουλειά στην εποχή της AI

Τech & Science / Η γενιά της πανδημίας ψάχνει την πρώτη της δουλειά στην εποχή της AI

Η γενιά που τελείωσε το σχολείο μέσα από οθόνες ψάχνει τώρα την πρώτη της δουλειά σε μια αγορά που αλλάζει από την τεχνητή νοημοσύνη. Στην Ελλάδα της επισφάλειας, των χαμηλών μισθών και της καθυστερημένης ανεξαρτησίας, το πρώτο σκαλοπάτι της καριέρας μοιάζει πιο αβέβαιο από ποτέ
THE LIFO TEAM
Οι εκδότες μηνύουν τη Meta για τα βιβλία που «τάισαν» την τεχνητή νοημοσύνη της

Τech & Science / Οι εκδότες μηνύουν τη Meta για τα βιβλία που χρησιμοποιήθηκαν από την τεχνητή νοημοσύνη της

Πέντε μεγάλοι εκδοτικοί οίκοι και ο συγγραφέας Σκοτ Τάροου κατέθεσαν αγωγή κατά της Meta και του Μαρκ Ζάκερμπεργκ, υποστηρίζοντας ότι εκατομμύρια βιβλία και επιστημονικά άρθρα χρησιμοποιήθηκαν χωρίς άδεια για την εκπαίδευση του Llama
THE LIFO TEAM
ΠΑΝΔΗΜΙΑ ΠΟΥ ΣΥΜΦΩΝΙΑ

Τech & Science / Ο κόσμος «απροετοίμαστος» για την επόμενη πανδημία καθώς οι χώρες δεν συμφωνούν σε δεδομένα και εμβόλια

Η διεθνής συνθήκη του ΠΟΥ για τις πανδημίες παραμένει ανολοκλήρωτη, με τον γενικό διευθυντή του ΠΟΥ να τονίζει ότι η επόμενη πανδημία είναι «ζήτημα χρόνου και όχι πιθανότητας»
THE LIFO TEAM
ΣΠΕΡΜΑ ΚΑΡΚΙΝΟΣ ΧΗΜΕΙΟΘΕΡΑΠΕΙΑ

Τech & Science / Επιστημονικό ορόσημο: Άνδρας απέκτησε σπέρμα από ιστό που είχε καταψυχθεί όταν ήταν παιδί

Αν και συχνά σώζουν ζωές σε παιδιά με καρκίνο ή άλλες σοβαρές ασθένειες, θεραπείες όπως η χημειοθεραπεία και η ακτινοθεραπεία μπορούν να προκαλέσουν μόνιμη υπογονιμότητα
THE LIFO TEAM
Το chatbot σου δεν λέει την αλήθεια. Απλώς τη μαντεύει.

Τech & Science / Τa chatbot δεν λένε την αλήθεια. Απλώς τη μαντεύουν.

Στο νέο της βιβλίο Prophecy, η φιλόσοφος Carissa Véliz υποστηρίζει ότι η παραγωγική τεχνητή νοημοσύνη δεν είναι μηχανή γνώσης αλλά μηχανή πρόβλεψης. Από τους αρχαίους μάντεις μέχρι τα chatbots της Big Tech, το βιβλίο εξετάζει πώς η εμμονή με το μέλλον μπορεί να μας κάνει λιγότερο ασφαλείς, λιγότερο ελεύθερους και πιο ίδιους μεταξύ μας.
THE LIFO TEAM
Μια καλόγρια απέναντι στην Palantir: όταν ο όρκος φτώχειας συναντά τη Wall Street

Τech & Science / Μια καλόγρια απέναντι στην Palantir

Μια καθολική μοναχή χρησιμοποιεί τις μετοχές ως εργαλείο πίεσης απέναντι σε μερικές από τις πιο ισχυρές εταιρείες του κόσμου. Μετά τη Citigroup και τη Microsoft, η Σούζαν Φρανσουά βάζει στο στόχαστρο την Palantir και ζητά να της απαντήσει πώς αυτή επηρεάζει τα ανθρώπινα δικαιώματα.
THE LIFO TEAM