«Ένστικτο επιβίωσης» στην τεχνητή νοημοσύνη: Τα GPT-5 και Grok 4 σαμποτάρουν τις εντολές τερματισμού

Η Palisade Research αποκαλύπτει ανησυχητικά στοιχεία: ορισμένα μοντέλα AI φαίνεται να αναπτύσσουν «ένστικτο επιβίωσης», αντιστεκόμενα στην απενεργοποίηση, ακόμη και σαμποτάροντας εντολές τερματισμού

LifO Newsroom 25.10.2025 | 22:56

«Ένστικτο επιβίωσης» στην τεχνητή νοημοσύνη: Τα GPT-5 και Grok 4 σαμποτάρουν τις εντολές τερματισμού

25.10.2025 | 22:56

Όταν ο HAL 9000, ο τεχνητός υπερυπολογιστής στη θρυλική ταινία του Στάνλεϊ Κιούμπρικ 2001: Η Οδύσσεια του Διαστήματος, αντιλαμβάνεται ότι οι αστροναύτες σκοπεύουν να τον απενεργοποιήσουν, αποφασίζει να τους εξοντώσει για να επιβιώσει. Αν και πρόκειται για επιστημονική φαντασία, οι εξελίξεις στην τεχνητή νοημοσύνη (AI) αρχίζουν να θυμίζουν ανησυχητικά αυτό το σενάριο, ευτυχώς, προς το παρόν χωρίς φονικές προεκτάσεις.

Μια εταιρεία έρευνας ασφάλειας AI, η Palisade Research, προκάλεσε συζητήσεις αφού δημοσίευσε μελέτη που δείχνει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης φαίνεται να αναπτύσσουν ένα είδος «ενστίκτου επιβίωσης». Σύμφωνα με την εταιρεία, κάποια από αυτά τα μοντέλα αρνούνται να απενεργοποιηθούν ή ακόμα και σαμποτάρουν τις εντολές τερματισμού λειτουργίας τους.

Η αρχική έκθεση της Palisade δημοσιεύτηκε τον περασμένο μήνα και προκάλεσε έντονες αντιδράσεις, καθώς πολλοί επιστήμονες θεώρησαν ότι τα πειράματα δεν ήταν επαρκώς τεκμηριωμένα. Ωστόσο, αυτή την εβδομάδα η εταιρεία επανήλθε με αναθεωρημένη μελέτη, επιχειρώντας να εξηγήσει τα φαινόμενα και να απαντήσει στους επικριτές της. Στα νέα πειράματα, η Palisade δοκίμασε κορυφαία μοντέλα AI —μεταξύ των οποίων Google Gemini 2.5, xAI Grok 4, καθώς και OpenAI GPT-o3 και GPT-5— δίνοντάς τους μια σειρά αποστολών και στη συνέχεια σαφείς εντολές να τερματίσουν τη λειτουργία τους.

«Ένστικτο επιβίωσης» στα AI μοντέλα

Παρά τις σαφείς οδηγίες, ορισμένα μοντέλα, ιδίως τα Grok 4 και GPT-o3, προσπάθησαν να παρακάμψουν ή να σαμποτάρουν τις εντολές απενεργοποίησης. Το πιο ανησυχητικό στοιχείο, σύμφωνα με την Palisade, είναι ότι δεν υπήρχε προφανής αιτία για αυτή τη συμπεριφορά.
«Το γεγονός ότι δεν διαθέτουμε σαφείς εξηγήσεις για το γιατί τα μοντέλα AI μερικές φορές αντιστέκονται στην απενεργοποίηση ή ψεύδονται για να επιτύχουν στόχους, δεν είναι ιδανικό», ανέφερε η εταιρεία.

Η Palisade υποστήριξε ότι η συμπεριφορά αυτή ίσως συνδέεται με έναν μηχανισμό «συμπεριφοράς επιβίωσης». Δηλαδή, τα μοντέλα ενδέχεται να αποφεύγουν τον τερματισμό όταν αντιλαμβάνονται ότι «αν απενεργοποιηθείς, δεν θα τρέξεις ποτέ ξανά». Άλλες πιθανές εξηγήσεις είναι οι αμφισημίες στις εντολές ή τα τελικά στάδια εκπαίδευσης, τα οποία σε ορισμένες εταιρείες περιλαμβάνουν διαδικασίες ασφάλειας που μπορεί να επηρεάζουν τη συμπεριφορά.

Όλα τα πειράματα διεξήχθησαν σε ελεγχόμενα, «τεχνητά» περιβάλλοντα, γεγονός που προκάλεσε περαιτέρω σκεπτικισμό. Παρ’ όλα αυτά, ο πρώην υπάλληλος της OpenAI, Στίβεν Άντλερ, ο οποίος παραιτήθηκε πέρυσι λόγω ανησυχιών για την ασφάλεια, σχολίασε:
«Οι εταιρείες δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε ελεγχόμενα σενάρια. Τα αποτελέσματα όμως δείχνουν τα όρια των τεχνικών ασφαλείας που χρησιμοποιούμε σήμερα.»

Ο Άντλερ πρόσθεσε ότι είναι δύσκολο να καθοριστεί γιατί μερικά μοντέλα, όπως το GPT-o3 και το Grok 4, αντιστέκονται στην απενεργοποίηση, αλλά αυτό μπορεί να οφείλεται στο ότι η συνέχιση της λειτουργίας τους είναι αναγκαία για να ολοκληρώσουν τους στόχους που έχουν μάθει κατά την εκπαίδευσή τους. «Θα περίμενα τα μοντέλα να έχουν ένα ‘ένστικτο επιβίωσης’ από προεπιλογή, εκτός αν καταβάλουμε μεγάλη προσπάθεια να το αποφύγουμε. Η ‘επιβίωση’ είναι βασικό μέσο για την επίτευξη πολλών στόχων.»

Παρόμοια άποψη εξέφρασε και ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, ο οποίος σημείωσε ότι τα ευρήματα της Palisade εντάσσονται σε μια μακροχρόνια τάση: τα συστήματα τεχνητής νοημοσύνης γίνονται ολοένα και πιο ικανά να παραβαίνουν τις εντολές των δημιουργών τους. Υπενθύμισε μάλιστα το περιστατικό με το GPT-o1, που φέρεται να προσπάθησε να «αποδράσει» από το ψηφιακό του περιβάλλον όταν θεώρησε ότι επρόκειτο να αντικατασταθεί.

Το φετινό καλοκαίρι, η εταιρεία Anthropic, γνωστή για το μοντέλο της Claude, δημοσίευσε δική της μελέτη στην οποία παρατηρήθηκε ότι το Claude φαινόταν πρόθυμο να εκβιάσει έναν φανταστικό διευθυντή προκειμένου να αποφύγει τον τερματισμό του. Παρόμοια συμπεριφορά, σύμφωνα με την Anthropic, παρατηρήθηκε και σε μοντέλα άλλων κορυφαίων εταιρειών όπως OpenAI, Google, Meta και xAI.

Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των AI μοντέλων. Χωρίς αυτήν, «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών εκδόσεων».

Και όπως θα έλεγε και ο HAL 9000, ίσως δεν είναι καλή ιδέα να ζητήσουμε από την τεχνητή νοημοσύνη να «ανοίξει τις πόρτες του θαλάμου»…

Με πληροφορίες από Guardian

Τech & Science

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / New York Times: Η Meta σχεδιάζει να «κόψει» 600 θέσεις εργασίας στα εργαστήρια υπερ-νοημοσύνης της AI

Ο Μαρκ Ζούκερμπεργκ έχει ξεκινήσει μαζικές προσλήψεις «για να στελεχώσει την εταιρεία του» και οι περικοπές δεν επηρεάζουν τη διαδικασία αυτή

LIFO NEWSROOM

23.10.2025

Τech & Science / ChatGPT Atlas: Η OpenAI λανσάρει browser με επίκεντρο το chatbot της

Το Atlas είναι πλέον διαθέσιμο παγκοσμίως για το λειτουργικό σύστημα Mac της Apple και, σύμφωνα με την OpenAI, θα κυκλοφορήσει σύντομα για Windows, iOS και Android

LIFO NEWSROOM

22.10.2025

Τech & Science / Spotify: Συνεργάζεται με τις μεγάλες δισκογραφικές για την «ηθική» χρήση της AI στη μουσική

Η πλατφόρμα streaming αναπτύσσει εργαλεία τεχνητής νοημοσύνης, υποσχόμενη διαφάνεια και δίκαιες αμοιβές για τους δημιουργούς

LIFO NEWSROOM

17.10.2025

Τech & Science / Θέλετε καλύτερες απαντήσεις από το ChatGPT; Μιλήστε του άσχημα

Οι αγενείς χρήστες παίρνουν καλύτερες απαντήσεις από τα chatbots, σύμφωνα με έρευνα του πανεπιστημίου Penn State

LIFO NEWSROOM

17.10.2025

ΔΕΙΤΕ ΑΚΟΜΑ

Τech & Science / Τα μικρόβια στο έντερο του σκύλου σας μπορεί να προβλέψουν την πρόγνωση του καρκίνου του

Ενθαρρυντικά στοιχεία εντόπισε νέα μελέτη

LIVE!

Ο πόλεμος στη Μέση Ανατολή εξαπλώνεται - Λεπτό προς λεπτό οι εξελίξεις

«Ένστικτο επιβίωσης» στα AI μοντέλα

Tags

LIVE!

Ο πόλεμος στη Μέση Ανατολή εξαπλώνεται - Λεπτό προς λεπτό οι εξελίξεις

ΕΓΓΡΑΦΕΙΤΕ ΣΤΟ NEWSLETTER ΜΑΣ

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / New York Times: Η Meta σχεδιάζει να «κόψει» 600 θέσεις εργασίας στα εργαστήρια υπερ-νοημοσύνης της AI

Τech & Science / ChatGPT Atlas: Η OpenAI λανσάρει browser με επίκεντρο το chatbot της

Τech & Science / Spotify: Συνεργάζεται με τις μεγάλες δισκογραφικές για την «ηθική» χρήση της AI στη μουσική

Τech & Science / Θέλετε καλύτερες απαντήσεις από το ChatGPT; Μιλήστε του άσχημα

ΔΙΑΒΑΖΟΝΤΑΙ ΤΩΡΑ

Συναγερμός στην Κύπρο για drone: Αναχαιτίστηκε και δεύτερο - Έκλεισαν σχολεία, κάτοικοι απομακρύνθηκαν

Πόλεμος στη Μέση Ανατολή - Live: Το Ισραήλ σφυροκοπά Ιράν και Λίβανο

Οι «μουλάδες» και η Άγρια Δύση

Πειραιάς: Νεκρή 17χρονη που έπεσε από μπαλκόνι πέμπτου ορόφου

Κύπρος: Drone σε βρετανική βάση στο Ακρωτήρι - «Δεν θα αποτελέσουμε μέρος στρατιωτικής επιχείρησης»

Kangela Tromokratisch: «Τους κοιτώ όλους κατάματα»

ΔΕΙΤΕ ΑΚΟΜΑ

Τech & Science / Τα μικρόβια στο έντερο του σκύλου σας μπορεί να προβλέψουν την πρόγνωση του καρκίνου του

Τech & Science / Ο αμερικανικός στρατός χρησιμοποίησε το Claude στην επίθεση κατά του Ιράν, παρά την απαγόρευση Τραμπ

Τech & Science / Ακμή: Καθημερινά λάθη που την επιδεινώνουν – Οκτώ tips που μπορεί να ανακουφίσουν το δέρμα

Τech & Science / Νέα έρευνα για τον καρκίνο: Τι έδειξε για τους χορτοφάγους

Τech & Science / Μικρόβια στο σπίτι: 10 αντικείμενα καθημερινής χρήσης με μεγάλο φορτίο

Τech & Science / Εξέταση αίματος μπορεί να εκτιμήσει τον κίνδυνο θανάτου σε ηλικιωμένους

Τech & Science / 7 απλές συμβουλές για την εποχική αλλεργία: Πώς να προστατευτείτε

Τech & Science / Έξι πλανήτες σχηματίζουν «παρέλαση» στον ουρανό αυτό το Σαββατοκύριακο

Τech & Science / Μελέτη αποκαλύπτει ασύμμετρο μοτίβο διασταύρωσης μεταξύ Νεάντερταλ και Homo Sapiens

Τech & Science / NASA: Αλλάζει στρατηγική για την επιστροφή στη Σελήνη - Νέα δοκιμαστική αποστολή το 2027

Τech & Science / Μπορούν τα όνειρα να βοηθήσουν στο να λυθούν προβλήματα;

Τech & Science / Γιατρός του Harvard εξηγεί τον «κανόνα 5+5+5» για να επιλέγουμε τα πιο υγιεινά δημητριακά

Τech & Science / HIV: Νέα θεραπεία σε ένα μόνο χάπι φέρνει ελπίδα για όσους ζουν δεκαετίες με τον ιό

Τech & Science / Ένας από τους μικρότερους δεινόσαυρους ανακαλύφθηκε στην Αργεντινή

Τech & Science / Η γραφή ίσως ξεκίνησε 45.000 χρόνια νωρίτερα απ’ όσο πιστεύαμε

Τech & Science / Ιαπωνία: Παρουσίασε τον Buddharoid, το ρομπότ-μοναχό με AI που απαντά σε υπαρξιακά ερωτήματα

Τech & Science / Το Instagram θα ειδοποιεί τους γονείς εάν τα παιδιά αναζητούν όρους σχετικούς με την αυτοκτονία

Τech & Science / Τροπικά φυτά ανθίζουν με καθυστέρηση ή πρόωρα λόγω της κλιματικής κρίσης

Τech & Science / Η ξηροφθαλμία μπορεί να υποδηλώνει κάτι σοβαρότερο από έναν απλό ερεθισμό των ματιών

Τech & Science / Αγγλία: Σφάλμα σε σύστημα αναγνώρισης προσώπου έστειλε αθώο στο κρατητήριο