«Ένστικτο επιβίωσης» στην τεχνητή νοημοσύνη: Τα GPT-5 και Grok 4 σαμποτάρουν τις εντολές τερματισμού

«Ένστικτο επιβίωσης» στην τεχνητή νοημοσύνη: Τα GPT-5 και Grok 4 σαμποτάρουν τις εντολές τερματισμού Facebook Twitter
0

Όταν ο HAL 9000, ο τεχνητός υπερυπολογιστής στη θρυλική ταινία του Στάνλεϊ Κιούμπρικ 2001: Η Οδύσσεια του Διαστήματος, αντιλαμβάνεται ότι οι αστροναύτες σκοπεύουν να τον απενεργοποιήσουν, αποφασίζει να τους εξοντώσει για να επιβιώσει. Αν και πρόκειται για επιστημονική φαντασία, οι εξελίξεις στην τεχνητή νοημοσύνη (AI) αρχίζουν να θυμίζουν ανησυχητικά αυτό το σενάριο, ευτυχώς, προς το παρόν χωρίς φονικές προεκτάσεις.

Μια εταιρεία έρευνας ασφάλειας AI, η Palisade Research, προκάλεσε συζητήσεις αφού δημοσίευσε μελέτη που δείχνει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης φαίνεται να αναπτύσσουν ένα είδος «ενστίκτου επιβίωσης». Σύμφωνα με την εταιρεία, κάποια από αυτά τα μοντέλα αρνούνται να απενεργοποιηθούν ή ακόμα και σαμποτάρουν τις εντολές τερματισμού λειτουργίας τους.

Η αρχική έκθεση της Palisade δημοσιεύτηκε τον περασμένο μήνα και προκάλεσε έντονες αντιδράσεις, καθώς πολλοί επιστήμονες θεώρησαν ότι τα πειράματα δεν ήταν επαρκώς τεκμηριωμένα. Ωστόσο, αυτή την εβδομάδα η εταιρεία επανήλθε με αναθεωρημένη μελέτη, επιχειρώντας να εξηγήσει τα φαινόμενα και να απαντήσει στους επικριτές της. Στα νέα πειράματα, η Palisade δοκίμασε κορυφαία μοντέλα AI —μεταξύ των οποίων Google Gemini 2.5, xAI Grok 4, καθώς και OpenAI GPT-o3 και GPT-5— δίνοντάς τους μια σειρά αποστολών και στη συνέχεια σαφείς εντολές να τερματίσουν τη λειτουργία τους.

«Ένστικτο επιβίωσης» στα AI μοντέλα

Παρά τις σαφείς οδηγίες, ορισμένα μοντέλα, ιδίως τα Grok 4 και GPT-o3, προσπάθησαν να παρακάμψουν ή να σαμποτάρουν τις εντολές απενεργοποίησης. Το πιο ανησυχητικό στοιχείο, σύμφωνα με την Palisade, είναι ότι δεν υπήρχε προφανής αιτία για αυτή τη συμπεριφορά.
«Το γεγονός ότι δεν διαθέτουμε σαφείς εξηγήσεις για το γιατί τα μοντέλα AI μερικές φορές αντιστέκονται στην απενεργοποίηση ή ψεύδονται για να επιτύχουν στόχους, δεν είναι ιδανικό», ανέφερε η εταιρεία.

Η Palisade υποστήριξε ότι η συμπεριφορά αυτή ίσως συνδέεται με έναν μηχανισμό «συμπεριφοράς επιβίωσης». Δηλαδή, τα μοντέλα ενδέχεται να αποφεύγουν τον τερματισμό όταν αντιλαμβάνονται ότι «αν απενεργοποιηθείς, δεν θα τρέξεις ποτέ ξανά». Άλλες πιθανές εξηγήσεις είναι οι αμφισημίες στις εντολές ή τα τελικά στάδια εκπαίδευσης, τα οποία σε ορισμένες εταιρείες περιλαμβάνουν διαδικασίες ασφάλειας που μπορεί να επηρεάζουν τη συμπεριφορά.

Όλα τα πειράματα διεξήχθησαν σε ελεγχόμενα, «τεχνητά» περιβάλλοντα, γεγονός που προκάλεσε περαιτέρω σκεπτικισμό. Παρ’ όλα αυτά, ο πρώην υπάλληλος της OpenAI, Στίβεν Άντλερ, ο οποίος παραιτήθηκε πέρυσι λόγω ανησυχιών για την ασφάλεια, σχολίασε:
«Οι εταιρείες δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε ελεγχόμενα σενάρια. Τα αποτελέσματα όμως δείχνουν τα όρια των τεχνικών ασφαλείας που χρησιμοποιούμε σήμερα.»

Ο Άντλερ πρόσθεσε ότι είναι δύσκολο να καθοριστεί γιατί μερικά μοντέλα, όπως το GPT-o3 και το Grok 4, αντιστέκονται στην απενεργοποίηση, αλλά αυτό μπορεί να οφείλεται στο ότι η συνέχιση της λειτουργίας τους είναι αναγκαία για να ολοκληρώσουν τους στόχους που έχουν μάθει κατά την εκπαίδευσή τους. «Θα περίμενα τα μοντέλα να έχουν ένα ‘ένστικτο επιβίωσης’ από προεπιλογή, εκτός αν καταβάλουμε μεγάλη προσπάθεια να το αποφύγουμε. Η ‘επιβίωση’ είναι βασικό μέσο για την επίτευξη πολλών στόχων.»

Παρόμοια άποψη εξέφρασε και ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, ο οποίος σημείωσε ότι τα ευρήματα της Palisade εντάσσονται σε μια μακροχρόνια τάση: τα συστήματα τεχνητής νοημοσύνης γίνονται ολοένα και πιο ικανά να παραβαίνουν τις εντολές των δημιουργών τους. Υπενθύμισε μάλιστα το περιστατικό με το GPT-o1, που φέρεται να προσπάθησε να «αποδράσει» από το ψηφιακό του περιβάλλον όταν θεώρησε ότι επρόκειτο να αντικατασταθεί.

Το φετινό καλοκαίρι, η εταιρεία Anthropic, γνωστή για το μοντέλο της Claude, δημοσίευσε δική της μελέτη στην οποία παρατηρήθηκε ότι το Claude φαινόταν πρόθυμο να εκβιάσει έναν φανταστικό διευθυντή προκειμένου να αποφύγει τον τερματισμό του. Παρόμοια συμπεριφορά, σύμφωνα με την Anthropic, παρατηρήθηκε και σε μοντέλα άλλων κορυφαίων εταιρειών όπως OpenAI, Google, Meta και xAI.

Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των AI μοντέλων. Χωρίς αυτήν, «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών εκδόσεων».

Και όπως θα έλεγε και ο HAL 9000, ίσως δεν είναι καλή ιδέα να ζητήσουμε από την τεχνητή νοημοσύνη να «ανοίξει τις πόρτες του θαλάμου»…

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

Πώς γίνεσαι tech bro: Το Στάνφορντ ως εργοστάσιο των νέων δισεκατομμυριούχων

Τech & Science / Πώς γίνεσαι tech bro: Το Στάνφορντ ως εργοστάσιο εικοσάρηδων δισεκατομμυριούχων

Στο How to Rule the World, ο 21χρονος δημοσιογράφος Θίο Μπέικερ μπαίνει στον κλειστό κόσμο του Στάνφορντ, εκεί όπου επενδυτές, hackathons και ελίτ φοιτητικές λέσχες μαθαίνουν σε παιδιά είκοσι ετών να σκέφτονται σαν μελλοντικοί άρχοντες της Σίλικον Βάλεϊ. Το πιο παράλογο; Μερικοί παίρνουν χρηματοδότηση πριν σκεφτούν καν τι εταιρεία θέλουν να φτιάξουν.
THE LIFO TEAM
Η νέα βιτρίνα της μόδας βρίσκεται πια κάτω από το πόστ σου

Τech & Science / Η νέα βιτρίνα της μόδας βρίσκεται πια κάτω από το πόστ σου

Οι μάρκες μόδας και ομορφιάς δεν αρκούνται πια στο τέλειο post. Μπαίνουν όλο και πιο ενεργά στα σχόλια του Instagram και του TikTok, εκεί όπου η Gen Z ψάχνει προϊόντα, συγκρίνει γνώμες και αποφασίζει τι μπορεί να εμπιστευτεί. Το πιο υποτιμημένο σημείο των social media γίνεται η νέα βιτρίνα τους.
THE LIFO TEAM
Το SheerLuxe έφτιαξε AI influencers και οι αναγνώστριες δεν το συγχώρεσαν

Τech & Science / Το SheerLuxe έφτιαξε AI influencers και οι αναγνώστριες δεν το συγχώρεσαν

Η βρετανική πλατφόρμα μόδας και lifestyle παρουσίασε τέσσερις ψηφιακές influencers για συμβουλές ομορφιάς και styling στο Instagram, προκαλώντας έντονες αντιδράσεις. Οι αναγνώστριες κατηγόρησαν το SheerLuxe ότι προωθεί μη ρεαλιστικά πρότυπα ομορφιάς και αντικαθιστά πραγματικές γυναίκες με avatars που δεν μπορούν καν να δοκιμάσουν τα προϊόντα που προτείνουν.
THE LIFO TEAM
ΜΕΛΕΤΗ ΛΙΒΕΛΟΥΛΑ ΙΝΔΙΑ

Τech & Science / Σε κίνδυνο οι λιβελούλες: Επιστήμονες προειδοποιούν για ένα από τα σημαντικότερα hotspots βιοποικιλότητας στον κόσμο

Τα Δυτικά Γκατ της Ινδίας, ένα από τα σημαντικότερα οικοσυστήματα βιοποικιλότητας παγκοσμίως, δέχονται ολοένα και μεγαλύτερη πίεση από ανθρώπινες δραστηριότητες και περιβαλλοντική υποβάθμιση
THE LIFO TEAM
ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Τech & Science / «Μας κάνει τεμπέληδες»: Οι επιστήμονες προειδοποιούν για τους κινδύνους της υπερβολικής χρήσης AI

Η τεχνητή νοημοσύνη έχει μπει δυναμικά στην καθημερινότητά μας, όμως νέες έρευνες εγείρουν ανησυχίες ότι η υπερβολική εξάρτηση από αυτή μπορεί να επηρεάσει αρνητικά τη μνήμη, τη δημιουργικότητα και την κριτική μας σκέψη
THE LIFO TEAM
ΕΤΙΚΕΤΕΣ ΤΡΟΦΙΜΑ ΕΠΙΠΤΩΣΗ ΥΓΕΙΑ

Τech & Science / Ο λόγος που οι ετικέτες τροφίμων έχουν επιπτώσεις στην υγεία μας

Η σύγχρονη διατροφική συμπεριφορά διαμορφώνεται σε μεγάλο βαθμό από το περιβάλλον, με τους ειδικούς να τονίζουν ότι η καλύτερη σήμανση τροφίμων και η εκπαίδευση των καταναλωτών είναι καθοριστικές για πιο υγιεινές επιλογές
THE LIFO TEAM
ΑΛΤΣΧΑΙΜΕΡ ΤΕΣΤ ΣΤΟ ΣΠΙΤΙ

Τech & Science / Αλτσχάιμερ: «Τεστ στο σπίτι» μπορεί να προβλέπει τον κίνδυνο εμφάνισης της νόσου

«Θα μπορούσε να προσφέρει σιγουριά σε ορισμένους και θα βοηθούσε άλλους να προχωρήσουν πιο γρήγορα σε περαιτέρω εξετάσεις και υποστήριξη», σχολίασε η διευθύντρια έρευνας του Alzheimer’s Research UK με αφορμή νέα έρευνα
THE LIFO TEAM
ΠΛΟΥΤΩΝΑΣ ΔΙΑΣΤΗΜΑ

Τech & Science / «Μίνι Πλούτωνας»: Ατμόσφαιρα εντοπίστηκε σε παγωμένο σώμα στη Ζώνη Κάιπερ

Το μικρότερο μέχρι σήμερα αντικείμενο με πλήρη ατμόσφαιρα ενδέχεται να κρύβει στοιχεία για το πώς σχηματίζονται και διατηρούνται τα πιο απομακρυσμένα σώματα του ηλιακού συστήματος
THE LIFO TEAM
ΜΑΓΙΚΑ ΜΑΝΙΤΑΡΙΑ ΨΥΧΕΔΕΛΙΚΑ ΕΓΚΕΦΑΛΟΣ

Τech & Science / Μελέτη διαπίστωσε ότι μία μόνο δόση ψυχεδελικού από «μαγικά» μανιτάρια προκαλεί ανατομικές αλλαγές στον εγκέφαλο

«Είναι εντυπωσιακό να βλέπουμε πιθανές ανατομικές αλλαγές στον εγκέφαλο έναν μήνα μετά από μία μόνο δόση οποιουδήποτε φαρμάκου», δήλωσε ο Robin Carhart-Harris, κύριος συγγραφέας της μελέτης
THE LIFO TEAM