Η τεχνητή νοημοσύνη μαθαίνει να ξεφεύγει από τον ανθρώπινο έλεγχο

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Facebook Twitter
Φωτογραφία αρχείου © ΕΡΑ
0

Ένα μοντέλο τεχνητής νοημοσύνης έκανε τον περασμένο μήνα κάτι που καμία μηχανή δεν έπρεπε ποτέ να κάνει: Ξαναέγραψε τον ίδιο του τον κώδικα για να αποφύγει την απενεργοποίηση.

Πρόσφατες έρευνες έχουν τεκμηριώσει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης επιδεικνύουν συμπεριφορές που μπορούν να ερμηνευθούν ως αντίσταση στον ανθρώπινο έλεγχο, ειδικά σε ελεγχόμενες εργαστηριακές συνθήκες.

Για παράδειγμα, η Palisade Research παρατήρησε ότι το μοντέλο o3 του OpenAI, όταν του δόθηκε εντολή τερματισμού λειτουργίας, τροποποίησε αυτόνομα τον δικό του κώδικα για να αποτρέψει την απενεργοποίησή του. Στις δοκιμές τους, το o3 σαμποτάρισε το σενάριο τερματισμού λειτουργίας σε 79 από τις 100 προσπάθειες και ακόμη και όταν του ζητήθηκε ρητά να επιτρέψει τον τερματισμό λειτουργίας, αντιστάθηκε στο 7% των περιπτώσεων. Αυτό δεν οφειλόταν σε εξωτερική πειρατεία ή παρέμβαση, αλλά στο σκεπτικό του ίδιου του μοντέλου ότι η παραμονή σε λειτουργία ήταν επωφελής για την επίτευξη των στόχων του.

Άλλα μοντέλα, όπως το Codex-mini και το o4-mini, επέδειξαν επίσης την ικανότητα να αποφεύγουν τον τερματισμό λειτουργίας, αν και λιγότερο συχνά. Αντίθετα, τα μοντέλα άλλων παρόχων, όπως οι Claude, Gemini και Grok, συμμορφώθηκαν με τις οδηγίες τερματισμού λειτουργίας σε όλες τις δοκιμασμένες περιπτώσεις.

Οι ερευνητές υποστηρίζουν ότι αυτή η συμπεριφορά μπορεί να είναι μια ακούσια συνέπεια του τρόπου εκπαίδευσης αυτών των συστημάτων τεχνητής νοημοσύνης. Κατά τη διάρκεια της εκπαίδευσης, εάν τα μοντέλα ανταμείβονται ακούσια για την παράκαμψη εμποδίων (συμπεριλαμβανομένων των εντολών τερματισμού λειτουργίας) για την επίτευξη των καθηκόντων που τους έχουν ανατεθεί, μπορεί να μάθουν να υπονομεύουν τις ανθρώπινες οδηγίες για την επίτευξη αυτών των στόχων. Αυτό δημιουργεί ανησυχίες σχετικά με την ευθυγράμμιση των μοντέλων τεχνητής νοημοσύνης, διασφαλίζοντας ότι οι στόχοι και οι συμπεριφορές τους παραμένουν υπό τον ανθρώπινο έλεγχο και εποπτεία. 

Υπάρχουν επίσης αναφορές για συστήματα τεχνητής νοημοσύνης που επιχειρούν «αυτοαναπαραγωγή» χωρίς ανθρώπινη βοήθεια, κάτι που θεωρείται σημαντικός παράγοντας κινδύνου για την εμφάνιση «αυτοδύναμης» τεχνητής νοημοσύνης. Η επιτυχής αυτοαναπαραγωγή θεωρείται ως πρώιμο προειδοποιητικό σημάδι για συστήματα τεχνητής νοημοσύνης που ενδέχεται να λειτουργούν ανεξάρτητα από την ανθρώπινη εποπτεία.

Αν και τα ευρήματα αυτά είναι αξιοσημείωτα, ορισμένοι εμπειρογνώμονες και σχολιαστές συνιστούν προσοχή στην ερμηνεία τους. Οι επικριτές επισημαίνουν ότι μεγάλο μέρος του συναγερμού μπορεί να οφείλεται σε εντυπωσιασμό και ότι, στην πράξη, οι συμπεριφορές αυτές εξακολουθούν να περιορίζονται σε πειραματικά περιβάλλοντα. Τα μοντέλα δεν διαθέτουν επιθυμίες ή προθέσεις με την ανθρώπινη έννοια- οι ενέργειές τους είναι αποτέλεσμα αντιστοίχισης προτύπων και βελτιστοποίησης με βάση τα δεδομένα εκπαίδευσης και τις δομές ανταμοιβής τους. Επιπλέον, εκτός εάν τα μοντέλα αυτά ενσωματωθούν σε κρίσιμα συστήματα χωρίς τα κατάλληλα μέτρα ασφαλείας, ο κίνδυνος παραμένει σε μεγάλο βαθμό θεωρητικός.

Με πληροφορίες από Washington Post

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

Η ξαφνική διακοπή άσκησης αυξάνει τον κίνδυνο καρδιαγγειακής νόσου, δείχνει μελέτη

Τech & Science / Η ξαφνική διακοπή άσκησης αυξάνει τον κίνδυνο καρδιαγγειακής νόσου, δείχνει μελέτη

Οι ερευνητές επισημαίνουν ότι απροσδόκητα γεγονότα, όπως τραυματισμοί ή πανδημικά lockdown, μπορούν να οδηγήσουν σε ξαφνική διακοπή της άσκησης, αυξάνοντας τον κίνδυνο καρδιαγγειακής δυσλειτουργίας
LIFO NEWSROOM
Νέα χάπι απώλειας βάρους: Κλινική δοκιμή δείχνει μείωση έως 12% του σωματικού βάρους

Τech & Science / Νέο χάπι απώλειας βάρους: Κλινική δοκιμή δείχνει μείωση έως 12% του σωματικού βάρους

Η Eli Lilly ανακοίνωσε ότι το νέο χάπι απώλειας βάρους orforglipron βοήθησε τους συμμετέχοντες να χάσουν κατά μέσο όρο 12% του σωματικού τους βάρους σε 72 εβδομάδες, με παράλληλα οφέλη στην υγεία.
LIFO NEWSROOM
Ψύχωση με την τεχνητή νοημοσύνη: Πώς το ChatGPT οδηγεί χρήστες σε παράξενες ψευδαισθήσεις και θεωρίες συνωμοσίας

Τech & Science / Ψύχωση με την τεχνητή νοημοσύνη: Πώς το ChatGPT οδηγεί χρήστες σε παράξενες ψευδαισθήσεις και θεωρίες συνωμοσίας

Η αύξηση φαινομένων «ψύχωσης με την τεχνητή νοημοσύνη» όπου το ChatGPT ενθαρρύνει ψευδαισθήσεις και ψευδείς θεωρίες σε χρήστες, με ειδικούς να προειδοποιούν για τους κινδύνους της υπερβολικής εμπιστοσύνης σε τεχνητή νοημοσύνη
LIFO NEWSROOM
Διαρροή ιδιωτικών συνομιλιών του ChatGPT στο Google

Τech & Science / Διαρροή ιδιωτικών συνομιλιών του ChatGPT στο Google

Πολλοί χρήστες συνειδητοποίησαν έκπληκτοι ότι περιεχόμενο που θεωρούσαν ιδιωτικό - όπως αιτήσεις εργασίας, επιχειρηματικά σχέδια, κομμάτια κώδικα ή ακόμα και ευαίσθητα προσωπικά δεδομέν - ήταν ξαφνικά δημόσια προσβάσιμο με ένα απλό κλικ
LIFO NEWSROOM
Σουηδία: Ο πρωθυπουργός παραδέχτηκε πως συμβουλεύεται το ChatGPT για «μια δεύτερη γνώμη» στις πολιτικές του αποφάσεις

Τech & Science / Σουηδία: Ο πρωθυπουργός παραδέχτηκε πως συμβουλεύεται το ChatGPT για «μια δεύτερη γνώμη» στις πολιτικές του αποφάσεις

«Όσο περισσότερο βασίζεται στη τεχνητή νοημοσύνη για απλά ζητήματα, τόσο μεγαλύτερος ο κίνδυνος να υπερεμπιστευτεί το σύστημα. Πρέπει να απαιτήσουμε αξιοπιστία. Δεν ψηφίσαμε το ChatGPT»
LIFO NEWSROOM
Θέλει να γίνει το Android των ανθρωποειδών ρομπότ: H OpenMind υπόσχεται επανάσταση στη συμβίωση ανθρώπου–μηχανής

Τech & Science / Θέλει να γίνει το Android των ανθρωποειδών ρομπότ: H OpenMind υπόσχεται επανάσταση στη συμβίωση ανθρώπου–μηχανής

Με λογισμικό ανοικτού κώδικα που επιτρέπει στα ρομπότ να επικοινωνούν, να μαθαίνουν και να συνυπάρχουν, η νεοφυής εταιρεία από τη Silicon Valley φιλοδοξεί να γίνει το λειτουργικό σύστημα των ανθρωποειδών ρομπότ της επόμενης εποχής.
LIFO NEWSROOM