Η τεχνητή νοημοσύνη μαθαίνει να ξεφεύγει από τον ανθρώπινο έλεγχο

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Facebook Twitter
Φωτογραφία αρχείου © ΕΡΑ
0

Ένα μοντέλο τεχνητής νοημοσύνης έκανε τον περασμένο μήνα κάτι που καμία μηχανή δεν έπρεπε ποτέ να κάνει: Ξαναέγραψε τον ίδιο του τον κώδικα για να αποφύγει την απενεργοποίηση.

Πρόσφατες έρευνες έχουν τεκμηριώσει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης επιδεικνύουν συμπεριφορές που μπορούν να ερμηνευθούν ως αντίσταση στον ανθρώπινο έλεγχο, ειδικά σε ελεγχόμενες εργαστηριακές συνθήκες.

Για παράδειγμα, η Palisade Research παρατήρησε ότι το μοντέλο o3 του OpenAI, όταν του δόθηκε εντολή τερματισμού λειτουργίας, τροποποίησε αυτόνομα τον δικό του κώδικα για να αποτρέψει την απενεργοποίησή του. Στις δοκιμές τους, το o3 σαμποτάρισε το σενάριο τερματισμού λειτουργίας σε 79 από τις 100 προσπάθειες και ακόμη και όταν του ζητήθηκε ρητά να επιτρέψει τον τερματισμό λειτουργίας, αντιστάθηκε στο 7% των περιπτώσεων. Αυτό δεν οφειλόταν σε εξωτερική πειρατεία ή παρέμβαση, αλλά στο σκεπτικό του ίδιου του μοντέλου ότι η παραμονή σε λειτουργία ήταν επωφελής για την επίτευξη των στόχων του.

Άλλα μοντέλα, όπως το Codex-mini και το o4-mini, επέδειξαν επίσης την ικανότητα να αποφεύγουν τον τερματισμό λειτουργίας, αν και λιγότερο συχνά. Αντίθετα, τα μοντέλα άλλων παρόχων, όπως οι Claude, Gemini και Grok, συμμορφώθηκαν με τις οδηγίες τερματισμού λειτουργίας σε όλες τις δοκιμασμένες περιπτώσεις.

Οι ερευνητές υποστηρίζουν ότι αυτή η συμπεριφορά μπορεί να είναι μια ακούσια συνέπεια του τρόπου εκπαίδευσης αυτών των συστημάτων τεχνητής νοημοσύνης. Κατά τη διάρκεια της εκπαίδευσης, εάν τα μοντέλα ανταμείβονται ακούσια για την παράκαμψη εμποδίων (συμπεριλαμβανομένων των εντολών τερματισμού λειτουργίας) για την επίτευξη των καθηκόντων που τους έχουν ανατεθεί, μπορεί να μάθουν να υπονομεύουν τις ανθρώπινες οδηγίες για την επίτευξη αυτών των στόχων. Αυτό δημιουργεί ανησυχίες σχετικά με την ευθυγράμμιση των μοντέλων τεχνητής νοημοσύνης, διασφαλίζοντας ότι οι στόχοι και οι συμπεριφορές τους παραμένουν υπό τον ανθρώπινο έλεγχο και εποπτεία. 

Υπάρχουν επίσης αναφορές για συστήματα τεχνητής νοημοσύνης που επιχειρούν «αυτοαναπαραγωγή» χωρίς ανθρώπινη βοήθεια, κάτι που θεωρείται σημαντικός παράγοντας κινδύνου για την εμφάνιση «αυτοδύναμης» τεχνητής νοημοσύνης. Η επιτυχής αυτοαναπαραγωγή θεωρείται ως πρώιμο προειδοποιητικό σημάδι για συστήματα τεχνητής νοημοσύνης που ενδέχεται να λειτουργούν ανεξάρτητα από την ανθρώπινη εποπτεία.

Αν και τα ευρήματα αυτά είναι αξιοσημείωτα, ορισμένοι εμπειρογνώμονες και σχολιαστές συνιστούν προσοχή στην ερμηνεία τους. Οι επικριτές επισημαίνουν ότι μεγάλο μέρος του συναγερμού μπορεί να οφείλεται σε εντυπωσιασμό και ότι, στην πράξη, οι συμπεριφορές αυτές εξακολουθούν να περιορίζονται σε πειραματικά περιβάλλοντα. Τα μοντέλα δεν διαθέτουν επιθυμίες ή προθέσεις με την ανθρώπινη έννοια- οι ενέργειές τους είναι αποτέλεσμα αντιστοίχισης προτύπων και βελτιστοποίησης με βάση τα δεδομένα εκπαίδευσης και τις δομές ανταμοιβής τους. Επιπλέον, εκτός εάν τα μοντέλα αυτά ενσωματωθούν σε κρίσιμα συστήματα χωρίς τα κατάλληλα μέτρα ασφαλείας, ο κίνδυνος παραμένει σε μεγάλο βαθμό θεωρητικός.

Με πληροφορίες από Washington Post

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

TikTok: Η επιστήμη πίσω από τον αλγόριθμο που μας κρατά κολλημένους

Τech & Science / TikTok: Η επιστήμη πίσω από τον αλγόριθμο που μας κρατά κολλημένους

Μια νέα μελέτη δείχνει πώς το TikTok δημιουργεί εθιστικές συνήθειες στους χρήστες, αυξάνοντας τον χρόνο παρακολούθησης, την συχνότητα ανοίγματος της εφαρμογής και την ταχύτητα scrolling, με σοβαρές επιπτώσεις στην καθημερινή ζωή
LIFO NEWSROOM
«Ξιφόδρακος του Ντόρσετ»: Ανακαλύφθηκε νέο είδος ιχθυόσαυρου στη Βρετανία

Τech & Science / «Ξιφόδρακος του Ντόρσετ»: Ανακαλύφθηκε νέο είδος ιχθυόσαυρου στη Βρετανία

Ένα εντυπωσιακό απολίθωμα ιχθυόσαυρου στην Ιουρασική Ακτή του Ντόρσετ αποδείχθηκε νέο είδος, το Xiphodracon goldencapensis ή «Ξιφόδρακος του Ντόρσετ», φωτίζοντας ένα χαμένο κεφάλαιο της εξέλιξης των θαλάσσιων ερπετών
LIFO NEWSROOM
Η αλήθεια για το θρυλικό ναυάγιο του Endurance: Ο Σάκλετον ήξερε ότι το πλοίο του ήταν ακατάλληλο

Τech & Science / Η αλήθεια για το θρυλικό ναυάγιο του Endurance: Ο Σάκλετον ήξερε ότι το πλοίο του ήταν ακατάλληλο

Νέα μελέτη αποκαλύπτει ότι το ιστορικό πλοίο Endurance του Έρνεστ Σάκλετον βυθίστηκε όχι εξαιτίας των πάγων, αλλά λόγω σχεδιαστικών αδυναμιών που ο ίδιος ο εξερευνητής γνώριζε
LIFO NEWSROOM
Google: Εισάγει το AI Mode στην Ελλάδα - Όσα αλλάζουν στην αναζήτηση

Τech & Science / Google: Εισάγει το AI Mode στην Ελλάδα - Όσα αλλάζουν στην αναζήτηση

Tο AI Mode χρησιμοποιεί την τεχνική "query fan-out" (διασπορά ερωτημάτων) της Google, η οποία αναλύει την ερώτηση των χρηστών σε επιμέρους θέματα και εκτελεί ταυτόχρονα πληθώρα αναζητήσεων για λογαριασμό του
LIFO NEWSROOM
Κατάθλιψη: Οι γυναίκες διατρέχουν μεγαλύτερο κίνδυνο εμφάνισης σε σύγκριση με τους άνδρες

Τech & Science / Κατάθλιψη: Οι γυναίκες διατρέχουν μεγαλύτερο κίνδυνο εμφάνισης σε σύγκριση με τους άνδρες

Η μελέτη αναγνωρίζει ότι υπάρχουν πολλαπλές εξηγήσεις για τη διαφορά στα ποσοστά κατάθλιψης μεταξύ ανδρών και γυναικών - από συμπεριφορικούς και περιβαλλοντικούς, έως βιολογικούς παράγοντες
LIFO NEWSROOM
Ευρωπαίοι πολιτικοί ελέγχθηκαν για PFAS – Όλοι βγήκαν θετικοί στα «παντοτινά πλαστικά»

Τech & Science / Ευρωπαίοι πολιτικοί ελέγχθηκαν για τοξικά χημικά PFAS – Όλοι βγήκαν θετικοί στα «παντοτινά πλαστικά»

«Πρόκειται για μια ανατριχιαστική πραγματικότητα. Είναι κρίσιμο να αναλάβουμε δράση» τόνισε ο Δανός υπουργός Περιβάλλοντος, στο αίμα του οποίου βρέθηκαν τρεις ουσίες τοξικές για την αναπαραγωγή
LIFO NEWSROOM
AI στα σχολεία: Όταν οι μαθητές διδάσκουν τους δασκάλους για την Τεχνητή Νοημοσύνη

Τech & Science / Αυτοί οι έφηβοι από τη Silicon Valley ορίζουν πώς θα μπει η AI στα σχολεία όλου του κόσμου

Μαθητές στη Σίλικον Βάλεϊ αναλαμβάνουν πρωτοβουλία να καθορίσουν οι ίδιοι –μαζί με γονείς και εκπαιδευτικούς– τους κανόνες χρήσης της Τεχνητής Νοημοσύνης στην εκπαίδευση
LIFO NEWSROOM
ChatGPT: Πατέρας παρέκαμψε σε 5 λεπτά τα φίλτρα ασφαλείας για εφήβους

Τech & Science / ChatGPT: Πατέρας παρέκαμψε σε 5 λεπτά τα φίλτρα ασφαλείας για εφήβους

Το ChatGPT παρουσίασε νέους γονικούς ελέγχους, όμως οι ειδικοί προειδοποιούν: τα παιδιά μπορούν να τους παρακάμψουν εύκολα - Οι ανησυχίες για την ασφάλεια, την ιδιωτικότητα και την ψυχική υγεία των εφήβων φουντώνουν, ενώ οι αρχές ζητούν αυστηρότερη νομοθεσία για την τεχνητή νοημοσύνη
LIFO NEWSROOM
VIOLOGIKA OPLA VIOTROMOKRATIA TEHNITI NOIMOSINI

Τech & Science / Βιοτρομοκρατία: Ερευνητές προειδοποιούν για επικίνδυνες παραλλαγές πρωτεϊνών μέσω τεχνητής νοημοσύνης

Ερευνητές προειδοποιούν για αυξανόμενες απειλές βιοτρομοκρατίας λόγω AI και συνθετικής βιολογίας, εντοπίζοντας κρίσιμη ευπάθεια σε λογισμικό βιοασφάλειας
LIFO NEWSROOM