«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν Facebook Twitter
Φωτ: Getty Images
0

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

Αντικαταθλιπτικά: Ποια φάρμακα επηρεάζουν περισσότερο βάρος, πίεση και παλμούς

Τech & Science / Αντικαταθλιπτικά: Ποια φάρμακα επηρεάζουν περισσότερο βάρος, πίεση και παλμούς

Για πρώτη φορά, οι παρενέργειες των διαφορετικών αντικαταθλιπτικών φαρμάκων ταξινομούνται και συγκρίνονται μεταξύ τους, αποκαλύπτοντας τεράστιες διαφορές από σκεύασμα σε σκεύασμα
LIFO NEWSROOM
Βρετανία: Γυναίκα έπαιξε κλαρινέτο κατά τη διάρκεια χειρουργείου για τη νόσο Πάρκινσον

Τech & Science / Βρετανία: Γυναίκα έπαιξε κλαρινέτο κατά τη διάρκεια χειρουργείου για τη νόσο Πάρκινσον - Τα αποτελέσματα

Η 65χρονη ασθενής υποβλήθηκε σε βαθιά εγκεφαλική διέγερση (DBS) για να αντιμετωπίσει τα συμπτώματα του Πάρκινσον, όπως βραδυκινησία και μυϊκή ακαμψία
LIFO NEWSROOM
Η κλιματική κρίση είναι εδώ: Εντοπίστηκαν για πρώτη φορά κουνούπια στην Ισλανδία

Τech & Science / Η κλιματική κρίση είναι εδώ: Εντοπίστηκαν για πρώτη φορά κουνούπια στην Ισλανδία

Ανακαλύφθηκαν σε μία από τις ελάχιστες περιοχές του κόσμου όπου μέχρι πρότινος δεν υπήρχαν κουνούπια - Η Ισλανδία θερμαίνεται με ρυθμό τέσσερις φορές ταχύτερο σε σύγκριση με τον υπόλοιπο βόρειο ημισφαίριο
LIFO NEWSROOM
ΟΓΚΟΣ ΕΓΚΕΦΑΛΟΣ ΛΑΙΜΟΣ ΕΝΕΣΗ ΕΡΕΥΝΑ

Τech & Science / Η «έξυπνη ένεση» που μπορεί να συρρικνώσει τους όγκους κεφαλής και τραχήλου μέσα σε έξι εβδομάδες

Τι δείχνει κλινική δοκιμή για το φάρμακο τριπλής δράσης, την αμιβανταμάμπη, που θα μπορούσε να χορηγηθεί ως ένεση για να βοηθήσει στη θεραπεία υποτροπιάζοντων ή μεταστατικών καρκίνων
LIFO NEWSROOM
Εγκληματολόγος του Cambridge εξηγεί πώς οι άνδρες κακοποιητές χρησιμοποιούν την αγάπη ως όπλο ελέγχου

Τech & Science / Εγκληματολόγος του Cambridge εξηγεί πώς οι άνδρες κακοποιητές χρησιμοποιούν την αγάπη ως όπλο ελέγχου

Πριν εμφανιστεί το πρώτο σημάδι βίας, έχει ήδη στηθεί η ψυχολογική «παγίδα» - Η έρευνα που δείχνει την «προετοιμασία» των κακοποιητών για να δημιουργήσουν «δεσμούς τραύματος»
LIFO NEWSROOM