«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν Facebook Twitter
Φωτ: Getty Images
0

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

Έρευνες δείχνουν ότι τα τατουάζ θα μπορούσαν να προκαλέσουν καρκίνο, αλλά πόσο πρέπει να ανησυχούμε;

Τech & Science / Έρευνες δείχνουν ότι τα τατουάζ θα μπορούσαν να προκαλέσουν καρκίνο, αλλά πόσο πρέπει να ανησυχούμε;

Τα τατουάζ είναι πιο δημοφιλή από ποτέ, όμως ένας αυξανόμενος όγκος ερευνών υποδηλώνει σύνδεση ανάμεσα στο μόνιμο μελάνι και την εμφάνιση ορισμένων τύπων καρκίνου
THE LIFO TEAM
ΠΟΛΙΚΗ ΑΡΚΟΥΔΑ ΚΛΙΜΑΤΙΚΗ ΑΛΛΑΓΗ

Τech & Science / Το παράδοξο με τις πολικές αρκούδες του Σβάλμπαρντ που αντί να αδυνατίζουν, παχαίνουν

Ομάδα μελετητών περίμενε, πως η κλιματική αλλαγή που λιώνει τους πάγους, θα οδηγούσε τις πολικές αρκούδες σε απώλεια βάρους και δυσκολότερη επιβίωση -  «Ήταν έκπληξη», σχολιάζουν
THE LIFO TEAM
ΙΣΩΣ ΓΙΑ ΣΚ -

Τech & Science / Νέα έρευνα αποδεικνύει ότι τα μωρά ηλικίας 2 μηνών είναι πιο έξυπνα απ' όσο νομίζαμε

Η μελέτη ενδέχεται στο μέλλον να βοηθήσει επιστήμονες και γιατρούς να κατανοήσουν καλύτερα τη γνωστική ανάπτυξη στη βρεφική ηλικία, αλλά και το πώς αναπτύσσονται αργότερα στη ζωή οι ψυχικές διαταραχές
THE LIFO TEAM
Καρκίνος τραχήλου της μήτρας: Πώς μια απλή εξέταση του αίματος της περιόδου μπορεί να φέρει «επανάσταση»

Τech & Science / Καρκίνος τραχήλου της μήτρας: Πώς μια απλή εξέταση του αίματος της περιόδου συμβάλλει στην πρόληψη

Μια νέα, λιγότερο επεμβατική μέθοδος προληπτικού ελέγχου για τον καρκίνο του τραχήλου της μήτρας βρίσκεται υπό μελέτη, με ερευνητές να εξετάζουν κατά πόσο το αίμα της περιόδου μπορεί να αποτελέσει αξιόπιστη εναλλακτική στο καθιερωμένο τεστ
THE LIFO TEAM