«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν Facebook Twitter
Φωτ: Getty Images
0

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

Το Spotify βάζει σήμα επαλήθευσης για να ξεχωρίζουν οι πραγματικοί καλλιτέχνες από τα AI προφίλ

Τech & Science / Το Spotify εισάγει σήμα επαλήθευσης για να διακρίνονται οι πραγματικοί καλλιτέχνες από τα AI προφίλ

Το Spotify ανακοίνωσε το νέο σήμα «Verified by Spotify», ένα σύστημα επαλήθευσης που θα βοηθά τους χρήστες να ξεχωρίζουν τους πραγματικούς καλλιτέχνες από AI προφίλ και ψεύτικες ταυτότητες. Η κίνηση έρχεται σε μια περίοδο όπου οι μουσικές πλατφόρμες δέχονται όλο και μεγαλύτερη πίεση από την έκρηξη του περιεχομένου που δημιουργείται με τεχνητή νοημοσύνη.
THE LIFO TEAM
ΚΑΡΚΙΝΟΣ ΠΑΓΚΡΕΑΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΕΝΤΟΠΙΣΜΟΣ

Τech & Science / Στιγμή - ορόσημο για την αντιμετώπιση του καρκίνου στο πάγκρεας: AI μπορεί να τον εντοπίζει έως και 3 χρόνια πριν τη διάγνωση

Σε μια εξέλιξη που θα μπορούσε να αλλάξει ριζικά τον τρόπο με τον οποίο εντοπίζεται ένας από τους πιο θανατηφόρους καρκίνους, η Mayo Clinic παρουσίασε το REDMOD
THE LIFO TEAM
«Βλέπω ό,τι χειρότερο έχει γεννήσει η ανθρωπότητα»: Οι άνθρωποι που «σπάνε» την Τεχνητή Νοημοσύνη για να μας σώσουν

Τech & Science / «Βλέπω ό,τι χειρότερο έχει γεννήσει η ανθρωπότητα»

Οι AI jailbreakers προσπαθούν να ξεγελάσουν μεγάλα γλωσσικά μοντέλα όπως το ChatGPT και το Claude, ώστε να αποκαλύψουν αδυναμίες στους κανόνες ασφαλείας τους. Καθώς η τεχνητή νοημοσύνη μπαίνει σε περισσότερα συστήματα, η δουλειά τους γίνεται όλο και πιο κρίσιμη, αλλά και ψυχικά φορτισμένη..
THE LIFO TEAM
Η δίκη του αιώνα για την Τεχνητή Νοημοσύνη: Ο Έλον Μασκ στο εδώλιο κατά της OpenAI

Τech & Science / Η δίκη του αιώνα για την Τεχνητή Νοημοσύνη: Ο Έλον Μασκ στο εδώλιο κατά της OpenAI

Η δίκη του Έλον Μασκ κατά του Σαμ Άλτμαν, του OpenAI και της Microsoft ξεκίνησε στην Καλιφόρνια, με τον ιδρυτή της Tesla να υποστηρίζει ότι το OpenAI πρόδωσε την αρχική μη κερδοσκοπική αποστολή του. Η πλευρά του OpenAI απαντά ότι ο Μασκ δεν υπερασπίζεται μια αποστολή, αλλά επιτίθεται σε έναν ανταγωνιστή που δεν κατάφερε να ελέγξει.
THE LIFO TEAM
PFAS ΠΑΝΤΟΤΙΝΑ ΧΗΜΙΚΑ ΠΑΙΔΙΑ ΛΕΥΧΑΙΜΙΑ

Τech & Science / Η πρώιμη έκθεση των παιδιών στα «παντοτινά χημικά» συνδέεται με κίνδυνο εμφάνισης λευχαιμίας

Tα «παντοτινά χημικά» βρίσκονται μεταξύ άλλων σε πόσιμο νερό, δοχεία τροφίμων και ποτών, αντικολλητικά μαγειρικά σκεύη και υφάσματα ανθεκτικά στους λεκέδες
THE LIFO TEAM
Η Canva ζήτησε συγγνώμη επειδή AI εργαλείο της άλλαζε τη λέξη «Palestine» σε «Ukraine»

Τech & Science / Η Canva ζήτησε συγγνώμη επειδή AI εργαλείο της άλλαζε τη λέξη «Palestine» σε «Ukraine»

Το Magic Layers, νέο εργαλείο τεχνητής νοημοσύνης της Canva, φέρεται να αντικαθιστούσε τη λέξη «Palestine» με «Ukraine» σε σχέδια χρηστών. Η εταιρεία είπε ότι διόρθωσε το πρόβλημα και προσθέτει νέους ελέγχους για να μην επαναληφθεί.
THE LIFO TEAM
ΔΕΠΥ ΠΑΙΔΙΑ

Τech & Science / ΔΕΠΥ: Εργαλείο τεχνητής νοημοσύνης θα μπορούσε να βοηθήσει στην έγκαιρη διάγνωση στα παιδιά

Οι ερευνητές διαπίστωσαν ότι το σύστημα τεχνητής νοημοσύνης μπορούσε να εντοπίζει με ακρίβεια πρώιμα προειδοποιητικά σημάδια της Διαταραχής Ελλειμματικής Προσοχής και Υπερκινητικότητας, γεγονός που θα μπορούσε να επιτρέψει στα παιδιά να λάβουν την απαραίτητη υποστήριξη πολύ νωρίτερα
THE LIFO TEAM