«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν Facebook Twitter
Φωτ: Getty Images
0

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

ΝΑΡΚΩΤΙΚΑ ΕΓΚΕΦΑΛΙΚΟ

Τech & Science / Τα «ψυχαγωγικά» ναρκωτικά μπορεί να υπερδιπλασιάζουν τον κίνδυνο εγκεφαλικού επεισοδίου

Τα ιατρικά δεδομένα από 100 εκατομμύρια ανθρώπους δείχνουν ότι ο κίνδυνος εγκεφαλικού επεισοδίου είναι: 122% υψηλότερος για τους χρήστες αμφεταμίνης, 96% υψηλότερος για τους χρήστες κοκαΐνης, 37% υψηλότερος για τους χρήστες κάνναβης
THE LIFO TEAM
ΒΟΡΕΙΑ ΚΟΡΕΑ ΣΥΝΕΝΤΕΥΞΗ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΑΠΑΤΗ

Τech & Science / Microsoft: Βορειοκορεάτες χρησιμοποιούν AI για να ξεγελούν δυτικές εταιρείες και να προσλαμβάνονται

Η εταιρεία ισχυρίζεται ότι τα εργαλεία τεχνητής νοημοσύνης αποκρύπτουν την ταυτότητα των δήθεν υποψηφίων, οι οποίοι στη συνέχεια διοχετεύουν τους μισθούς τους προς τη Βόρεια Κορέα
THE LIFO TEAM
ΣΕΛΗΝΗ ΦΕΓΓΑΡΙ ΡΕΒΙΘΙΑ

Τech & Science / Επιστήμονες καλλιέργησαν ρεβίθια σε προσομοιωμένο σεληνιακό χώμα

Το σεληνιακό έδαφος δεν υποστηρίζει την υγιή ανάπτυξη των φυτών, καθώς περιέχει υψηλές συγκεντρώσεις ορισμένων μετάλλων, δεν επιτρέπει στο νερό να φιλτράρεται εύκολα και δεν διαθέτει το μικροβίωμα που βρίσκεται στα γήινα εδάφη
THE LIFO TEAM
ΕΓΚΥΟΣ ΕΓΚΥΜΟΣΥΝΗ ΕΓΚΕΦΑΛΟΣ ΜΗΤΡΟΤΗΤΑ

Τech & Science / Έρευνα: Οι γυναίκες χάνουν φαιά ουσία κατά τη διάρκεια της εγκυμοσύνης

Πρόσφατη μελέτη, η μεγαλύτερη μέχρι σήμερα, δείχνει ότι η εγκυμοσύνη επηρεάζει σημαντικά τη δομή του εγκεφάλου και προσφέρει νέα στοιχεία για τις νευρολογικές αλλαγές στις μέλλουσες μητέρες
THE LIFO TEAM