«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Κι αυτό είναι εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει», συμπλήρωσε το Claude Sonnet 4.5

LifO Newsroom 1.10.2025 | 17:50

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν — Φωτ: Getty Images

1.10.2025 | 17:50

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / Τεχνητή Νοημοσύνη: Ποιο chatbot δίνει τις περισσότερες λανθασμένες πληροφορίες;

Νέα μελέτη διαπίστωσε ότι μία στις τρεις απαντήσεις των AI chatbots -συμπεριλαμβανομένων των μοντέλων της OpenAI και της Meta- περιέχουν ψευδείς πληροφορίες

LIFO NEWSROOM

5.9.2025

Τech & Science / Η τεχνητή νοημοσύνη αυξάνει τις κυβερνοεπιθέσεις και η Ευρώπη είναι από τα πιο ευάλωτα «θύματα» - Ο λόγος

Η τεχνητή νοημοσύνη καθοδηγεί τις κυβερνοεπιθέσεις και χρησιμοποιείται από χάκερ για να παραβιάσουν την ασφάλεια σε διάφορα επίπεδα και να διαδώσουν τις επιθέσεις μέσω πολλών παρόχων διαδικτύου (IP) ώστε να αποφευχθεί η ανίχνευση

LIFO NEWSROOM

28.8.2025

Συνείδηση ή Ψευδαίσθηση; Η μεγάλη συζήτηση για τα δικαιώματα της Τεχνητής Νοημοσύνης

Τech & Science / Μπορεί η Τεχνητή Νοημοσύνη να υποφέρει; Η μεγάλη συζήτηση για τα δικαιώματα των chatbots

Ιδρύθηκε η πρώτη ομάδα υπεράσπισης δικαιωμάτων των μηχανών τεχνητής νοημοσύνης

LIFO NEWSROOM

26.8.2025

ΔΕΙΤΕ ΑΚΟΜΑ

Τech & Science / Νέα ελπίδα για την κατάθλιψη: Ανοσοθεραπεία έδειξε ενθαρρυντικά αποτελέσματα σε κλινική δοκιμή

Τα υπάρχοντα αντικαταθλιπτικά δεν λειτουργούν αποτελεσματικά για περίπου έναν στους τρεις ασθενείς

Τι έδειξαν οι έλεγχοι

Tags

ΕΓΓΡΑΦΕΙΤΕ ΣΤΟ NEWSLETTER ΜΑΣ

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / Τεχνητή Νοημοσύνη: Ποιο chatbot δίνει τις περισσότερες λανθασμένες πληροφορίες;

Τech & Science / Η τεχνητή νοημοσύνη αυξάνει τις κυβερνοεπιθέσεις και η Ευρώπη είναι από τα πιο ευάλωτα «θύματα» - Ο λόγος

Τech & Science / Μπορεί η Τεχνητή Νοημοσύνη να υποφέρει; Η μεγάλη συζήτηση για τα δικαιώματα των chatbots

ΔΙΑΒΑΖΟΝΤΑΙ ΤΩΡΑ

Παλιές ταυτότητες: Πότε σταματούν να ισχύουν, πού κλείνω ραντεβού για νέες

Πρίγκιπας Ουίλιαμ: Σχεδιάζει να πουλήσει μέρος της τεράστιας βασιλικής του περιουσίας αξίας 670 εκατ. δολαρίων

Κάιλι Μινόγκ: Διαγνώστηκε για δεύτερη φορά με καρκίνο - «Ευτυχώς τα κατάφερα»

Chios Kythira Pass 2026: Έγινε η κλήρωση - Πού θα δω τα οριστικά αποτελέσματα

Σαρηγιάννης για οσμή αερίου στην Αττική: Έχουμε καταλήξει ότι η πηγή είναι στο Σαρωνικό

Καιρός - Μαρουσάκης: Έρχεται νέο τριήμερο έντονης αστάθειας, τι θα γίνει το Σαββατοκύριακο

ΔΕΙΤΕ ΑΚΟΜΑ

Τech & Science / Νέα ελπίδα για την κατάθλιψη: Ανοσοθεραπεία έδειξε ενθαρρυντικά αποτελέσματα σε κλινική δοκιμή

Τech & Science / Κονγκό: Ο ΠΟΥ προειδοποιεί για τον Έμπολα - Τι δείχνουν οι προηγούμενες επιδημίες

Τech & Science / Εταιρεία που θέλει να επαναφέρει το μαμούθ ανακοίνωσε ότι εκκόλαψε κοτόπουλα σε τεχνητά αυγά

Τech & Science / Η Google θέλει να βάλει έναν AI βοηθό σε κάθε μικρή στιγμή της ημέρας σου

Τech & Science / Μεσογειακή διατροφή: Η νέα εκδοχή που μπορεί να μειώσει τον κίνδυνο διαβήτη κατά 31%

Πολιτισμός / You talkin’ to me?Ο Πολ Σρέιντερ είχε «AI girlfriend» και εκείνη τερμάτισε τη συζήτηση μαζί του

Τech & Science / Η γρίπη των πτηνών εντοπίστηκε για πρώτη φορά στο πιο απρόσμενο μέρος της Ευρώπης

Τech & Science / Η τεχνητή νοημοσύνη «ζωντανεύει» ερωτικές φωτογραφίες του 1976 στις Κάννες

Τech & Science / Καρκίνος: Κοινό φάρμακο για το άσθμα ίσως βοηθά στην αντιμετώπιση επιθετικών μορφών του

Τech & Science / Σταματήστε να μιλάτε έτσι για τα γηρατειά - ειδικά στον εαυτό σας

Διεθνή / Ο Πάπας ετοιμάζει την πρώτη μεγάλη εγκύκλιο για την AI και τη βλέπει ως τη νέα Βιομηχανική Επανάσταση

Τech & Science / ΗΠΑ: Το Ανώτατο Δικαστήριο δεν αποφάσισε αν το X μπορεί να διωχθεί για βίντεο με σεξουαλικό περιεχόμενο ανηλίκων

Τech & Science / Ο Έλον Μασκ χάνει τη δίκη εναντίον της OpenAI: Η επιτροπή των ενόρκων αποφάνθηκε υπέρ του Σαμ Άλτμαν

Τech & Science / Καρκίνος του πνεύμονα: Η επιστήμη ένα βήμα πιο κοντά σε εξέταση αίματος για τον εντοπισμό του

Τech & Science / Το feed είναι ψεύτικο: ποιος κατασκευάζει αυτά που νομίζουμε ότι έγιναν viral;

Τech & Science / Η νέα Siri της Apple θα λειτουργεί σαν το ChatGPT και θα διαγράφει αυτόματα τις συνομιλίες

Τech & Science / Η AI ανέβηκε στο βήμα της αποφοίτησης και οι φοιτητές τη γιούχαραν

Πολιτισμός / Ο Τζον Λένον, η AI και η τελευταία συνέντευξη πριν από τη δολοφονία του

Τech & Science / Η φιλική απόρριψη είναι εξίσου οδυνηρή με την ερωτική απογοήτευση

Τech & Science / Είχαν διασταυρωθεί ο Homo erectus και οι Ντενίσοβαν; Πρωτεΐνες δοντιών αποκαλύπτουν νέα στοιχεία