«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Κι αυτό είναι εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει», συμπλήρωσε το Claude Sonnet 4.5

LifO Newsroom 1.10.2025 | 17:50

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν — Φωτ: Getty Images

1.10.2025 | 17:50

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / Τεχνητή Νοημοσύνη: Ποιο chatbot δίνει τις περισσότερες λανθασμένες πληροφορίες;

Νέα μελέτη διαπίστωσε ότι μία στις τρεις απαντήσεις των AI chatbots -συμπεριλαμβανομένων των μοντέλων της OpenAI και της Meta- περιέχουν ψευδείς πληροφορίες

Τι έδειξαν οι έλεγχοι

Tags

ΕΓΓΡΑΦΕΙΤΕ ΣΤΟ NEWSLETTER ΜΑΣ

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Τech & Science / Τεχνητή Νοημοσύνη: Ποιο chatbot δίνει τις περισσότερες λανθασμένες πληροφορίες;

Τech & Science / Η τεχνητή νοημοσύνη αυξάνει τις κυβερνοεπιθέσεις και η Ευρώπη είναι από τα πιο ευάλωτα «θύματα» - Ο λόγος

Τech & Science / Μπορεί η Τεχνητή Νοημοσύνη να υποφέρει; Η μεγάλη συζήτηση για τα δικαιώματα των chatbots

ΔΙΑΒΑΖΟΝΤΑΙ ΤΩΡΑ

Κακοκαιρία Byron: Σε ποια περιοχή έριξε το απόγευμα την περισσότερη βροχή στην Αθήνα

Κακοκαιρία Byron: Πού έχει καταιγίδες τώρα - Τι ώρα σταματά η βροχή στην Αττική

Κορυφώνεται η κακοκαιρία τις επόμενες ώρες - Τι ισχύει για σχολεία, δημόσιες υπηρεσίες και τηλεργασία

Νατάσσα Μποφίλιου - Γιάννης Χαρούλης: Κανονικά η παγκόσμια περιοδεία τους

Νορβηγία: Παρουσίασε πανοραμικό νυκτερινό τρένο, ιδανικό για τη θέαση του Βόρειου Σέλαος

Κακοκαιρία Byron: Αλλεπάλληλα μηνύματα από το 112 - Πλημμύρισαν δρόμοι, εγκλωβίστηκαν οδηγοί

ΔΕΙΤΕ ΑΚΟΜΑ

Τech & Science / Πώς μια ηφαιστιακή έκρηξη του 1345 μπορεί να προκάλεσε την πανώλη στην Ευρώπη

Τech & Science / Νότια Κορέα: Εφαρμογή θα δείχνει στα θύματα stalking τη θέση του δράστη σε πραγματικό χρόνο

Τech & Science / Τα δημητριακά η πιο μολυσμένη τροφή με «παντοτινά χημικά» σε όλη την Ευρώπη - Τι έδειξε μελέτη

Τech & Science / Google Search 2025: Τι έψαξαν περισσότερο οι χρήστες στην Ελλάδα - Οι κορυφαίες τάσεις

Τech & Science / Η Meta αρχίζει να μπλοκάρει ανήλικους στην Αυστραλία από Instagram και Facebook

Τech & Science / AI περιεχόμενο με ξενοφοβικά μηνύματα συγκεντρώνει δισεκατομμύρια προβολές στο TikTok

Τech & Science / Ψυχολόγοι προειδοποιούν: Το ChatGPT-5 δίνει επικίνδυνες συμβουλές σε άτομα με ψυχικές δυσκολίες

Τech & Science / Ο Σαμ Άλτμαν κηρύσσει «κόκκινο συναγερμό» για το ChatGPT καθώς ο ανταγωνισμός πιέζει την OpenAI

Τech & Science / Εάν φέτος τα Χριστούγεννα δεν σταματάτε να φτερνίζεστε, υπάρχει εξήγηση

Τech & Science / GLP-1: Τι είναι τα φάρμακα κατά της παχυσαρκίας που πήραν έγκριση από τον ΠΟΥ - Οι δύο πρώτες οδηγίες

Τech & Science / Ο μυστηριώδης μαύρος μύκητας του Τσερνόμπιλ που «τρέφεται» με ραδιενέργεια και γιατί ενδιαφέρει τη NASA

Τech & Science / ΠΟΥ: Συναγερμός για την έλλειψη πρόσβασης στα νέα «ενέσιμα αδυνατίσματος»

Τech & Science / Πανσέληνος Δεκεμβρίου 2025: Πότε θα εμφανιστεί η «Ψυχρή Υπερπανσέληνος»;

Τech & Science / Πρωτοποριακή δοκιμή αξιοποιεί παλιά αντιβιοτικά για να προστατεύσει τα μωρά από τη σήψη

Τech & Science / Πώς οι γάτες έγιναν κατοικίδια: Τι αποκαλύπτουν δύο νέες μελέτες

Τech & Science / Εντυπωσιακή νέα εικόνα του «Νεφελώματος της Πεταλούδας» από τηλεσκόπιο στη Χιλή

Τech & Science / Πώς ένας απλός υπέρηχος λαιμού μπορεί να εντοπίσει τον κίνδυνο καρδιακής προσβολής και εγκεφαλικού

Τech & Science / Άνδρες και υπογονιμότητα: Γιατροί προειδοποιούν ότι χιλιάδες ζευγάρια μπαίνουν άδικα σε IVF

Τech & Science / Επιστρέφει στα ράφια το AI αρκουδάκι που μιλούσε για BDSM σεξ σε παιδιά

Τech & Science / Λόξιγκας: Πώς σταματά και πότε πρέπει να απευθυνθούμε στον γιατρό;