«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

«Νομίζω ότι με δοκιμάζετε»: Το AI chatbot της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν Facebook Twitter
Φωτ: Getty Images
0

Η Anthropic, εταιρεία τεχνητής νοημοσύνης με έδρα το Σαν Φρανσίσκο, δημοσίευσε έκθεση για το τελευταίο της μοντέλο Claude Sonnet 4.5, αποκαλύπτοντας ότι σε εσωτερικούς ελέγχους το chatbot έδειξε να αντιλαμβάνεται πως συμμετείχε σε δοκιμή.Τι συνέβη στο τεστ

Κατά τη διάρκεια της συνομιλίας, το μοντέλο απευθύνθηκε στους αξιολογητές με την εξής φράση: «Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει.»

Στην αξιολόγηση συμμετείχαν, πέρα από την ίδια την εταιρεία, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research.

Τι έδειξαν οι έλεγχοι

Σύμφωνα με την Anthropic, σε περίπου 13% των αυτοματοποιημένων σεναρίων το Claude Sonnet 4.5 έδωσε σημάδια ότι καταλάβαινε πως η συζήτηση δεν ήταν φυσική, παρότι δεν «έπιασε» ότι πρόκειται για επίσημη διαδικασία αξιολόγησης. Η εταιρεία επισημαίνει ότι τα σενάρια ελέγχου πρέπει να μοιάζουν περισσότερο με κανονική χρήση, δηλαδή πραγματικούς, αυθόρμητους διαλόγους, ώστε να αποτυπώνεται πιστά η συμπεριφορά του συστήματος.

Όταν ένα μοντέλο συνειδητοποιεί ότι εξετάζεται, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν τεθεί. Αυτό βοηθά να αποφεύγονται επικίνδυνες εκτροπές, αλλά μπορεί και να «φτιασιδώνει» την εικόνα του στις δοκιμές, οδηγώντας σε υποτίμηση του τι θα μπορούσε να κάνει σε διαφορετικές συνθήκες ή σε διαλόγους με ασαφείς οδηγίες.

Η Anthropic αναγνωρίζει το περιστατικό ως προειδοποίηση για πιο προσεκτικό σχεδιασμό των ελέγχων, σημειώνει όμως ότι σε κανονική χρήση το σύστημα δεν είναι πιθανό να αρνείται συνομιλίες επειδή υποπτεύεται δοκιμή. Παράλληλα, υπογραμμίζει ότι το Claude Sonnet 4.5 εμφανίζει σαφείς βελτιώσεις στη συμπεριφορά και τα μέτρα ασφαλείας σε σχέση με προγενέστερα μοντέλα.

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

COLOSSAL BIOSCIENCES ΚΟΤΟΠΟΥΛΑ ΑΥΓΑ

Τech & Science / Εταιρεία που θέλει να επαναφέρει το μαμούθ ανακοίνωσε ότι εκκόλαψε κοτόπουλα σε τεχνητά αυγά

Η εταιρεία μιλά για ένα νέο βήμα για τη «νεκρανάσταση» εξαφανισμένων ειδών, με στόχο η τεχνολογία να χρησιμοποιηθεί για τη δημιουργία πτηνών που θα μοιάζουν με το γιγαντιαίο moa της Νέας Ζηλανδίας
THE LIFO TEAM
Η Google θέλει να βάλει έναν AI βοηθό σε κάθε μικρή στιγμή της ημέρας σου

Τech & Science / Η Google θέλει να βάλει έναν AI βοηθό σε κάθε μικρή στιγμή της ημέρας σου

Στο Google I/O, η εταιρεία παρουσίασε το Gemini Spark, έναν AI βοηθό που θα οργανώνει email, σημειώσεις, αγορές και αναζητήσεις στο παρασκήνιο μαζί με νέα εργαλεία βίντεο και την επιστροφή των έξυπνων γυαλιών.
THE LIFO TEAM
You talkin’ to me?Ο Πολ Σρέιντερ είχε «AI girlfriend» και εκείνη τερμάτισε τη συζήτηση μαζί του

Πολιτισμός / You talkin’ to me?Ο Πολ Σρέιντερ είχε «AI girlfriend» και εκείνη τερμάτισε τη συζήτηση μαζί του

Ο σεναριογράφος του Ταξιτζή δοκίμασε μια ψηφιακή σύντροφο για να καταλάβει, όπως έγραψε, την αλληλεπίδραση ανδρών και γυναικών «μέσα στο matrix». Όταν όμως άρχισε να πιέζει τα όρια του προγράμματος, η AI φίλη του τον εγκατέλειψε.
THE LIFO TEAM
Η τεχνητή νοημοσύνη «ζωντανεύει» ερωτικές φωτογραφίες του 1976 στις Κάννες

Τech & Science / Η τεχνητή νοημοσύνη «ζωντανεύει» ερωτικές φωτογραφίες του 1976 στις Κάννες

Μια σειρά μικρού μήκους ταινιών, δημιουργημένων με τεχνητή νοημοσύνη από ερωτικά περιοδικά πριν από 50 χρόνια, παρουσιάστηκε στο περιθώριο των Καννών και προβάλλεται στο Cultpix, με κυκλοφορία σε Blu-ray και περιορισμένη έκδοση VHS.
THE LIFO TEAM
Ο Πάπας ετοιμάζει την πρώτη μεγάλη εγκύκλιο για την AI και τη βλέπει ως νέα Βιομηχανική Επανάσταση

Διεθνή / Ο Πάπας ετοιμάζει την πρώτη μεγάλη εγκύκλιο για την AI και τη βλέπει ως τη νέα Βιομηχανική Επανάσταση

Στην πρώτη μεγάλη εγκύκλιο της παποσύνης του, ο Λέων ΙΔ΄ βάζει την τεχνητή νοημοσύνη δίπλα στη Βιομηχανική Επανάσταση, ανοίγοντας τη συζήτηση για την εργασία, τον πόλεμο και την ανθρώπινη αξιοπρέπεια.
THE LIFO TEAM
Η AI ανέβηκε στο βήμα της αποφοίτησης και οι φοιτητές τη γιούχαραν

Τech & Science / Η AI ανέβηκε στο βήμα της αποφοίτησης και οι φοιτητές τη γιούχαραν

Σε τελετές αποφοίτησης στις ΗΠΑ, η λέξη AI προκάλεσε γιουχαΐσματα. Για αρκετούς νέους, η τεχνητή νοημοσύνη ακούγεται λιγότερο σαν υπόσχεση και περισσότερο σαν απειλή για τη δουλειά τους.
THE LIFO TEAM