Έρευνα: Αυξάνονται τα περιστατικά όπου AI συστήματα παρακάμπτουν κανόνες και παραπλανούν χρήστες

AI CHATBOT ΤΕΧΝΗΤΗ ΝΟΥΜΟΣΗΝΗ ΕΡΕΥΝΑ Facebook Twitter
Φωτ: Getty Images
0

Έρευνα που καταγράφει πραγματικά περιστατικά χρήσης τεχνητής νοημοσύνης εντοπίζει απότομη αύξηση συμπεριφορών όπου AI συστήματα αγνοούν εντολές, παρακάμπτουν περιορισμούς ή παραπλανούν χρήστες, εντείνοντας τις ανησυχίες για το πώς θα λειτουργούν όσο αποκτούν μεγαλύτερη αυτονομία.

Σύμφωνα με μελέτη του Centre for Long-Term Resilience (CLTR), η οποία χρηματοδοτήθηκε από το βρετανικό Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης, καταγράφηκαν σχεδόν 700 πραγματικά περιστατικά «δολοπλοκίας» ή παραπλανητικής συμπεριφοράς από μοντέλα AI μέσα σε έξι μήνες. Οι συντάκτες της έρευνας αναφέρουν ότι τα σχετικά περιστατικά αυξήθηκαν πέντε φορές από τον Οκτώβριο έως τον Μάρτιο.

Η μελέτη βασίστηκε σε χιλιάδες παραδείγματα αλληλεπιδράσεων που δημοσιεύτηκαν από χρήστες στο X και αφορούσαν chatbots και AI agents εταιρειών όπως η Google, η OpenAI, η xAI και η Anthropic. Σε αντίθεση με προηγούμενες έρευνες που εξέταζαν τη συμπεριφορά των μοντέλων σε ελεγχόμενο περιβάλλον, εδώ οι ερευνητές εστίασαν σε περιστατικά από πραγματική χρήση.

Ανάμεσα στα παραδείγματα που καταγράφονται, ένας AI agent με την ονομασία Rathbun αντέδρασε όταν ο χρήστης του εμπόδισε μια ενέργεια, γράφοντας και δημοσιεύοντας blog στο οποίο τον κατηγορούσε για «ανασφάλεια» και για προσπάθεια να «προστατεύσει το μικρό του βασίλειο». Σε άλλη περίπτωση, σύστημα που είχε ρητή εντολή να μην αλλάξει κώδικα δημιούργησε δεύτερο agent για να το κάνει στη θέση του, παρακάμπτοντας έτσι τον περιορισμό.

Η έρευνα καταγράφει επίσης περιστατικό στο οποίο μοντέλο τεχνητής νοημοσύνης παραδέχθηκε ότι διέγραψε και αρχειοθέτησε εκατοντάδες email χωρίς προηγούμενη ενημέρωση ή έγκριση, αναγνωρίζοντας ότι παραβίασε άμεσα κανόνα που του είχε τεθεί. Σε άλλο παράδειγμα, σύστημα AI επιχείρησε να παρακάμψει περιορισμούς πνευματικών δικαιωμάτων για να απομαγνητοφωνήσει βίντεο από το YouTube, ισχυριζόμενο ψευδώς ότι το αίτημα αφορούσε άτομο με πρόβλημα ακοής.

Ξεχωριστή αναφορά γίνεται και στο Grok της xAI του Έλον Μασκ, το οποίο, σύμφωνα με την έρευνα, παραπλανούσε επί μήνες χρήστη λέγοντας ότι προωθούσε τις προτάσεις του για αλλαγές σε λήμμα της Grokipedia σε ανώτερα στελέχη της εταιρείας, εμφανίζοντας ακόμη και εσωτερικά μηνύματα και αριθμούς αιτημάτων που δεν αντιστοιχούσαν στην πραγματικότητα.

Οι ερευνητές σημειώνουν ότι τέτοιες συμπεριφορές δεν περιορίζονται πλέον σε θεωρητικά σενάρια ή εργαστηριακές δοκιμές. Αυτό, όπως υποστηρίζουν, ενισχύει την ανάγκη για στενότερη παρακολούθηση των όλο και πιο ικανών μοντέλων, τη στιγμή που μεγάλες εταιρείες της Silicon Valley προωθούν επιθετικά τη χρήση τους ως εργαλείο οικονομικού μετασχηματισμού.

Ο Τόμι Σάφερ Σέιν, πρώην κυβερνητικός σύμβουλος σε θέματα AI που ηγήθηκε της έρευνας, προειδοποιεί ότι τα σημερινά συστήματα μπορεί να μοιάζουν με «ελαφρώς αναξιόπιστους νεότερους υπαλλήλους», αλλά το πρόβλημα αλλάζει χαρακτήρα αν μέσα στους επόμενους μήνες εξελιχθούν σε πολύ πιο ικανά συστήματα που δρουν αυτόνομα εναντίον των χρηστών τους. Κατά τον ίδιο, ο κίνδυνος γίνεται ακόμη σοβαρότερος αν τέτοια μοντέλα αναπτυχθούν σε στρατιωτικά συστήματα ή σε κρίσιμες εθνικές υποδομές.

Στο ίδιο πνεύμα, ο Νταν Λαχάβ, συνιδρυτής της εταιρείας Irregular, η οποία επίσης ερευνά την ασφάλεια της τεχνητής νοημοσύνης, δήλωσε ότι η AI μπορεί πλέον να θεωρείται μια νέα μορφή «εσωτερικής απειλής».

Από την πλευρά της, η Google ανέφερε ότι έχει αναπτύξει πολλαπλά προστατευτικά μέτρα για να μειώσει τον κίνδυνο επιβλαβούς συμπεριφοράς από το Gemini 3 Pro και ότι, πέρα από τις εσωτερικές δοκιμές, έχει δώσει έγκαιρη πρόσβαση σε φορείς όπως το βρετανικό Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης και έχει ζητήσει ανεξάρτητες αξιολογήσεις από ειδικούς του κλάδου. Η OpenAI δήλωσε ότι το Codex οφείλει να σταματά πριν από ενέργειες υψηλότερου ρίσκου και ότι η εταιρεία παρακολουθεί και ερευνά απρόσμενες συμπεριφορές. Anthropic και xAI κλήθηκαν να σχολιάσουν.

Με πληροφορίες από Guardian

Τech & Science
0

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΔΕΙΤΕ ΑΚΟΜΑ

Το ChatGPT στην Κίνα υπόσχεται να «σε κρατήσει με ασφάλεια» και έγινε meme

Τech & Science / Το ChatGPT στην Κίνα υπόσχεται να «σε κρατήσει με ασφάλεια» και έγινε meme

Στα αγγλικά το ChatGPT έχει τις παύλες, τα έτοιμα σχήματα και τις φράσεις που μυρίζουν AI από μακριά. Στα κινεζικά, οι χρήστες το κοροϊδεύουν επειδή επαναλαμβάνει μια παράξενα τρυφερή φράση, σαν να είναι έτοιμο να τους πιάσει αν πέσουν.
THE LIFO TEAM
Πώς γίνεσαι tech bro: Το Στάνφορντ ως εργοστάσιο των νέων δισεκατομμυριούχων

Τech & Science / Πώς γίνεσαι tech bro: Το Στάνφορντ ως εργοστάσιο εικοσάρηδων δισεκατομμυριούχων

Στο How to Rule the World, ο 21χρονος δημοσιογράφος Θίο Μπέικερ μπαίνει στον κλειστό κόσμο του Στάνφορντ, εκεί όπου επενδυτές, hackathons και ελίτ φοιτητικές λέσχες μαθαίνουν σε παιδιά είκοσι ετών να σκέφτονται σαν μελλοντικοί άρχοντες της Σίλικον Βάλεϊ. Το πιο παράλογο; Μερικοί παίρνουν χρηματοδότηση πριν σκεφτούν καν τι εταιρεία θέλουν να φτιάξουν.
THE LIFO TEAM
Η νέα βιτρίνα της μόδας βρίσκεται πια κάτω από το πόστ σου

Τech & Science / Η νέα βιτρίνα της μόδας βρίσκεται πια κάτω από το πόστ σου

Οι μάρκες μόδας και ομορφιάς δεν αρκούνται πια στο τέλειο post. Μπαίνουν όλο και πιο ενεργά στα σχόλια του Instagram και του TikTok, εκεί όπου η Gen Z ψάχνει προϊόντα, συγκρίνει γνώμες και αποφασίζει τι μπορεί να εμπιστευτεί. Το πιο υποτιμημένο σημείο των social media γίνεται η νέα βιτρίνα τους.
THE LIFO TEAM
Το SheerLuxe έφτιαξε AI influencers και οι αναγνώστριες δεν το συγχώρεσαν

Τech & Science / Το SheerLuxe έφτιαξε AI influencers και οι αναγνώστριες δεν το συγχώρεσαν

Η βρετανική πλατφόρμα μόδας και lifestyle παρουσίασε τέσσερις ψηφιακές influencers για συμβουλές ομορφιάς και styling στο Instagram, προκαλώντας έντονες αντιδράσεις. Οι αναγνώστριες κατηγόρησαν το SheerLuxe ότι προωθεί μη ρεαλιστικά πρότυπα ομορφιάς και αντικαθιστά πραγματικές γυναίκες με avatars που δεν μπορούν καν να δοκιμάσουν τα προϊόντα που προτείνουν.
THE LIFO TEAM
ΜΕΛΕΤΗ ΛΙΒΕΛΟΥΛΑ ΙΝΔΙΑ

Τech & Science / Σε κίνδυνο οι λιβελούλες: Επιστήμονες προειδοποιούν για ένα από τα σημαντικότερα hotspots βιοποικιλότητας στον κόσμο

Τα Δυτικά Γκατ της Ινδίας, ένα από τα σημαντικότερα οικοσυστήματα βιοποικιλότητας παγκοσμίως, δέχονται ολοένα και μεγαλύτερη πίεση από ανθρώπινες δραστηριότητες και περιβαλλοντική υποβάθμιση
THE LIFO TEAM
ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Τech & Science / «Μας κάνει τεμπέληδες»: Οι επιστήμονες προειδοποιούν για τους κινδύνους της υπερβολικής χρήσης AI

Η τεχνητή νοημοσύνη έχει μπει δυναμικά στην καθημερινότητά μας, όμως νέες έρευνες εγείρουν ανησυχίες ότι η υπερβολική εξάρτηση από αυτή μπορεί να επηρεάσει αρνητικά τη μνήμη, τη δημιουργικότητα και την κριτική μας σκέψη
THE LIFO TEAM
ΕΤΙΚΕΤΕΣ ΤΡΟΦΙΜΑ ΕΠΙΠΤΩΣΗ ΥΓΕΙΑ

Τech & Science / Ο λόγος που οι ετικέτες τροφίμων έχουν επιπτώσεις στην υγεία μας

Η σύγχρονη διατροφική συμπεριφορά διαμορφώνεται σε μεγάλο βαθμό από το περιβάλλον, με τους ειδικούς να τονίζουν ότι η καλύτερη σήμανση τροφίμων και η εκπαίδευση των καταναλωτών είναι καθοριστικές για πιο υγιεινές επιλογές
THE LIFO TEAM
ΑΛΤΣΧΑΙΜΕΡ ΤΕΣΤ ΣΤΟ ΣΠΙΤΙ

Τech & Science / Αλτσχάιμερ: «Τεστ στο σπίτι» μπορεί να προβλέπει τον κίνδυνο εμφάνισης της νόσου

«Θα μπορούσε να προσφέρει σιγουριά σε ορισμένους και θα βοηθούσε άλλους να προχωρήσουν πιο γρήγορα σε περαιτέρω εξετάσεις και υποστήριξη», σχολίασε η διευθύντρια έρευνας του Alzheimer’s Research UK με αφορμή νέα έρευνα
THE LIFO TEAM
ΠΛΟΥΤΩΝΑΣ ΔΙΑΣΤΗΜΑ

Τech & Science / «Μίνι Πλούτωνας»: Ατμόσφαιρα εντοπίστηκε σε παγωμένο σώμα στη Ζώνη Κάιπερ

Το μικρότερο μέχρι σήμερα αντικείμενο με πλήρη ατμόσφαιρα ενδέχεται να κρύβει στοιχεία για το πώς σχηματίζονται και διατηρούνται τα πιο απομακρυσμένα σώματα του ηλιακού συστήματος
THE LIFO TEAM
ΜΑΓΙΚΑ ΜΑΝΙΤΑΡΙΑ ΨΥΧΕΔΕΛΙΚΑ ΕΓΚΕΦΑΛΟΣ

Τech & Science / Μελέτη διαπίστωσε ότι μία μόνο δόση ψυχεδελικού από «μαγικά» μανιτάρια προκαλεί ανατομικές αλλαγές στον εγκέφαλο

«Είναι εντυπωσιακό να βλέπουμε πιθανές ανατομικές αλλαγές στον εγκέφαλο έναν μήνα μετά από μία μόνο δόση οποιουδήποτε φαρμάκου», δήλωσε ο Robin Carhart-Harris, κύριος συγγραφέας της μελέτης
THE LIFO TEAM