Η Google παρουσιάζει την τέλεια απομίμηση ανθρώπινης φωνής από Τεχνητή Νοημοσύνη

Η Google παρουσιάζει την τέλεια απομίμηση ανθρώπινης φωνής από Τεχνητή Νοημοσύνη Facebook Twitter
Η Google μόλις αποκάλυψε την πρώτη αλάνθαστη εξοιμείωση της ανθρώπινης φωνής από το νέο της σύστημα Τεχνητής Νοημοσύνης.
0

Πριν ένα χρόνο το σύστημα WaveNet της Google είχε φέρει την τεχνητή και μηχανική ομιλία σε πρωτοποριακά επίπεδα. Λίγο πριν κλείσει το 2017 η Google ανακοίνωσε ένα νέο σύστημα που μετατρέπει κείμενο σε ομιλία με μια τεχνητή φωνή που πολύ δύσκολα ξεχωρίζει από ανθρώπινη.

Η Google πρωτοπορεί με ένα ολοκαίνουργιο σύστημα μετατροπής κειμένου σε ομιλία το οποίο ονομάζει Tacotron 2 και λειτουργεί με εκπληκτική ακρίβεια, παρέχοντας φωνητικές αφηγήσεις που δεν διακρίνονται από τη φωνή ενός πραγματικού ανθρώπου. Και δεν για υπερβολή: Το Tacotron 2 τεχνολογία δεύτερης γενιάς και αποτελείται από δύο βαθιά νευρωνικά δίκτυα, ένα που μετατρέπει το κείμενο σε ένα ειδικό φασματογράφημα (όπως αυτό που βλέπετε στην εικόνα παρακάτω) και ένα δεύτερο, το WaveNet, που διαβάζει αυτό το γράφημα και το ερμηνεύει σε μια πραγματική φωνή.

Το σύστημα μέχρι σήμερα είναι εκπαιδευμένο να εργάζεται μόνο στα αγγλικά με τη μία θηλυκή φωνή που μπορείτε να ακούσετε στα δείγματα που βρίσκονται στο σύνδεσμο παρακάτω. Το εκπληκτικό όμως δεν είναι ότι μπορεί να διαβάσει με τέλεια προφορά (η οποία δεν ξεχωρίζει από την ανθρώπινη), αλλά ότι είναι σε θέση να τονίζει τις αποχρώσεις σε μια πρόταση. Επίσης, αν μια συγκεκριμένη λέξη είναι γραμμένη με κεφαλαία, θα της προσθέσει μια έμφαση στον τρόπο απόδοσής της, ενώ εάν προσπαθήσει να διαβάζει μια πρόταση που έχει γραφτεί με μοντέρνο τρόπο, θα την καταλάβει και θα τη διαβάσει, αφού το σύστημα αυτό είναι σε θέση να αντιμετωπίσει και μια μικρή (ακόμα) ποσότητα τυπογραφικών λαθών ή μοντέρνας έκφρασης. 

Η Google παρουσιάζει την τέλεια απομίμηση ανθρώπινης φωνής από Τεχνητή Νοημοσύνη Facebook Twitter
Αυτό είναι το φασματογράφημα της λέξης «whoa» από το σύστημα Tecotron 2 της Google.

Το νέο σύστημα, με κανένα τρόπο, δεν ακούγεται ρομποτικό ή ψηφιοποιημένο και μπορεί να πει τη σωστή προφορά δύο ίδιων γραμμένων λέξεων ανάλογα με τη σημασία τους στην πρόταση.

Μια πλήρης περιγραφή του νέου συστήματος της Google μπορεί να βρεθεί στην εργασία «Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.» Χρησιμοποιώντας ένα μοντέλο ακολουθιών το Tacotron 2 χαρτογραφεί την ακολουθία των γραμμάτων σε μια σειρά χαρακτηριστικών που κωδικοποιούν τον ήχο. Όλα αυτά τα χαρακτηριστικά, δημιουργούν ένα 80-διάστατο φασματογράφημα ήχου, χωρισμένο σε καρέ που υπολογίζονται κάθε 12,5 χιλιοστά του δευτερολέπτου, τα οποία καταγράφουν όχι μόνο την προφορά λέξεων αλλά και διάφορες λεπτές αποχρώσεις της ανθρώπινης ομιλίας, συμπεριλαμβανομένου του όγκου, της ταχύτητας και του ήχου. Τέλος, αυτά τα χαρακτηριστικά μετατρέπονται σε μια κυματομορφή 24 kHz χρησιμοποιώντας την αρχιτεκτονική του συστήματος WaveNet.

Σε αντίθεση με ορισμένες βασικές έρευνες AI που κάνει η εταιρεία, αυτή η τεχνολογία είναι άμεσα χρήσιμη για την Google. Το WaveNet, που ανακοινώθηκε για πρώτη φορά το 2016, χρησιμοποιείται τώρα για τη δημιουργία της φωνής στο Google Assistant. Μόλις προετοιμαστεί για παραγωγή, το Tacotron 2 θα μπορούσε να είναι μια ακόμη πιο ισχυρή προσθήκη στην υπηρεσία.

Ωστόσο, το σύστημα έχει «εκπαιδευτεί» για να μιμείται μόνο τη συγκεκριμένη θηλυκή φωνή. Για να μιλήσει σαν άνδρας ή κάποια άλλη γυναίκα, η Google θα πρέπει να εκπαιδεύσει ξανά το σύστημα απο την αρχή.

Εδώ μπορείτε να ακούσετε τα φανταστικά δείγματα της νέας τεχνητής φωνής της Google σε σύγκριση με τα πραγματικά δείγματα πάνω στα οποία εκπαιδεύτηκε. 

Τech & Science
0

ΔΕΙΤΕ ΑΚΟΜΑ

PFAS ΠΑΝΤΟΤΙΝΑ ΧΗΜΙΚΑ ΠΑΙΔΙΑ ΛΕΥΧΑΙΜΙΑ

Τech & Science / Η πρώιμη έκθεση των παιδιών στα «παντοτινά χημικά» συνδέεται με κίνδυνο εμφάνισης λευχαιμίας

Tα «παντοτινά χημικά» βρίσκονται μεταξύ άλλων σε πόσιμο νερό, δοχεία τροφίμων και ποτών, αντικολλητικά μαγειρικά σκεύη και υφάσματα ανθεκτικά στους λεκέδες
THE LIFO TEAM
Η Canva ζήτησε συγγνώμη επειδή AI εργαλείο της άλλαζε τη λέξη «Palestine» σε «Ukraine»

Τech & Science / Η Canva ζήτησε συγγνώμη επειδή AI εργαλείο της άλλαζε τη λέξη «Palestine» σε «Ukraine»

Το Magic Layers, νέο εργαλείο τεχνητής νοημοσύνης της Canva, φέρεται να αντικαθιστούσε τη λέξη «Palestine» με «Ukraine» σε σχέδια χρηστών. Η εταιρεία είπε ότι διόρθωσε το πρόβλημα και προσθέτει νέους ελέγχους για να μην επαναληφθεί.
THE LIFO TEAM
ΔΕΠΥ ΠΑΙΔΙΑ

Τech & Science / ΔΕΠΥ: Εργαλείο τεχνητής νοημοσύνης θα μπορούσε να βοηθήσει στην έγκαιρη διάγνωση στα παιδιά

Οι ερευνητές διαπίστωσαν ότι το σύστημα τεχνητής νοημοσύνης μπορούσε να εντοπίζει με ακρίβεια πρώιμα προειδοποιητικά σημάδια της Διαταραχής Ελλειμματικής Προσοχής και Υπερκινητικότητας, γεγονός που θα μπορούσε να επιτρέψει στα παιδιά να λάβουν την απαραίτητη υποστήριξη πολύ νωρίτερα
THE LIFO TEAM
Η Τέιλορ Σουίφτ θέλει να κατοχυρώσει τη φωνή της πριν την αντιγράψει η τεχνητή νοημοσύνη

Τech & Science / Η Τέιλορ Σουίφτ θέλει να κατοχυρώσει τη φωνή της πριν την αντιγράψει η τεχνητή νοημοσύνη

Η Τέιλορ Σουίφτ κατέθεσε αιτήσεις για την κατοχύρωση δύο ηχητικών αποσπασμάτων της φωνής της και μίας φωτογραφίας της από τη σκηνή, σε μια κίνηση που συνδέεται με την ανησυχία για AI deepfakes, ψεύτικες διαφημίσεις και μη εξουσιοδοτημένες χρήσεις της εικόνας της.
THE LIFO TEAM
Οι influencers αντικαθιστούν τον εαυτό τους με AI κλώνους

Τech & Science / Οι influencers αντικαθιστούν τον εαυτό τους με AI κλώνους

Από τον Κάμπι Λέιμ μέχρι τον Άντι Κόεν, τα AI «ψηφιακά δίδυμα» δημιουργών και celebrities γίνονται το νέο προϊόν για brands, πλατφόρμες και talent agencies. Η υπόσχεση είναι λιγότερο burnout και περισσότερες εμπορικές ευκαιρίες. Ο κίνδυνος, όμως, είναι πολύ μεγαλύτερος: οι creators να χάσουν τον έλεγχο της ίδιας τους της εικόνας.
THE LIFO TEAM
Σχεδόν τα μισά τραγούδια που ανεβαίνουν καθημερινά στο Deezer είναι φτιαγμένα από AI

Τech & Science / Σχεδόν τα μισά τραγούδια που ανεβαίνουν καθημερινά στο Deezer είναι φτιαγμένα από AI

Η τεχνητή νοημοσύνη υπογράφει πλέον το 44% των νέων uploads στο Deezer, όμως πίσω από τα 75.000 καθημερινά tracks κρύβεται ένα παράδοξο: η πραγματική ακροαματικότητα παραμένει οριακή, ενώ τα περισσότερα streams αποδεικνύονται πλασματικά, αφήνοντας τους δημιουργούς χωρίς έσοδα.
THE LIFO TEAM
ΔΙΑΣΤΗΜΑ ΣΕΛΗΝΗ ΚΙΝΑ ΗΠΑ

Τech & Science / «Η χελώνα και ο λαγός»: θα νικήσει η Κίνα τις ΗΠΑ στον «αγώνα» επιστροφής στη Σελήνη;

Οι αντίπαλες υπερδυνάμεις εντείνουν τις προετοιμασίες για μια επανδρωμένη προσγείωση στη Σελήνη, σχεδόν έξι δεκαετίες μετά το πρώτο βήμα στον φυσικο δορυφόρο της Γης
THE LIFO TEAM