Ο Γιάννης Ασσαέλ τελείωσε πρώτος στο master του στο πανεπιστήμιο της Οξφόρδης, και τώρα είναι διδακτορικός φοιτητής σε μια από τις καλύτερες ομάδες τεχνητής νοημοσύνης (artificial intelligence AI). Υπεύθυνοι του εργαστηρίου του είναι οι Nando de Freitas (Google Deepmind, University of Oxford) και Shimon Whiteson (University of Oxford), και δουλεύουν πάνω στο trending field του Deep Learning.

  

Τώρα η ομάδα του ανέπτυξε ένα σύστημα τεχνητής νοημοσύνης με την ονομασία LipNet, το οποίο μπορεί να διαβάσει τα χείλη των ανθρώπων πολύ καλύτερα από τους ίδιους τους ανθρώπους. Το σύστημα παρακολουθεί βίντεο χωρίς ήχο με έναν άνθρωπο να μιλάει και μπορεί να μαντέψει τι λέει με ακρίβεια 93%, παρακολουθώντας την κίνηση του στόματος του ομιλητή. Οι δοκιμές έδειξαν ότι ενώ το «έξυπνο» σύστημα έχει μέσο ποσοστό λάθους μόνο 6,6% στην ανάγνωση των χειλιών, το ποσοστό λάθους των ανθρώπων είναι πολύ μεγαλύτερο (48%), ενώ και στους επαγγελματίες δεν πέφτει κάτω από 40%.

 

«To LipNet αποτελεί ένα μοντέλο τεχνητής νοημοσύνης βασισμένο σε νευρωνικά δίκτυα» εξηγεί ο κ. Ασσαέλ στο LIFO.gr. «Δέχεται ως είσοδο ένα βίντεο, εστιασμένο στο στόμα κάποιου ομιλητή, και μας επιστρέφει την πρόταση που ειπώθηκε. Αξίζει να σημειωθεί ότι το LipNet είναι το πρώτο μοντέλο που για πρώτη φορά μπορεί να προβλέψει ολόκληρες προτάσεις αντί μεμονωμένες λέξεις, κάτι που χρήζει ιδιαίτερης σημασίας για οποιαδήποτε πρακτική εφαρμογή.»

 

Να η σύντομη παρουσίασή του:

 

Η ανάπτυξη του συστήματος χρηματοδοτήθηκε εν μέρει από τη θυγατρική τεχνητής νοημοσύνης Deep Mind της Google. Ποια είναι η χρησιμότητά του όμως;

 

«Το εν λόγω σύστημα μπορεί να χρησιμοποιηθεί σε ένα πολύ μεγάλο εύρος εφαρμογών από υποβοήθηση ατόμων με προβλήματα ακοής, που αποτελεί τον πρώτο μας στόχο, ως βελτίωση όλων των συστημάτων αναγνώρισης φωνής σε θορυβώδη περιβάλλοντα και αθόρυβη υπαγόρευση. Με λίγα λόγια το Siri δεν θα χρειαστεί να ακούσει ποτέ ξανά την φωνή σας όταν θέλετε να διατηρήσετε την ιδιωτικότητα των δεδομένων σας.»

 

Οι πιθανές πρακτικές εφαρμογές ενός τέτοιου συστήματος περιλαμβάνουν και τη βελτίωση των ακουστικών βαρηκοΐας, την αυτόματη μετατροπή συζητήσεων σε κείμενο, την αναγνώριση ομιλίας σε περιβάλλοντα με θόρυβο, τη βιομετρική ταυτοποίηση ατόμων, τον υποτιτλισμό ταινιών του βωβού κινηματογράφου κ.α.

 

«Έρευνες έχουν δείξει ότι η ακρίβεια αναγνώρισης λέξεων ατόμων με προβλήματα ακοής είναι ~20%» τονίζει ο ερευνητής. «Τα δεδομένα που βρήκαμε για να εκπαιδεύσουμε το LipNet ήταν σε προτάσεις με περιορισμένη γραμματική και λεξιλόγιο. Παρ όλα αυτά μετρήσαμε την ακρίβεια ατόμων με προβλήματα ακοής και ήταν ~50%, ενώ στα ίδια δεδομένα το LipNet είχε ακρίβεια ~97%.

Στόχος μας είναι να βοηθήσουμε αυτές τις ομάδες πληθυσμού και να εξερευνήσουμε προεκτάσεις σε συστήματα αναγνώρισης φωνής.»

 

Tο project έγινε σε συνεργασία με τον Brendan Shillingford στο πανεπιστήμιο της Οξφόρδης, και μέρος του χρηματοδοτήθηκε από την Google DeepMind και την ευγενική χορηγία του υπερυπολογιστή DGX-1 της NVIDIA. Το άρθρο της ομάδας είναι διαθέσιμο σε όλους.  

 

Ο Γιάννης Ασσαέλ γεννήθηκε το 1991, αποφοίτησε από το Κολλέγιο «Ανατόλια» της Θεσσαλονίκης, σπούδασε στο Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας και πήρε υποτροφία από το ΙΚΥ για να κάνει μεταπτυχιακά στη Βρετανία. Κάνει το διδακτορικό του στη μηχανική μάθηση, στο Τμήμα Επιστήμης Υπολογιστών του Πανεπιστημίου της Οξφόρδης, όπου σήμερα διεξάγει έρευνα.

 

Υπενθυμίζουμε πως πριν από μερικούς μήνες είχαμε παρουσιάσει στο LIFO.gr και το προηγούμενο πρότζεκτ της ομάδας του, στο οποίο η Τεχνητή Νοημοσύνη έλυσε το γρίφο των 100 καπέλων. Μπορείτε να διαβάσετε τα αποτελέσματά του στο παρακάτω λινκ.