Τεχνητή νοημοσύνη: Όταν φτιάχνει το πορτρέτο σας με βάση μόνο τη φωνή σας! Τρομαχτικό;

Η μετατροπή της ομιλίας σε κείμενο έχει γίνει τόσο συνηθισμένη που είμαι μέρος σχεδόν κάθε smartphone. Σκεφτήκατε όμως ποτέ να μετατρέψετε την ομιλία σας σε πορτρέτο; Οι ερευνητές το σκέφτηκαν και μάλιστα το πραγματοποίησαν!

Από τη Μαρία Καλοπούλου

Επιστήμονες στο Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT (CSAIL) δημιούργησαν τεχνητή νοημοσύνη που μετατρέπει σύντομα αποσπάσματα ηχογράφησης ομιλίας σε ανθρώπινο πρόσωπο. Σαν να μην ήταν αρκετά εκπληκτικό και ανατριχιαστικό, τα αποτελέσματα είναι επίσης αρκετά ακριβή!

Οι ερευνητές του CSAIL δημοσίευσαν μια εργασία σχετικά με την εφεύρεσή τους το 2019. Είναι ένας αλγόριθμος που ονομάζεται, δεν αποτελεί έκπληξη, Speech2Face και το όνομα τα λέει όλα.

Κατέγραψαν ηχητικά αποσπάσματα διαφορετικών ατόμων που μιλούν και το Speech2Face αναδημιουργούσε το πορτρέτο τους βασισμένο μόνο σε μια ηχογράφηση τριών δευτερολέπτων της φωνής τους.

Είναι αρκετά ενδιαφέρον ότι το AI φαίνεται να λειτουργεί καλύτερα όταν τα ηχητικά κλιπ είναι μεγαλύτερα. Οι ερευνητές έχουν μοιραστεί μερικά παραδείγματα προσώπων που αναδημιουργήθηκαν από τρία έναντι έξι δευτερολέπτων ομιλίας.

Φυσικά, τα αποτελέσματα απέχουν πολύ από το τέλειο, αλλά εξακολουθούν να είναι εκπληκτικά και τρομερά ακριβή. Ωστόσο, η τεχνητή νοημοσύνη μερικές φορές χάνει εντελώς την ουσία και ανακατεύει το φύλο, την ηλικία και την εθνικότητα του θέματος:

Ανησυχίες για το απόρρητο

Παρόλο που ο αλγόριθμος δημιουργήθηκε μόνο για επιστημονικούς σκοπούς, έχει τεθεί το ζήτημα της ιδιωτικότητας. Η ομάδα ισχυρίζεται ότι η μέθοδός τους «δεν μπορεί να ανακτήσει την αληθινή ταυτότητα ενός ατόμου από τη φωνή του», δηλαδή να αναδημιουργήσει μια ακριβή εικόνα του προσώπου του.

«Αυτό συμβαίνει επειδή το μοντέλο μας είναι εκπαιδευμένο να καταγράφει οπτικά χαρακτηριστικά (που σχετίζονται με την ηλικία, το φύλο κ.λπ.) που είναι κοινά σε πολλά άτομα και μόνο σε περιπτώσεις όπου υπάρχουν αρκετά ισχυρά στοιχεία για να συνδέσουν αυτά τα οπτικά χαρακτηριστικά με χαρακτηριστικά φωνής/ομιλίας τα δεδομένα (βλ. «συσχετίσεις φωνής-προσώπου» παρακάτω). Ως εκ τούτου, το μοντέλο θα παράγει μόνο πρόσωπα μέσης εμφάνισης, με χαρακτηριστικά οπτικά χαρακτηριστικά που συσχετίζονται με την ομιλία εισόδου. Δεν θα παράγει εικόνες συγκεκριμένων ατόμων».

Ωστόσο, εάν ο αλγόριθμος γίνει τόσο περίπλοκος που θα μπορούσε να αναδημιουργήσει υπερρεαλιστικά πρόσωπα, τι αντίκτυπο θα μπορούσε να έχει; Η πρώτη σκέψη που μου έρχεται στο μυαλό είναι ότι η τεχνολογία όπως αυτή θα μπορούσε να βοηθήσει πάρα πολύ τους αστυνομικούς και τους ντετέκτιβ…

Ή απλά βλέπω πάρα πολλές σειρές με εγκλήματα και θρίλερ. Από την άλλη πλευρά, θα μπορούσε να έχει αρνητικό αντίκτυπο στα αστέρια του YouTube και του TikTok που προσπαθούν να σώσουν την ιδιωτική τους ζωή από τους οπαδούς τους, ώστε να κάνουν μόνο φωνές και να μην εμφανίζονται μπροστά στην κάμερα. Αλλά όπως κάθε τεχνολογία, υποθέτω ότι αυτή θα μπορούσε να είναι εξαιρετικά χρήσιμη σε καλά χέρια και επικίνδυνη σε κακά.