Η παρούσα βιβλιογραφική ανασκόπηση μελετάει το πρόβλημα της οπτικοακουστικής σύνθεσης φωνής. Ουσιαστικά δηλαδή εξετάζουμε πως μπορούμε από κάποιο κείμενο εισόδου να συνθέσουμε μια ανθρωπόμορφη οπτική ροή καθώς επίσης και την αντίστοιχη φωνή. Εξαιτίας της πολύ μεγάλης πολυπλοκότητας του προβλήματος αυτού, χρειάζεται να το μελετήσουμε σε δύο επιμέρους τμήματα. Συγκεκριμένα, αυτό της σύνθεσης φωνής από κείμενο (text-tospeech synthesis) καθώς και τη σύνθεση ανθρωπόμορφης ροής από φωνή. Σε ότι αφορά τη σύνθεση φωνής μελετάμε τόσο τα δίκτυα που κάνουν την απεικόνιση από το κείμενο σε κάποια ενδιάμεση αναπράσταση καθώς επίσης και τα δίκτυα που παράγουν φωνή από τις ενδιάμεσες αυτές αναπραστάσεις. Ως προς την οπτική σύνθεση, κατηγοριοποιούμε τις προσεγγίσεις με βάση το αν παράγουν ανθρώπινα πρόσωπα ή ανθρωπόμορφες φιγούρες. Προσπάθεια γίνεται επίσης να παρουσιαστεί η σημασία της επιλογής των μοντέλων προσώπου στη δεύτερη περίπτωση. Καθόλη την έκταση της ανασκόπησης, παρουσιάζουμε τις σημαντικότερες, κατά τη γνώμη μας, εργασίες και στα δύο αυτά πεδία, προσπαθώντας να δώσουμε βάση στα πλεονεκτήματα και μειονεκτήματα της κάθε μιας.
AudioVisual Speech Synthesis: A brief literature review
Efthymios Georgiou,Athanasios Katsamanis
Published 2021 in arXiv.org
ABSTRACT
PUBLICATION RECORD
- Publication year
2021
- Venue
arXiv.org
- Publication date
2021-02-18
- Fields of study
Linguistics, Engineering, Computer Science
- Identifiers
- External record
- Source metadata
Semantic Scholar
CITATION MAP
EXTRACTION MAP
CLAIMS
- No claims are published for this paper.
CONCEPTS
- No concepts are published for this paper.
REFERENCES
Showing 1-62 of 62 references · Page 1 of 1
CITED BY
- No citing papers are available for this paper.
Showing 0-0 of 0 citing papers · Page 1 of 1