ByteDance réunit voix, musique et bruitages dans Seed Audio 1.0

ByteDance pousse plus loin la synthèse audio avec Seed Audio 1.0, un modèle qui ne se limite pas à la voix. Issu de l'équipe Seed/Doubao, il génère en une seule passe la parole, la musique de fond et les effets sonores, sans étape de montage séparée. Le système prend en charge le dialogue multi-personnages avec des voix distinctes, la gestion des émotions, des accents et des éléments non verbaux. Le rendu peut s'appuyer sur une entrée texte et se laisser guider par un audio de référence, jusqu'à trois extraits, ou par une image, l'utilisateur conservant la main sur la vitesse, le volume, la hauteur et le format de sortie.

Côté technique, il s'agit d'un modèle non-streaming : il produit l'intégralité du résultat d'un bloc, jusqu'à deux minutes par génération, en conservant la cohérence de la voix d'une séquence à l'autre.

L'accès reste pour l'instant en phase d'invitation. Le modèle passe par l'API de la plateforme Volcano Engine Ark et par l'application Doubao, tandis que BytePlus, branche internationale de l'éditeur, ouvre les candidatures pour un accès entreprise. Sur les plateformes chinoises, l'outil est référencé sous le nom Doubao-Seed-Audio 1.0.