
Seed-TTS是什么?
Seed-TTS是由字節(jié)跳動開發(fā)的一種新型多功能的文本到語音(Text to Speech, TTS)生成模型,它基于自回歸Transformer架構(gòu),只需要簡短的語音片段,即可克隆生成高質(zhì)量、幾乎無法與人類語音區(qū)分的語音。Seed-TTS在語音上下文學(xué)習(xí)方面表現(xiàn)出色,特別是在說話者相似度和自然度方面,可以生成高度自然且富有表現(xiàn)力的語音。此外,Seed-TTS還支持情感、語調(diào)和說話風(fēng)格等多屬性的控制,并且能夠通過編輯文本來編輯生成的語音,使其適用于多種應(yīng)用場景,如有聲讀物、視頻配音及多語言翻譯等。
Seed-TTS模型架構(gòu)
Seed-TTS模型主要由語音分詞器、自回歸語言模型、擴散模型、 語音合成器組成。
1?? 語音分詞器 (Speech Tokenizer)
Seed-TTS語音分詞器將語音信號轉(zhuǎn)換為離散的語音 token 序列。降低模型復(fù)雜度,提高訓(xùn)練效率。
2?? 自回歸模型(Autoregressive Transformer)
Seed-TTS自回歸模型根據(jù)文本和語音 token 序列生成語音 token 序列。學(xué)習(xí)文本和語音之間的關(guān)系,生成自然流暢的語音。
3?? 擴散模型 (Diffusion Transformer)
Seed-TTS擴散模型根據(jù)語音 token 序列生成連續(xù)的語音特征表示。學(xué)習(xí)語音特征之間的關(guān)系,生成具有豐富細節(jié)的連續(xù)語音。
4?? 語音合成器 (Acoustic Vocoder)
Seed-TTS語音合成器可以將語音特征表示轉(zhuǎn)換為語音波形。生成高質(zhì)量的語音波形。
Seed-TTS功能特點
?? 高度自然的語音生成
Seed-TTS能夠生成與人類語音幾乎無法區(qū)分的高質(zhì)量語音。這種語音在客觀和主觀評估中表現(xiàn)出色,尤其是在說話者相似度和自然度方面,與真實人類語音相匹配。
?? 出色的上下文學(xué)習(xí)能力
Seed-TTS在語音上下文學(xué)習(xí)方面表現(xiàn)出色,可以在理解給定文本的上下文基礎(chǔ)上,生成與上下文風(fēng)格和語義相匹配的語音。
?? 零樣本學(xué)習(xí)能力
Seed-TTS還具備零樣本學(xué)習(xí)(ICL)的能力,即使沒有訓(xùn)練數(shù)據(jù),Seed-TTS 也能基于簡短的語音片段生成高質(zhì)量的語音,非常適用于臨時場景。
?? 精準的情感控制能力
Seed-TTS能夠根據(jù)文本內(nèi)容或額外的情感標(biāo)簽,控制生成語音的情感色彩。例如,它能夠處理四種基本情感(憤怒、高興、悲傷和驚訝),并且在這些情感的表達上表現(xiàn)出色。
?? 高級的屬性控制能力
Seed-TTS通過指令微調(diào)(IFT),能夠靈活控制生成語音的各個方面,如表達性、語速、風(fēng)格和情感等,還可以通過編輯文本來編輯生成的語音。
?? 多語種支持能力
Seed-TTS支持多種語言的文本輸入和翻譯轉(zhuǎn)換,能夠生成對應(yīng)語言的語音。同時支持不同語言間的語音轉(zhuǎn)換,并提供相應(yīng)語言的口型同步,幫助跨語言溝通和交流。
Seed-TTS如何使用
Seed-TTS目前處于論文和技術(shù)測試階段,暫未對外開放使用,Seed-TTS官網(wǎng)提供了一個在線演示地址,感興趣的同學(xué)可以前去查看,可以在線預(yù)覽和播放試聽各類風(fēng)格的語音效果。
Seed-TTS官網(wǎng)在線演示地址:https://bytedancespeech.github.io/seedtts_tech_report/
- Seed-TTS arXiv論文地址:https://arxiv.org/html/2406.02430
- Seed-TTS 官方Github項目地址:https://github.com/BytedanceSpeech/seed-tts-eval

熱門工具標(biāo)簽
