【[67星]VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容。亮点:1. 低延迟,首次音频生成时间从236毫秒缩短到53毫秒;2. 推理速度提升3-5倍;3. 开源数据训练,包含20万小时音频】
'VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model'
GitHub: github.com/VITA-MLLM/VITA-Audio
语音生成 语言模型 开源数据 AI创造营