scripod.com

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

Overview

Shownote

Highlights

Transcript

Chapters

Pins

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

The Alphaist

Feb 05

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

The Alphaist

The Alphaist

Feb 05

Overview Shownote Highlights Transcript Chapters Pins

本期《The Alphaist》深度对话 Fish Audio 联合创始人 Rissa 与冷月，聚焦 AI 语音技术的前沿突破与创业实践。在语音正成为人机交互新入口的背景下，两位创始人分享了如何以技术信仰与产品直觉，在巨头环伺中开辟独特路径。

Fish Audio 以 “有灵魂的声音” 为差异化定位，一年内实现 13 倍增长、1000 万美元 ARR，成长为全球第二大 AI 语音平台。其核心壁垒在于：构建高表现力情感语音数据集（提出 “高噪音即高表现力” 的反直觉洞见）、自研端到端低延迟架构（目标 100 毫秒内响应）、以及开源驱动的 PLG 飞轮 —— 开发者信任代码而非 Demo，UGC 音色 + RLHF + 高效模型形成闭环。公司避开传统配音红海，深耕游戏、AI 陪伴、虚拟主播等高情感需求场景，S2 模型矩阵按场景分层（Flash 低延迟 / Pro 高表现力），并以全球化多语种（阿拉伯语、日韩语）为战略重点。团队由 00 后科学家与连续创业者互补搭档，经历股权危机后建立高度信任，坚持用开源分发筑护城河、闭源模型实现商业化，最终愿景是让每个普通人都能用 AI 创作有温度的内容，稳步迈向 AGI 辅助创作时代。

00:03

00:03

语音是人类与 AI 交互的重要入口，要让语音模型更自然需是大模型和自回归架构

02:26

02:26

Fish Audio 提供多语言 TTS 和高精度声音克隆，被各类创作者使用以提高音频创作效率和实现内容商业化

02:55

02:55

Fish Audio 推出世界首个支持自然语言控制情感的 TTS 模型 S1

03:46

03:46

下一代 S2 模型预计完全开源

06:14

06:14

Fish Audio 是 AI Voice 领域增长最快的公司

06:45

06:45

为让语音更自然，需大的自回归架构模型建模多信息

09:00

09:00

互联网上缺乏复杂标注的文本和语音对，这构成了垂直音频模型的护城河

12:00

12:00

要让语音更可控、具备 voice agent 能力和更好思考能力，需 30B–110B 参数及 MOE 架构

12:27

12:27

S3 模型训练和推理资源与 6B 大语言模型相当，多数大公司语音组计算资源有限，己方已处第一梯队

15:26

15:26

获取高质量音频素材的数据投入可能达百万美元量级

15:42

15:42

预计今年 Q3Q4 在数据上投入达百万美金，需对不同文字和语种进行采集

18:03

18:03

高噪音数据往往更具高表现力，创业公司通过迭代模型专门处理此类数据

19:14

19:14

传统数据情绪管理常扔掉争吵、争论等高表现力语音，Fish Audio 坚持保留原汁原味、符合原始分布的数据

21:33

21:33

近期将发布或开源去掉 Vocal 模块、可端到端建模的新模型

22:31

22:31

以往语音处理各模块增加了模型的结构和复杂性，限制了计算效率、能力和上线

24:40

24:40

若将语音编码器接入语言模型，由 LM 判断是否完成 EOS，再将答案文本输入 TTS，延迟可能低至 300–500 毫秒

26:21

26:21

S2 音频模型实现更精细化的控制

29:47

29:47

TTS 模型对副语言处理表现不佳，因此构建自己的 ASR 模型来解决

31:44

31:44

S2 Flash 模型专为实时语音客服中心设计，强调低延迟与高稳定性

33:33

33:33

AI 当前主要面向传统行业的世界 500 强企业

33:49

33:49

公司约 60% 收入来自 C 端或专业消费者创业者

34:36

34:36

B2B API 增长源于开源社区工程师和开发者的自发采用，呈现自下而上的扩散模式

36:12

36:12

平台设有激励机制鼓励用户生成更多声音模型

37:59

37:59

其他用户使用创作者声音时，创作者可获得消耗 Token 的 30% 作为 credit 返还

38:20

38:20

阿拉伯语模型因阿拉伯王子去世引发的克隆潮而突破，企业用户认为其达 SOTA 水平

40:00

40:00

UGC 音色、RLHF、架构高效三方面提升模型表现力，形成闭环效应

41:05

41:05

开源并非商业化途径

41:39

41:39

开发者只相信可实际运行、测试和对比的代码

42:12

42:12

开源让用户感知模型差异，B 端商业化模型助用户规模化上线、在产品上开发盈利

45:30

45:30

播客创作者呼吁专用 AI 工具，Prosumer 平台有望提升效率与创造力

46:23

46:23

Fish Audio 是面向多语言市场的语音公司

48:04

48:04

Fish Audio 在阿拉伯语和非美音英语语音合成中表现有爆发

51:25

51:25

Fish Audio 年底目标是让模型能力超越 19% 配音演员

52:56

52:56

AI 图像领域技术突破已达瓶颈，而语音正处 AIOS 2.0 技术窗口爆发期

58:25

58:25

冷月专注模型和研究、产品，Rissa 专注战略、组织、投资人与企业客户

59:01

59:01

Rissa 展现出强大能力，冷月始终与对方站在一起，面对困难不放弃

1:02:39

1:02:39

目前投资人以 safe（ycstandard）形式投资，无 side letter，这对早期团队很重要，能让团队保持干净，创业者融资和做产品时无需担忧

1:03:06

1:03:06

选合伙人要考察是否给前合伙人分股份、有无合理的股权归属计划

1:04:27

1:04:27

初创公司是找战友打仗的地方，要在合适位置放合适的人以实现共赢

1:06:24

1:06:24

招聘时优先拉开源工作者和研究员入队，给足计算资源和资金，让他们在感兴趣方向尝试一个月，筛选出真正有能力和兴趣的人

1:09:22

1:09:22

先打造优质内容创作平台，让普通人成为资深内容创作者，再逐步走向 AGI，辅助有想象力的人创作并传播作品