@supertone/supertonic-2

Generate speech from text with SuperTonic 2.

Inputs

text

string: Text to generate speech from.

voice

string: Generation voice (F1-F5 for female, M1-M5 for male).

language

string?: Generation language code.

speed

0.72

float32?: Speech speed multiplier.

total_steps

120

int32?: Number of diffusion steps (higher = better quality, slower).

Press and hold for realtime mode.

Outputs

output0

float32: Linear PCM audio samples with shape (F,) and sample rate 22050Hz.