Model（Create Voice）

POST

/fish-audio/model

Sound cloning from Fish Audio: submit audio files for cloning.

Requirements for incoming audio:
Audio Length: 30-45 seconds of high-quality audio
Speaker: Single speaker only.
Other details: Consistent volume, pitch, and emotional expression and Short pauses (approximately 0.5 seconds recommended)

Ideal state：
no background noise
professional recording quality
no room echo

Fish Audio：https://docs.fish.audio/api-reference/endpoint/model/create-model

Price：0 PTC/call

Request

Header Params

Body Params multipart/form-data

Request Code Samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location 'https://api.302.ai/fish-audio/model' \
--header 'Authorization: Bearer ' \
--form 'visibility="private"' \
--form 'type="tts"' \
--form 'title=""' \
--form 'description=""' \
--form 'cover_image=@""' \
--form 'train_mode="fast"' \
--form 'voices=@""' \
--form 'texts=""' \
--form 'tags=""' \
--form 'enhance_audio_quality="false"'

Responses

🟢200成功

application/json

Bodyapplication/json

Example

{
    "_id": "286e6e61fcb342cbb1a3ae421a20cf18",
    "cover_image": "coverimage/286e6e61fcb342cbb1a3ae421a20cf18",
    "created_at": "2026-01-19T07:45:28.300684Z",
    "default_text": "",
    "description": "",
    "languages": [
        "en"
    ],
    "like_count": 0,
    "liked": false,
    "lock_visibility": false,
    "mark_count": 0,
    "marked": false,
    "samples": [],
    "shared_count": 0,
    "state": "trained",
    "tags": [
        ""
    ],
    "task_count": 0,
    "title": "kk",
    "train_mode": "fast",
    "type": "tts",
    "unliked": false,
    "updated_at": "2026-01-19T07:45:28.300156Z",
    "visibility": "private"
}

Modified at 2026-01-19 07:46:49

TTS（Text to Speech）

Model（Obtain Voice）