Audio vocal separation and transcription

POST

/302/vt/subtitle/extract

Use our own optimized whisper model to transcribe audio into word-level text data

Price for voice separation only: 0.001PTC/min
Price for separation + transcription + alignment: 0.003PTC/min

Request

Header Params

Authorization

string

optional

Example:

Bearer {{YOUR_API_KEY}}

Body Params application/json

audio_url

string

音频链接

required

Audio Link

language

string

音频的语言

required

Audio language
eg： zh, en

demucs

boolean

是否开启人声分离

optional

Whether to enable vocal separation

Default:

true

is_only_demucs

boolean

是否只分离人声不执行转录

optional

Whether to separate vocals without performing transcription

Default:

false

Example

{
  "audio_url": "https://file.302ai.cn/gpt/imgs/tts_demo_minimax_male-qn-qingse_en.mp3",
  "language": "en",
  "demucs": true
}

Request samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.302.ai/302/vt/subtitle/extract' \
--header 'Authorization: Bearer sk-jls4AaVBGoe1GwZD64qZA1qyKTN1MPHa4NmvH1cT68z7K1Zz' \
--header 'Content-Type: application/json' \
--data-raw '{
  "audio_url": "https://file.302ai.cn/gpt/imgs/tts_demo_minimax_male-qn-qingse_en.mp3",
  "language": "en",
  "demucs": true
}'

Responses

🟢200success

application/json

Body

task_id

string

required

Example

{
    "task_id": "string"
}

Modified at 2025-01-19 07:34:45

Extract Audio from Video

Subtitle Translation