媒体处理字幕生成及翻译-最佳实践-文档中心-腾讯云

场景一：离线文件处理
一、零代码自动生成
1. 登录媒体处理控制台 创建点播服务编排  ，语音识别、语音翻译能力可插入“内容理解”编排节点，单击
?
根据业务实际场景选择系统预设模板。
?
?
?
?
?
?
系统预置模板及能力如下表所示：
模板ID
模板能力
10101
中文识别模板
10102
英文识别模板
10103
中文->中英翻译模板
10104
英文->中英翻译模板
10105
日语识别模板
10106
韩语识别模板
说明：
如需其他模板，请 提交工单 让后台配置。
2. 启用编排（启用后需等待5分钟生效后上传文件触发），往编排触发目录上传文件。
?
?
?
3. 任务处理完后会在编排输出目录自动生成 VTT 字幕文件。
?
?
?
中文字幕样例：
?
?
?
中英字幕样例：
?
?
?
二、API 接口调用
1. 输入+ 编排 ID 发起任务，查看接口信息 。
示例：
{
??? "InputInfo": {
??????? "Type": "COS", 
??????? "CosInputInfo": {
??????????? "Bucket": "facedetectioncos-1251132611", 
??????????? "Region": "ap-guangzhou", 
??????????? "Object": "/video/123.mp4"
??????? }
??? }, 
??? "ScheduleId": 20073, 
??? "Action": "ProcessMedia", 
??? "Version": "2019-06-12"
}
2. 如果有设置回调地址，回包参考文档：解析事件通知。
三、压制到视频（可选）
需要 发起转码任务 并通过 SubtitleTemplate 字段指定 步骤一或者步骤二生成的字幕 vtt 文件，详细参考 数据结构说明。
示例：
{
??? "MediaProcessTask": {
??????? "TranscodeTaskSet": [
??????????? {
??????????????? "Definition": 206390, 
????????????????"OverrideParameter": {
??????????????????? "Container": "mp4", 
????????????????????"RemoveVideo": 0, 
????????????????????"RemoveAudio": 0, 
????????????????????"VideoTemplate": {
??????????????????????? "Codec": "libx264", 
????????????????????????"Fps": 30, 
????????????????????????"Bitrate": 2346, 
????????????????????????"ResolutionAdaptive": "close", 
????????????????????????"Width": 1920, 
????????????????????????"Height": 0, 
????????????????????????"Gop": 0, 
????????????????????????"FillType": "black"
??????????????????? }, 
????????????????????"AudioTemplate": {
??????????????????????? "Codec": "libmp3lame", 
????????????????????????"Bitrate": 0, 
????????????????????????"SampleRate": 32000, 
????????????????????????"AudioChannel": 2
??????????????????? }, 
????????????????????"SubtitleTemplate": {
??????????????????????? "Path": "https://lily-1256342427.cos.ap-nanjing.myqcloud.com/mps_autotest/subtitle/1.vtt", 
????????????????????????"StreamIndex": 2, 
????????????????????????"FontType": "simkai.ttf", 
????????????????????????"FontSize": "10px", 
????????????????????????"FontColor": "0xFFFFFF", 
????????????????????????"FontAlpha": 0.9
??????????????????? }
??????????????? }
??????????? }
??????? ]
??? }, 
????"InputInfo": {
??????? "Type": "URL", 
????????"UrlInputInfo": {
??????????? "Url": "https://lily-1256342427.cos.ap-nanjing.myqcloud.com/mps_autotest/subtitle/123.mkv"
??????? }
??? }, 
????"OutputStorage": {
??????? "Type": "COS", 
????????"CosOutputStorage": {
??????????? "Bucket": "lily-1256342427", 
????????????"Region": "ap-nanjing"
??????? }
??? }, 
????"OutputDir": "/mps_autotest/output2/", 
????"Action": "ProcessMedia", 
????"Version": "2019-06-12"
}
场景二：直播流
在直播流中使用字幕及翻译目前有两种方案：云直播控制台开启字幕功能、通过 MPS 回调文本并压制到直播流，建议使用云直播控制台开启字幕功能，方案介绍如下:
方案一 直播控制台开启字幕功能
1. 配置直播字幕功能
1.1 开通 云直播 和 媒体处理 。
1.2 登录 云直播控制台，创建字幕模板并绑定转码模板。
2. 拉字幕流
拉取转码流（在对应的直播流 StreamName 后加上绑定了字幕模板的转码名称_转码模板名称生成转码流地址）时会输出字幕效果，拉流地址拼接规则详见拼装播放 URL。
说明：
目前字幕展示有两种形式：实时动态字幕和延时稳态字幕，目前控制台默认为实时动态字幕，若需配置延时稳态字幕可提交工单配置。实时动态字幕指实时直播中的字幕会根据语音内容逐字动态矫正字幕内容，输出的字幕内容会实时变动；延时稳态字幕指系统会按设定的时间延时展示直播，输出的是整句字幕，观看体验更佳。
方案二 通过 MPS 回调文本
1. API 发起任务：使用字幕预设模板发起识别任务，参考文档 对直播流发起处理。
示例：
{
??? "Url": "http://5000-wenzhen.liveplay.myqcloud.com/live/123.flv", 
????"AiRecognitionTask": {
??????? "Definition": 10101
??? }, 
????"OutputStorage": {
??????? "CosOutputStorage": {
??????????? "Bucket": "6c0f30dfvodgzp251000800-10022853", 
????????????"Region": "ap-guangzhou-2"
??????? }, 
????????"Type": "COS"
??? }, 
????"OutputDir": "/6c0f30dfvodgzp251000800/0d1409d34565514956657373652/", 
????"TaskNotifyConfig": {
??????? "NotifyType": "URL", 
????????"NotifyUrl": "http://xxxx.qq.com/callback/qtatest/?token=xxxxxx"
??? }, 
????"Action": "ProcessLiveStream", 
????"Version": "2019-06-12"
}
2. 实时回调包体请参考文档：解析直播流处理结果。

字幕生成及翻译

本页目录：

场景一：离线文件处理

一、零代码自动生成

二、API 接口调用

三、压制到视频（可选）

场景二：直播流

方案一直播控制台开启字幕功能

方案二通过 MPS 回调文本

模板ID	模板能力
10101	中文识别模板
10102	英文识别模板
10103	中文->中英翻译模板
10104	英文->中英翻译模板
10105	日语识别模板
10106	韩语识别模板

字幕生成及翻译

本页目录：

场景一：离线文件处理

一、零代码自动生成

二、API 接口调用

三、压制到视频（可选）

场景二：直播流

方案一 直播控制台开启字幕功能

方案二 通过 MPS 回调文本

方案一直播控制台开启字幕功能

方案二通过 MPS 回调文本