场景一:离线文件处理
一、零代码自动生成
1. 登录媒体处理控制台 创建点播服务编排 ,语音识别、语音翻译能力可插入“内容理解”编排节点,单击
?
根据业务实际场景选择系统预设模板。?
?
??
?
?系统预置模板及能力如下表所示:
模板ID | 模板能力 |
10101 | 中文识别模板 |
10102 | 英文识别模板 |
10103 | 中文->中英翻译模板 |
10104 | 英文->中英翻译模板 |
10105 | 日语识别模板 |
10106 | 韩语识别模板 |
说明:
2. 启用编排(启用后需等待5分钟生效后上传文件触发),往编排触发目录上传文件。
?
?
?3. 任务处理完后会在编排输出目录自动生成 VTT 字幕文件。
?
?
?中文字幕样例:
?
?
?中英字幕样例:
?
?
?二、API 接口调用
1. 输入+ 编排 ID 发起任务,查看接口信息 。
示例:
{??? "InputInfo": {??????? "Type": "COS",??????? "CosInputInfo": {??????????? "Bucket": "facedetectioncos-1251132611",??????????? "Region": "ap-guangzhou",??????????? "Object": "/video/123.mp4"??????? }??? },??? "ScheduleId": 20073,??? "Action": "ProcessMedia",??? "Version": "2019-06-12"}
2. 如果有设置回调地址,回包参考文档:解析事件通知。
三、压制到视频(可选)
示例:
{??? "MediaProcessTask": {??????? "TranscodeTaskSet": [??????????? {??????????????? "Definition": 206390,????????????????"OverrideParameter": {??????????????????? "Container": "mp4",????????????????????"RemoveVideo": 0,????????????????????"RemoveAudio": 0,????????????????????"VideoTemplate": {??????????????????????? "Codec": "libx264",????????????????????????"Fps": 30,????????????????????????"Bitrate": 2346,????????????????????????"ResolutionAdaptive": "close",????????????????????????"Width": 1920,????????????????????????"Height": 0,????????????????????????"Gop": 0,????????????????????????"FillType": "black"??????????????????? },????????????????????"AudioTemplate": {??????????????????????? "Codec": "libmp3lame",????????????????????????"Bitrate": 0,????????????????????????"SampleRate": 32000,????????????????????????"AudioChannel": 2??????????????????? },????????????????????"SubtitleTemplate": {??????????????????????? "Path": "https://lily-1256342427.cos.ap-nanjing.myqcloud.com/mps_autotest/subtitle/1.vtt",????????????????????????"StreamIndex": 2,????????????????????????"FontType": "simkai.ttf",????????????????????????"FontSize": "10px",????????????????????????"FontColor": "0xFFFFFF",????????????????????????"FontAlpha": 0.9??????????????????? }??????????????? }??????????? }??????? ]??? },????"InputInfo": {??????? "Type": "URL",????????"UrlInputInfo": {??????????? "Url": "https://lily-1256342427.cos.ap-nanjing.myqcloud.com/mps_autotest/subtitle/123.mkv"??????? }??? },????"OutputStorage": {??????? "Type": "COS",????????"CosOutputStorage": {??????????? "Bucket": "lily-1256342427",????????????"Region": "ap-nanjing"??????? }??? },????"OutputDir": "/mps_autotest/output2/",????"Action": "ProcessMedia",????"Version": "2019-06-12"}
场景二:直播流
在直播流中使用字幕及翻译目前有两种方案:云直播控制台开启字幕功能、通过 MPS 回调文本并压制到直播流,建议使用云直播控制台开启字幕功能,方案介绍如下:
方案一 直播控制台开启字幕功能
1. 配置直播字幕功能
2. 拉字幕流
说明:
目前字幕展示有两种形式:实时动态字幕和延时稳态字幕,目前控制台默认为实时动态字幕,若需配置延时稳态字幕可提交工单配置。实时动态字幕指实时直播中的字幕会根据语音内容逐字动态矫正字幕内容,输出的字幕内容会实时变动;延时稳态字幕指系统会按设定的时间延时展示直播,输出的是整句字幕,观看体验更佳。
方案二 通过 MPS 回调文本
1. API 发起任务:使用字幕预设模板发起识别任务,参考文档 对直播流发起处理。
示例:
{??? "Url": "http://5000-wenzhen.liveplay.myqcloud.com/live/123.flv",????"AiRecognitionTask": {??????? "Definition": 10101??? },????"OutputStorage": {??????? "CosOutputStorage": {??????????? "Bucket": "6c0f30dfvodgzp251000800-10022853",????????????"Region": "ap-guangzhou-2"??????? },????????"Type": "COS"??? },????"OutputDir": "/6c0f30dfvodgzp251000800/0d1409d34565514956657373652/",????"TaskNotifyConfig": {??????? "NotifyType": "URL",????????"NotifyUrl": "http://xxxx.qq.com/callback/qtatest/?token=xxxxxx"??? },????"Action": "ProcessLiveStream",????"Version": "2019-06-12"}
2. 实时回调包体请参考文档:解析直播流处理结果。