腾讯同传核心技术-产品简介-文档中心-腾讯云

语音识别引擎
语音识别技术（Automatic Speech Recognition）是一种实现从“声音”到“文字”转换的技术，通过将人的语音直接转换成相应的文本以便计算机进行理解和产生相应的操作，并最终实现人与机器之间的自然语音交互。
腾讯同传采用国内广泛应用的微信智聆语音识别引擎，针对语音识别应用中面临的方言口音、背景噪声等问题，基于开放业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据，通过先进的区分性训练方法进行语音建模，使语音识别引擎在复杂应用环境下均有良好的效果表现。
腾讯同传所应用的引擎具备的前端特性如下：
支持中/英文语音转写
语音识别对于日常使用的常用对话有着很高的识别准确率，包含短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻等领域，其中中文标准普通话语音识别准确率最高可达97%以上，Native 英文整句识别准确率可达到93%以上。
支持标点智能预测
语音识别使用超大规模的语言模型，对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测。
端点检测
端点检测是对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。这种方式使识别引擎在用户说话的同时即开始进行识别处理。
噪音消除
在实际应用中，背景噪声对于语音识别应用是一个现实的挑战，即便说话人处于安静的办公室环境，在语音中也难以避免会有一定的噪声。语音识别系统应具备高效的噪音消除能力，以适应用户在千差万别的环境中应用的要求。
大词汇量、独立于说话人的识别功能?
满足大词汇量、与说话人无关的识别要求。产品可以支持数万条语法规模的词汇量，并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。
敏感词过滤
接入腾讯统一的敏感词过滤服务，以实现可靠的敏感词过滤，避免实时会议展示敏感内容。
本次系统具备的前端特性如下：
词汇识别系统
满足大词汇量、与说话人无关的识别要求。可以支持数万条语法规模的词汇量，并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。
置信度输出
置信度反映了识别结果的可信程度。语音识别引擎可以在返回识别结果时携带此识别结果的置信度，应用程序可以通过置信度的值进行分析和后续处理。
多识别结果
又称多候选技术，在某些识别过程中，识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果，而不是唯一的结果。识别系统提供了可能的识别结果列表，并按置信度结果从高到低进行排列。在业务设计中，可以根据应用要求向工作人员提供这些结果，供工作人员进行二次选择。通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。
热词识别系统
热词识别使得语音识别应用程序能够在说话者说话的同时检测一个特定的词或短语。
机器翻译引擎
核心引擎 NMT 基于目前先进的 transformer 模型，并融合新型循环神经网络，在提升了训练效果的同时，翻译质量更佳，翻译速度更快。有效结合序列自注意力模型和循环网络模型的优势，实现了两个模型的优势互补，在保证翻译质量的前提下，提升翻译速度，能够满足更多的实时性翻译需求。
应用引擎翻译能力包括如下几种：
支持进行本地上传所需定制的词汇内容，针对敏感度高、优先级高的重要特殊词汇（例如领导人名字、政府机构、地名、缩写简称、专有词汇、行业术语等）秒级生效。
具备对文稿中专有名词、缩写简称、行业术语等特殊词汇的处理能力，并正确翻译成指定内容。例如一带一路、APEC、两会等。
针对语言风格、翻译记忆等需要长期时间与大量数据积累的内容，可提供上传与保存工具，积累到一定量级后，由专业人员进行现场训练。
可处理混合在一起的文稿，并正确翻译成指定语种。
可自定义关键词、关键字，并设定翻译结果。可自动识别文本中自定义的关键词、关键字，并按指定结果进行翻译。