产品展示

华为云产品中心

基于丰富的华为云基础服务,提供适用于各行业的、预集成的产品与能力的组合,以满足企业ICT业务上云的需求

服务咨询
实时语音识别

人工智能

  • 资源:
  • 名称 实时语音识别
  • 配置
  • 渠道
  • 数量 (库存:0)
  • 实时语音识别

什么是语音交互服务

语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。

使用前必读

用户需要具备编程能力,熟悉Java、Python等编程语言。

用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。

支持的语言

支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。华为云计算

首次使用SIS

如果您是首次使用SIS的用户,建议您学习并了解如下信息:

  • 功能介绍

    通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time ASR)、一句话识别(Short Sentence Recognition)、录音文件识别(Recording File Recognition)、语音合成(Text To Speech )功能。

  • 入门使用

    SIS以开放API的方式提供给用户,您可以参考《快速入门》学习并使用SIS服务。

  • 使用方式

    如果您是一个开发工程师,熟悉代码编写,想要直接调用SIS的API或SDK使用服务,您可以参考《API参考》或《SDK参考》获取详情。

  • 由浅入深学习

    您可以参考成长地图,由浅入深学习使用SIS。华为云存储

  • 华为云服务器

功能介绍

实时语音识别

实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言,方言当前支持四川话、粤语和上海话。

  • 文本时间戳

    为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。

  • 智能断句

    通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。

  • 中英文混合识别

    支持在中文句子识别中夹带英文字母、数字等,从而实现中、英文以及数字的混合识别。

  • 即时输出识别结果

    连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正。

  • 自动静音检测

    对输入语音流进行静音检测,识别效率和准确率更高。华为云服务器

产品优势

  • 识别准确率高

    采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。

  • 识别速度快

    把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。

  • 多种识别模式

    支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。

  • 定制化服务

    可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。

一句话识别

可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言。方言当前支持四川话、粤语和上海话

产品优势

  • 高识别率

    基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。

  • 前沿技术

    使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。

  • 支持热词

    针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。

  • 可定制化

    针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

录音文件识别

对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。

产品优势

  • 高识别率

    基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。

  • 稳定可靠

    成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

  • 支持热词

    针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。

  • 可定制化

    针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

语音合成

语音合成支持多种音色,可调节语调,语速,音量。

产品优势

  • 个性定制

    可以为企业客户提供定制发音人服务。合成效果更出色。

  • 多语种多音色

    中文普通话、男声、女声、童声自由切换,可以调整音量,语速。

  • 效果出色

    文本转换自然清晰,近乎真人发音,能够符合多样的应用场景。


  • 网站应用
上一篇:交通智能体TrafficGo2021-12-29
下一篇:人脸识别服务 FRS2021-12-29
立即注册   享受8折优惠
立即注册