# api对比 **Repository Path**: YatesGitee/api_comparison ## Basic Information - **Project Name**: api对比 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-12-10 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 录音文件识别 ## 阿里云 录音文件识别 ### 产品优势 - 识别准确率高 国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。 - 超快的解码速率 国内独创的LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。 - 独创的模型优化工具 可以结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效果。 - 广泛的领域覆盖 支持金融、保险、司法、电商、智能家居等多个领域。 - 支持格式为.wav、.mp3等,小于5M ### 产品定价 分为预付费和后付费 - 预付费 ![1](https://images.gitee.com/uploads/images/2019/1210/135007_02bde74a_1531930.png "屏幕截图.png") - 后付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135027_a61c818b_1531930.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135032_90bd79f7_1531930.png "屏幕截图.png") ### 计费规则 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135057_1f357a46_1531930.png "屏幕截图.png") 并发数计算 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135115_f1c64cfc_1531930.png "屏幕截图.png") ## 腾讯云 录音文件识别 ### 产品优势 - 对不超过一小时的录音文件进行识别。 - 适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。 - 语言和方言:目前支持中文普通话。 - 音频属性:支持 wav、mp3、silk、speex、amr、m4a 等主流的音频格式,支持8k、16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。 - 音频数据长度支持:若采用直接上传音频数据方式,建议音频数据不能大于5MB;若采用上传音频 url 方式,建议音频时长不能大于1小时。 ### 产品定价 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135157_a5be96eb_1531930.png "屏幕截图.png") - 预付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135213_e39ebba5_1531930.png "屏幕截图.png") - 后付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135233_3e58658d_1531930.png "屏幕截图.png") ### 计费规则 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135254_0552802e_1531930.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135300_c03a2f1d_1531930.png "屏幕截图.png") ## 百度AI 音频文件转写(还在测试阶段) ### 产品优势 - 技术领先识别准确 基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98% - 批量音频快速识别 将大量录音批量上传,通过语音识别引擎精准、快速的转为文字,12小时内返回识别结果 - 文字识别结果支持时间戳 识别返回的文字结果带有时间戳,展示VAD切分句子开始和结束时间,方便进行功能开发 - 多语种识别 支持普通话和略带口音的中文识别,支持英文识别产品定价 - 高效稳定 企业级稳定服务保障,专有集群承载大流量并发,高效灵活,使用最新切分及并发调度技术,可快速返回识别结果 - 智能语言处理 使用大规模数据集训练语言模型,对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号,。!? - 模型自助优化 中文普通话模型可在语音自训练平台上零代码自助训练,上传文本语料即可有效提升业务词汇的识别准确率5-25% ## 华为云 录音文件识别 ### 产品优势 - 高识别率 基于深度学习技术,对特定领域场景和语料进行优化,识别率达到业界领先。 - 前沿技术 使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。 - 支持热词 针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。 - 可定制化 针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。 ### 产品定价 - 按需计费(按照调用时长计费,一天一扣费,并根据按月累积调用时长阶梯定价收费。) ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135402_15fa65ab_1531930.png "屏幕截图.png") - 套餐包计费(套餐包付费按不同时长分为不同价格的套餐包。) ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135419_ccdb7e28_1531930.png "屏幕截图.png") # 实时语音转写 ## 阿里云 实时语音转写 ### 产品优势 - 识别准确率高 国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。 - 超快的解码速率 国内独创的LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。 - 独创的模型优化工具 可以结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效果。 - 广泛的领域覆盖 广泛的领域覆盖,支持金融、保险、司法、电商、智能家居等多个领域。 ### 产品定价 - 预付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135509_7e6a5394_1531930.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135517_06272a8a_1531930.png "屏幕截图.png") - 后付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135525_45890ce2_1531930.png "屏幕截图.png") ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135535_83be63ff_1531930.png "屏幕截图.png") ### 计费规则 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135547_14bf2e13_1531930.png "屏幕截图.png") - 并发数计算 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135558_d43281d2_1531930.png "屏幕截图.png") ## 腾讯云 实时语音转写 ### 产品优势 - 对实时音频流进行识别,实时识别为文字。 - 适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。 - 语言和方言:目前支持中文普通话、英语、粤语。 - 音频属性:支持 wav、pcm、speex、silk 的音频格式,支持8k、16k采样率的单声道音频流,支持16bit的数据采样精度。 - 音频数据长度:建议每个数据包的音频分片最大不能超过200KB。 - 支持个性化热词:目前实时语音识别已上线热词功能,添加热词可显著提升专有词汇识别准确率,更多详情请参阅 热词模型文档。 - 产品定价 - 预付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135921_bebb4ab2_1531930.png "屏幕截图.png") - 后付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135931_a071bc36_1531930.png "屏幕截图.png") ## 华为云 实时语音转写 ### 产品优势 - 识别准确率高 采用最新一代语音识别技术,基于DNN(深层神经网络)技术,大大提高了抗噪性能,使识别准确率显著提升 - 识别速度快 把语言模型,词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处领先地位 - 多种识别模式 支持多种实时语音转写模式,如流式一句话、连续和单句模式,灵活适应不同应用场景 - 定制化服务 可定制特定垂直领域的语言层模型,识别更多专有词汇和行业术语,进一步提高识别准确率 ### 产品定价 - 按需计费(按照调用时长计费,一天一扣费,并根据按月累积调用时长阶梯定价收费。) ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135939_c35bd7ad_1531930.png "屏幕截图.png") - 套餐包计费(套餐包付费按不同时长分为不同价格的套餐包。) ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/135949_6d42c4da_1531930.png "屏幕截图.png") ## 百度AI 实时语音识别(测试中) ### 产品优势 - 识别效果领先 基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98% - 支持多设备终端 支持WebSocket API方式、Android、iOS、Linux SDK方式调用,可以适用于多种操作系统、多设备终端均可使用 - 服务稳定高效 企业级稳定服务保障,专有集群承载大流量并发,高效灵活,服务稳定 - 模型自助优化 中文普通话模型可在语音自训练平台上零代码自助训练,上传文本语料即可有效提升业务词汇的识别准确率5-25% # 通用图片文字识别 ## 阿里云 通用图片文字识别 - 上传要求 格式为:jpg./jpeg./png./tif 等。图片大小不超过4M,最长边不超过4096像素。 ### 产品优势 - 识别准确率高 利用上万亿的图片样本训练模型 - 识别速度快 单张图片毫秒级别返回 - 技术精深 使用业界领先的深度学习技术,支持分布式多机多gpu卡训练模型 - 服务稳定 依托阿里云计算,提供高可用性的弹性服务 ### 产品定价 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140000_18fad0ed_1531930.png "屏幕截图.png") ## 腾讯云 通用图片文字识别 - 上传要求 图片格式仅支持PNG、JPG、JPEG,图片大小不超过3MB ### 产品优势 - 能力全面 支持中英文、日语、韩语、西班牙语、法语、德语等多语言,以及阿拉伯数字及常用符号等的识别,并不断更新迭代模型,扩充支持的广度。 - 准确率高 支持图片中文字的自动定位和识别,印刷体整体识别准确率达95%以上,手写体达90%以上,保证99.5%以上产品可用性。 - 鲁棒性强 支持多场景、任意版面、任意背景,可容忍透视畸变、光照不均等复杂场景,并可实现自动裁边、修正倾斜等 ### 产品定价 该项服务都可以享受1,000次/月的免费调用额度,该1,000次免费次数将以免费资源包的形式配送,并在计费结算时优先扣减。 - 预付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140006_592259f4_1531930.png "屏幕截图.png") - 后付费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140018_049e340d_1531930.png "屏幕截图.png") - 计费规则 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140024_7bfa2e89_1531930.png "屏幕截图.png") ## 华为云 通用文字识别 - 上传要求 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140034_221e6ae6_1531930.png "屏幕截图.png") ### 产品定价 每个用户每月有1000次的免费调用次数 - 套餐包 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140041_63a179ee_1531930.png "屏幕截图.png") - 阶梯计费 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/140047_2ddbe473_1531930.png "屏幕截图.png") ## 百度AI 通用文字识别 ### 产品优势 - 功能、价格选择多样 提供通用文字识别、高精度版、含位置信息版、高精度含位置版四种版本,能够适应不同业务场景对识别精度、识别速度及位置信息的需求 - 支持多语种识别 通用文字识别、含位置信息版支持对中、英、法、俄、西、葡、德、意、日、韩、中英混合等多语种内容的识别,并支持中、英、日、韩四语种的类型检测 - 准确率高 针对图片模糊、倾斜、翻转等情况进行了优化,鲁棒性强,识别速度快,且支持2W+大字库,总体识别准确率高达99% - 服务稳定 依托百度云技术实力,提供高可靠性、弹性可伸缩、高并发承载的文字识别服务,服务可用性高达99.99% ### 产品定价 ![输入图片说明](https://images.gitee.com/uploads/images/2019/1210/150641_2d071ae5_1531930.png "屏幕截图.png")