# personal_term_APP **Repository Path**: NFUNM026/personal_term_APP ## Basic Information - **Project Name**: personal_term_APP - **Description**: No description available - **Primary Language**: CSS - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-12-28 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 识存学APP |发布时间|2019年12月9日| |------|-----| |产品名臣|识存学APP| |文件现状|已完成| |文件主人|黄嘉慧| |产品设计师|黄嘉慧| ## 加值宣言: 经过调查,目前市场上有很多拍照识别文字的APP,随着人工智能的发展,人们已经知道AI人工智能的强大。虽然目前市场上有很多拍照或照片识别和提取文字的APP,但是将识别或提取的文字进行分门别类保存,以及保存文字进行文字阅读和文字翻译的APP是很少的。基于现状,我们将借助文字识别API和语音合成API对现有产品进行加值和优化。 ## 核心价值: 用户在拍照识别文字和提取文字的基础上,同时利用语音合成技术进行文本阅读和文本翻译。 ### 用户: 进行语言学习用户、作者 ### 具体应用场景: - **用户一** :一位小书写作家,看到一段词藻优美的句子,想把它记录下来,但是忘记带笔,写手机上一个一个字打觉得很麻烦。于是拿起手机,打开识存学APP拍下整段文字后,选取喜欢的句子进行保存。 - **用户二** :想学习外文,查字典不是很方便,于是于是拿起手机,打开识存学APP拍下单词或句子,单击选择保存分类,长按进行翻译,还可以选择文本阅读播放器,学习文字发音。 ## 用户需求: | 用户案例 | 对应API | 重要程度 | | ------------- | -------- | -------- | | 获取/保存单词 | 文本识别 | 重要 | | 单词/句子翻译 | 文本翻译 | 重要 | | 单词/句子阅读 | 文本阅读 | 重要 | | 单词/句子理解 | 文本分析 | 次重要 | ## 使用比较分析: **百度AI** 1. 文字识别: - 手写文字识别:(缺点:对手写中文汉字、数字进行识别) ![通用文字识别](https://images.gitee.com/uploads/images/2019/1209/153400_27d085e2_1648228.jpeg "百度AI 选择价格付费 使用额度.JPG") - 网络图片文字识别: ![图片文字识别](https://images.gitee.com/uploads/images/2019/1209/153453_4033f55d_1648228.jpeg "百度AI 图片识别文字 付费额度.JPG") 2. 语音合成: - 在线语音合成: ![在线使用免费额度](https://images.gitee.com/uploads/images/2019/1209/153523_3dbe764f_1648228.jpeg "百度AI 在线语音合成 免费.JPG") ![语音合成价目表](https://images.gitee.com/uploads/images/2019/1209/153556_ac3a9856_1648228.jpeg "百度AI 在线语音合成 付费.JPG") 3. 自然语言处理: - 通用翻译API:(支持28种语言实时互译,覆盖中、英、日、韩、西、法、泰、阿、俄、葡、德、意、荷、芬、丹等;同时支持28种语言的语言检测。) ![通用翻译价格](https://images.gitee.com/uploads/images/2019/1209/153708_5eb7311b_1648228.jpeg "百度AI 通用翻译 价格模式.JPG") 4.拍照翻译SDK: 服务介绍:拍照翻译SDK将图像识别与文本翻译合二为一,轻松实现图文翻译,省去繁琐的二次接入。 支持语种: 文本识别:中、英、日、韩、法、德、葡、意、西、俄等10个语种 文本翻译:支持全部28个语种,与百度翻译PC版支持语种一致) - 适用场景: _拍照翻译SDK适用于图像文本识别及翻译,SDK可返回文本翻译结果、位置坐标及背景色信息,但暂不支持实景贴合。 注:拍照翻译SDK是一个开发包,需要您通过二次开发集成到您的程序中,非现成的、可供安装使用软件。接入拍照翻译SDK,需具备一定的移动开发基础。_ 收费模式: ![拍照翻译SDK](https://images.gitee.com/uploads/images/2019/1209/153820_a58f6be7_1648228.jpeg "百度AI 拍照翻译SDK 收费模式.JPG") **Microsoft Azure** - AI+机器学习的认知服务: Microsoft Azure 没有前期服务,只有使用的服务付费,且按小时付费。 ![Azure的价目表](https://images.gitee.com/uploads/images/2019/1209/153845_4a8e5c4d_1648228.jpeg "Azure 的价格付费.JPG") **腾讯云** 1. 语音合成:(支持中文、英文以及中英文混读) - 语音合成免费额度为每月100万字符,相当于一本《西游记》的字数。每月1日重置免费额度。 - 语音合成按合成的字符数计费,每月超过免费额度部分0.2元\单价(元/万字符)。 2. 文本翻译:(文本翻译可以自动识别输入的文本,并按照目标语言翻译并输出。当前支持中文、英语、日语、韩语、法语、西班牙语、意大利语、德语、土耳其语、俄语、葡萄牙语、越南语、印尼语、马来西亚语、泰语的翻译。) 腾讯云机器翻译目前支持15个语种,80多种语言对的翻译能力,其中中英互译引擎已在多领域达到业界领先水平。 产品价格 _刊例价_ - 文本翻译按每月翻译的字符数计费,采用到达阶梯价。 - 文本翻译当月需付费字符数小于100百万字符(1亿字符)时,刊例价为58元/每百万字符。 - 文本翻译当月需付费字符数大于等于100百万字符(1亿字符)时,刊例价为50元/每百万字符。 - 1个汉字、1个字母、1个标点或空格都计为一个字符。 3. 文字识别: 可以享受1,000次/月的免费调用额度。 超过免费调用额度价格计费: | 1000次 | 1万次 | 10万次 | 100万次 | 1000万次 | | --- | --- | --- | --- | --- | | ¥120 | ¥800 | ¥5000 | ¥30000 | ¥200000 | **阿里云** 1. 语音合成: ![阿里云语音合成价格](https://images.gitee.com/uploads/images/2019/1209/154238_46aee6f2_1648228.jpeg "阿里云 语音合成价格.JPG") 2. 文字识别:(文字识别种类清晰,为功能齐全得买各种识别包价格) | 类型 | 价格 | | --- | --- | |通用文字识别 | 702.8元/10000次 | | 文档小说图片文字 | 400元/10000次 | | 电商图片文字识别 | 400元/10000次 | | 网络UGC文字识别 | 400元/10000次 | |社区贴吧文字识别 | 400元/10000次 | | 英文专项文字识别 | 400元/10000次 | 3. 文本翻译: - 机器翻译通用版: | 字符 | 价格 | | --- | --- | | 100万 | 27元/年 | | 1000万 | 240元/年 | | 1亿 | 2100元/年 | | 10亿 | 18000元/年 | ### 百度AI、Microsoft Azure、腾讯云、阿里云产品比较分析: 鉴于目前产品在初始阶段,而且需使用多个API,百度AI、Microsoft Azure、腾讯云、阿里云四家的产品成熟度都很高,我们综合考量其功能性,我们将选择一家平台购买API,经过性价比的比拼。我们选择腾讯云的文字识别API、文本翻译API和语音合成API。其中腾讯云每月的100万字符的语音合成免费额度,以及支持15个语种,89多种语言对的翻译能力和每月有1000次免费文字识别调用额度,对于目前初始阶段以及我们的APP设计初衷是吻合的。最后的比较结果分析,我们选择腾讯云平台上的人工智能服务。 ## 人工智能概率性: - **文字识别:** 不支持古籍印刷文本翻译。因为古籍是从右到左、从上到下的阅读书写方式;而文字识别是从左到右、一行一行的识别方式,文字识别不支持更改识别顺序。使用通用印刷体识别、通用印刷体识别(高精度版),准确率一般在93% 以上,不过根据使用场景的不同,准确率也有所差异。一般在200ms - 1s内,识别时间会受图片大小、字数多少及网络环境影响。 - **文本翻译:** 腾讯云机器翻译目前支持15个语种,在2018 WMT 国际机器翻译大赛中获得中英英中世界第一双料冠军的成绩。根据以往数据统计,平均翻译可接受度超过92%,定制训练后准确率会更高。 - **语音合成:** 远离拾音器、明显噪声、严重口音等因素会影响语音识别准确率。返回结果受网络和音频长度等因素影响,具体时间需要根据参数来决定。 ## 使用后风险报告: API的选择可替代性平台多,由于目前产品属于初始阶段,没有大规模的投入市场使用,所以我们选择相对性价比合适的腾讯云提供的API,其中初始阶段的测试使用应注意API使用额度。在后期如若选择投放市场大规模使用的话,API选择平台要重新考量。避免资金损耗。 ## 原型: - [交互界面设计:](http://nfunm026.gitee.io/personal_term_app) - [产品原型下载:](https://github.com/VickyCN/personal_term_APP) - 识存学APP框架图 ![识存学APP框架图](https://images.gitee.com/uploads/images/2019/1210/231910_dc6f0bba_1648228.jpeg "识存学APP框架图.JPG") - 识存学功能结构图 ![识存学功能结构图](https://images.gitee.com/uploads/images/2019/1210/231936_cc2c18d8_1648228.jpeg "识存学功能结构图.JPG") - 识存学信息结构图 ![识存学信息结构图](https://images.gitee.com/uploads/images/2019/1210/231957_094666c9_1648228.jpeg "识存学信息结构图.JPG") ### 代码应用:输入\输出 - 文字识别 **输入** ![提取文本](https://images.gitee.com/uploads/images/2019/1210/234129_f48bd31e_1648228.png "提取文本1.png") ![提取文本](https://images.gitee.com/uploads/images/2019/1210/234150_22bf2401_1648228.png "提取文本2.png") **输出** ![文本](https://images.gitee.com/uploads/images/2019/1210/234232_c27f835b_1648228.png "提取文本输出.png") **输入** ![手写文本](https://images.gitee.com/uploads/images/2019/1210/234309_fd4c5934_1648228.png "手写文本1.png") ![手写文本](https://images.gitee.com/uploads/images/2019/1210/234327_0cc4197c_1648228.png "手写文本2.png") **输出** ![输出](https://images.gitee.com/uploads/images/2019/1210/234356_9d555c48_1648228.png "手写输出.png") - 语音合成 **输入** ![语音合成](https://images.gitee.com/uploads/images/2019/1210/234432_5e14e8a6_1648228.png "语音合成代码1.png") ![语音合成](https://images.gitee.com/uploads/images/2019/1210/234448_b099a146_1648228.png "语音合成代码2.png") ![语音合成](https://images.gitee.com/uploads/images/2019/1210/234504_0c6b6bfc_1648228.png "语音合成代码3.png") **输出** ![语音合成](https://images.gitee.com/uploads/images/2019/1210/234528_b6a6e698_1648228.png "语音合成输出.png")