python语音识别指南终极版语音识别指南终极版(有这一篇足矣有这一篇足矣)
主要介绍了python语音识别指南终极版的相关资料,包括语音识别的工作原理及使用代码,本文给大家介绍的非
常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
【导读】亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求。整合
了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常
简单。阅读本指南,你就将会了解。你将学到:
•语音识别的工作原理;
•PyPI 支持哪些软件包;
•如何安装和使用 SpeechRecognition 软件包——一个功能全面且易于使用的 Python 语音识别库。
语言识别工作原理概述语言识别工作原理概述
语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词
的词汇量。现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表。
语音识别的首要部分当然是语音。通过麦克风,语音便从物理声音被转换为电信号,然后通过模数转换器转换为数据。一旦被
数字化,就可适用若干种模型,将音频转录为文本。
大多数现代语音识别系统都依赖于隐马尔可夫模型(HMM)。其工作原理为:语音信号在非常短的时间尺度上(比如 10 毫
秒)可被近似为静止过程,即一个其统计特性不随时间变化的过程。
许多现代语音识别系统会在 HMM 识别之前使用神经网络,通过特征变换和降维的技术来简化语音信号。也可以使用语音活动
检测器(VAD)将音频信号减少到可能仅包含语音的部分。
幸运的是,对于 Python 使用者而言,一些语音识别服务可通过 API 在线使用,且其中大部分也提供了 Python SDK。
选择选择 Python 语音识别包语音识别包
PyPI中有一些现成的语音识别软件包。其中包括:
•apiai
•google-cloud-speech
•pocketsphinx
•SpeechRcognition
•watson-developer-cloud
•wit
一些软件包(如 wit 和 apiai )提供了一些超出基本语音识别的内置功能,如识别讲话者意图的自然语言处理功能。其他软件
包,如谷歌云语音,则专注于语音向文本的转换。
其中,SpeechRecognition 就因便于使用脱颖而出。
识别语音需要输入音频,而在 SpeechRecognition 中检索音频输入是非常简单的,它无需构建访问麦克风和从头开始处理音
频文件的脚本,只需几分钟即可自动完成检索并运行。
SpeechRecognition 库可满足几种主流语音 API ,因此灵活性极高。其中 Google Web Speech API 支持硬编码到
SpeechRecognition 库中的默认 API 密钥,无需注册就可使用。SpeechRecognition 以其灵活性和易用性成为编写 Python 程
序的最佳选择。
安装安装 SpeechRecognation
SpeechRecognition 兼容 Python2.6 , 2.7 和 3.3+,但若在 Python 2 中使用还需要一些额外的安装步骤。本教程中所有开发版
本默认 Python 3.3+。
读者可使用 pip 命令从终端安装 SpeechRecognition:
$ pip install SpeechRecognition
安装完成后请打开解释器窗口并输入以下内容来验证安装:
>>> import speech_recognition as sr
>>> sr.__version__