课程设计-基于深度学习的语音识别python源码.zip_基于深度学习的中文语音识别系统资源-CSDN文库

共13个文件

xml：5个

py：3个

pyc：2个

版权申诉

课程设计

课程作业

期末大作业

深度学习

语音识别

5星 · 超过95%的资源 194 浏览量 2023-11-19 20:44:38 上传评论 5 收藏 1.29MB ZIP 举报

【资源介绍】课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip课程设计-基于深度学习的语音识别python源码.zip 【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，也适用于小白学习入门进阶。当然也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或者热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载，沟通交流，互相学习，共同进步！

资源推荐

资源详情

资源评论

收起资源包目录

课程设计-基于深度学习的语音识别python源码.zip （13个子文件）

说明.md 151B

TFDataUtils.py 6KB

crnnctc.jpg 3.17MB

.idea

other.xml 186B

vcs.xml 180B

ASR.iml 326B

misc.xml 297B

inspectionProfiles

profiles_settings.xml 174B

modules.xml 258B

CRNNCTC.py 9KB

__pycache__

TFDataUtils.cpython-37.pyc 5KB

CustomLayers.cpython-37.pyc 2KB

CustomLayers.py 1KB

import tensorflow as tf from tensorflow.keras.backend import ctc_decode from tensorflow.keras.layers import Input, Dense, Conv2D, MaxPooling2D, Dropout, Bidirectional, BatchNormalization, GRU, \ Activation, TimeDistributed, Flatten from tensorflow.keras.models import Model from tensorflow.keras.optimizers import Adam from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint import os import numpy as np from TFDataUtils import TFDATAUTILS from CustomLayers import CTCLayer, CTCInputLabelLen params_epochs = 100 params_lr = 1.0e-3 params_batch_size = 16 params_check = "models/crnnctc/" params_model_name = "crnnctc.h5" params_mode = "train1" class USER(): def __init__(self): self.tfdu = TFDATAUTILS() def build_model(self, summary=True): audio_input = Input(name='audio_input', shape=(self.tfdu.audio_len, self.tfdu.audio_feature_len, 1), dtype=tf.float32) pinyin_labels = Input(name='pinyin_labels', shape=[self.tfdu.label_max_string_len], dtype=tf.int32) layer_h1 = Conv2D(32, 3, activation='relu', padding='same', kernel_initializer='he_normal')(audio_input) layer_h1 = Dropout(0.1)(layer_h1) layer_h2 = Conv2D(32, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h1) layer_h3 = MaxPooling2D(pool_size=2, padding="valid")(layer_h2) layer_h3 = Dropout(0.1)(layer_h3) layer_h4 = Conv2D(64, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h3) layer_h4 = Dropout(0.1)(layer_h4) layer_h5 = Conv2D(64, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h4) layer_h6 = MaxPooling2D(pool_size=2, padding="valid")(layer_h5) layer_h6 = Dropout(0.1)(layer_h6) layer_h7 = Conv2D(128, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h6) layer_h7 = Dropout(0.1)(layer_h7) layer_h8 = Conv2D(128, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h7) layer_h9 = MaxPooling2D(pool_size=2, padding="valid")(layer_h8) layer_h9 = Dropout(0.1)(layer_h9) layer_h9 = BatchNormalization(axis=-1, epsilon=1e-5)(layer_h9) layer_h9 = Activation('relu')(layer_h9) layer_h10 = TimeDistributed(Flatten(), name='flatten')(layer_h9) layer_h11 = Dense(64, activation="relu", name="dense")(layer_h10) layer_h11 = Bidirectional(GRU(512, return_sequences=True, implementation=2, dropout=0.1), name='blstm')( layer_h11) crnnoutput = Dense(self.tfdu.pinyins_len + 2, name='crnnoutput', activation='softmax')(layer_h11) # CTC input_len, label_len = CTCInputLabelLen(3, name="ctcinputlabellen")(inputs=(audio_input, pinyin_labels)) predict = CTCLayer(name="ctclayer")(inputs=(pinyin_labels, crnnoutput, input_len, label_len)) model = Model(inputs=[audio_input, pinyin_labels], outputs=[predict]) tf.keras.utils.plot_model(model, "crnnctc.jpg", show_shapes=True, dpi=500) if summary: model.summary(line_length=200) # for tv in model.variables: # print(tv.name, " : ", tv.shape) return model def build_predict_model(self, summary=True): audio_input = Input(name='audio_input', shape=(self.tfdu.audio_len, self.tfdu.audio_feature_len, 1), dtype=tf.float32) layer_h1 = Conv2D(32, 3, activation='relu', padding='same', kernel_initializer='he_normal')(audio_input) layer_h1 = Dropout(0.1)(layer_h1) layer_h2 = Conv2D(32, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h1) layer_h3 = MaxPooling2D(pool_size=2, padding="valid")(layer_h2) layer_h3 = Dropout(0.1)(layer_h3) layer_h4 = Conv2D(64, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h3) layer_h4 = Dropout(0.1)(layer_h4) layer_h5 = Conv2D(64, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h4) layer_h6 = MaxPooling2D(pool_size=2, padding="valid")(layer_h5) layer_h6 = Dropout(0.1)(layer_h6) layer_h7 = Conv2D(128, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h6) layer_h7 = Dropout(0.1)(layer_h7) layer_h8 = Conv2D(128, 3, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h7) layer_h9 = MaxPooling2D(pool_size=2, padding="valid")(layer_h8) layer_h9 = Dropout(0.1)(layer_h9) layer_h9 = BatchNormalization(axis=-1, epsilon=1e-5)(layer_h9) layer_h9 = Activation('relu')(layer_h9) layer_h10 = TimeDistributed(Flatten(), name='flatten')(layer_h9) layer_h11 = Dense(64, activation="relu", name="dense")(layer_h10) layer_h11 = Bidirectional(GRU(512, return_sequences=True, implementation=2, dropout=0.1), name='blstm')( layer_h11) crnnoutput = Dense(self.tfdu.pinyins_len + 2, name='crnnoutput', activation='softmax')(layer_h11) model = Model(inputs=[audio_input], outputs=[crnnoutput]) if summary: model.summary() return model def train(self): train_dataset = self.tfdu.batched_data("data/TFRecordFiles/thchs30_train.tfrecord", self.tfdu.single_example_parser, params_batch_size, padded_shapes=(([self.tfdu.audio_len, self.tfdu.audio_feature_len], [self.tfdu.label_max_string_len]), [self.tfdu.label_max_string_len])) dev_dataset = self.tfdu.batched_data("data/TFRecordFiles/thchs30_dev.tfrecord", self.tfdu.single_example_parser, params_batch_size, padded_shapes=(([self.tfdu.audio_len, self.tfdu.audio_feature_len], [self.tfdu.label_max_string_len]), [self.tfdu.label_max_string_len])) model = self.build_model() if params_mode == "train1": model.load_weights(params_check + params_model_name) optimizer = Adam(params_lr) model.compile(optimizer) callbacks = [ EarlyStopping(monitor='val_loss', patience=10), ModelCheckpoint(filepath=params_check + params_model_name, monitor='val_loss', save_best_only=True, save_weights_only=True) ] model.fit( train_dataset, epochs=params_epochs, validation_data=dev_dataset, callbacks=callbacks ) model.save_weights(params_check + params_model_name) def decode_batch_predictions(self, pred): input_len = np.ones(pred.shape[0]) * pred.shape[1] # Use greedy search. For complex tasks, you can use beam search results = ctc_decode(pred, input_length=input_len, greedy=True, beam_width=self.tfdu.label_max_string_len)[0][0] # Iterate over the results and get back the pinyin output_text = [] for res in results: res = tf.strings.reduce_join(self.tfdu.num_to_pinyin(res), separator=" ").numpy().decode("utf-8") output_text.append(res) return output_text def test(self, audois): model = self.build_predict_model(summary=False) model.load_weights(params_check + params_model_name) m_samples = len(audois) audioinput = np.zeros([m_samples, self.tfdu.audio_len, self.tfdu.audio_feature_len], dtype=np.float) for i in range(m_s

评论收藏

内容反馈

版权申诉