基于Python实现的人脸识别系统【100010666】资源-CSDN文库

共116个文件

jpg：51个

png：22个

w_0：15个

版权申诉

python

课程设计

19 浏览量 2023-02-07 16:19:44 上传评论收藏 56.17MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于Python实现的人脸识别系统【100010666】（116个子文件）

__model__ 111KB

fc_0.b_0 2KB

conv2d_2.b_0 280B

conv2d_1.b_0 280B

conv2d_2.b_0 280B

conv2d_1.b_0 280B

conv2d_2.b_0 280B

conv2d_1.b_0 280B

conv2d_0.b_0 152B

fc_1.b_0 40B

多媒体-识别视频中的人物.docx 5.5MB

moviecut.ipynb 2.24MB

FaceRecognition.ipynb 243KB

wps54C7.tmp.jpg 285KB

wps5498.tmp.jpg 282KB

wps555C.tmp.jpg 147KB

wps554A.tmp.jpg 138KB

wps54C8.tmp.jpg 132KB

wps5538.tmp-16356657973241.jpg 132KB

wps5538.tmp.jpg 132KB

wps5497.tmp.jpg 118KB

wps554C.tmp.jpg 112KB

wps554B.tmp.jpg 110KB

wps54C4.tmp.jpg 106KB

wps54C5.tmp.jpg 105KB

wps54C2.tmp.jpg 100KB

wps54C3.tmp.jpg 91KB

wps5496.tmp.jpg 88KB

wps550E.tmp.jpg 78KB

wps5549.tmp.jpg 77KB

wps54C1.tmp.jpg 73KB

wps550F.tmp.jpg 72KB

wps5537.tmp.jpg 72KB

wps5534.tmp.jpg 70KB

wps5511.tmp.jpg 68KB

wps54E9.tmp.jpg 64KB

wps5510.tmp.jpg 56KB

wps54E8.tmp.jpg 52KB

wps54B1.tmp.jpg 46KB

wps5565.tmp.jpg 45KB

wps5499.tmp.jpg 44KB

wps5560.tmp.jpg 44KB

wps5535.tmp.jpg 42KB

wps5533.tmp.jpg 40KB

wps5563.tmp.jpg 40KB

wps5561.tmp.jpg 40KB

wps5532.tmp.jpg 40KB

wps5566.tmp.jpg 40KB

wps555E.tmp.jpg 40KB

wps5536.tmp.jpg 39KB

wps54EB.tmp.jpg 39KB

wps555F.tmp.jpg 38KB

wps5564.tmp.jpg 33KB

wps54AF.tmp.jpg 33KB

wps549E.tmp.jpg 32KB

wps549D.tmp.jpg 32KB

wps54ED.tmp.jpg 31KB

wps54B0.tmp.jpg 31KB

wps5562.tmp.jpg 27KB

wps54EA.tmp.jpg 26KB

wps555D.tmp.jpg 20KB

wps5512.tmp.jpg 19KB

wps54C6.tmp.jpg 18KB

wps54EC.tmp.jpg 15KB

LICENSE 1KB

README.md 43KB

1.png 1.19MB

4.png 1.18MB

2.png 1.16MB

3.png 1.04MB

wps549C.tmp.png 731KB

4.png 477KB

9.png 469KB

8.png 433KB

14.png 423KB

3.png 407KB

13.png 405KB

0.png 397KB

12.png 395KB

6.png 389KB

11.png 349KB

5.png 304KB

7.png 290KB

2.png 285KB

10.png 279KB

wps549B.tmp.png 263KB

wps549A.tmp.png 257KB

1.png 250KB

test.py 3KB

test.spec 852B

demo.srt 1KB

demo1.srt 953B

共 116 条

> # ♻️ 资源 > **大小：** 56.1MB > **文档链接：**[**https://www.yuque.com/sxbn/ks/100010666**](https://www.yuque.com/sxbn/ks/100010666) > **➡️ 资源下载：**[**https://download.csdn.net/download/s1t16/87425292**](https://download.csdn.net/download/s1t16/87425292) > **注：更多内容可关注微信公众号【神仙别闹】，如当前文章或代码侵犯了您的权益，请私信作者删除！** > ![qrcode_for_gh_d52056803b9a_344.jpg](https://cdn.nlark.com/yuque/0/2023/jpeg/2469055/1692147256036-49ec7e0c-5434-4963-b805-47e7295c9cbc.jpeg#averageHue=%23a3a3a3&clientId=u8fb96484-770e-4&from=paste&height=140&id=u237e511a&originHeight=344&originWidth=344&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=8270&status=done&style=none&taskId=ud96bf5f7-fe85-4848-b9c2-82251181297&title=&width=140.1999969482422) # 一：问题描述选题五： ![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265766928-64374598-4e9b-4e91-9c71-fb50f7bf8422.png#averageHue=%23efefef&from=url&id=UDlRX&originHeight=362&originWidth=693&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=) # 二：实现思路一开始拿到这个题目是有点懵的，因为我们组里都是信安，并没有学习过机器学习类似的课程，但是这道题目是一定要用到机器学习。再加上这道题老师并没有给出参考代码，所以可以说是完全是“从头开始”。不过功夫不负有心人并且老师给了我们最后一个选题充裕的时间，所以我们才可以将其做出来。 ## 2.1 切换点而根据问题的描述：根据声音或者视频，给出镜头的切换点，按照时间段给出时间起点和终点。我们所理解的切换点为两种：镜头切换点和音频切换点。 ### 2.1.2 镜头切换点对于镜头切换点：对于这个视频来说，可以很明显的看到这个视频的拍摄并不是一个机位拍摄的，而是多机位进行拍摄。每个机位对着一个嘉宾或者主持人。如下图所示： ![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767079-317a9d98-ef42-46f2-80b1-022de2bbc6a2.png#averageHue=%2376818b&from=url&id=TcDZu&originHeight=322&originWidth=561&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=) 所以我们想到如果说我们可以找到这个视频的镜头切换点或者说剪辑点，对于一个视频而言后期剪辑会将不同机位拍摄的视频剪辑在一起，而这个剪辑点是很好找的，所以只要找到这视频的剪辑点就相当于找到了这个视频的镜头切换点，就可以将一段视频分段，分成一段只有一个主持人的样子，并且将每一段所对应的时间记录下来生成一个列表，这样就可以达到选题给出的要求。至于如何找这个剪辑点在之后的第三段：分帧中会提到，这里就不赘述了。 ### 2.1.2 音频切换点。对比寻找视频切换点，音频切换点就显得不是友好了。 ![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767167-352330f4-c9db-402e-84d0-65228bc1bd4e.png#averageHue=%23181d15&from=url&id=wYJUA&originHeight=550&originWidth=641&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=) 这是我们用来测试的波形图对于这段音频，当一个人停止说话时就是波谷，然后后面一个人又接话这样就可以判断音频的切换点。虽然说理论上这样是没有错的，但是实际实现上是有很多纰漏的：当一个人说完了一句话，其实就有停顿，这个时候如果说时音频切换点的话那么一段视频中就有很多很多个切换点，如上图，其实里面实际的音频切换点没有几个，但是可以观察到波谷有二十来个左右，所以这种方法一开始就被我们摒弃了，但是不无参考价值。对于这个切换点我们给出了两种方案： 1：设定相应的步长，分块进行声纹识别，得出说话人队列。 2：说话人日志（Speaker Diarization）：基于深度学习的说话人日志，通过深度学习的方法，从训练数据中学习语音和说话人的特征，从而实现说话人“谁在什么时候说话”的目标。 ## 2.2 嘉宾识别 = 人脸识别 & 声纹识别 ### 2.2.1 人脸识别对于人脸识别这方面，现在技术上已经做的很发达了。比如说图书馆和宿舍用的人脸识别系统：可以说秒识别了。而且识别准确率特别高。我们在这里先假设我们的人脸识别准确率可以达到90%以上，实际上我们也达到了90%以上。但是在这里我们假设人脸识别是成功的，是可移植的。如果说分帧做好了的话，对于人脸识别的话我们就可以在一段视频中取多帧图片，对其进行人脸识别，然后取匹配结果中的最匹配的那一项作为结果，成为那个片段的标签用来标记这个片段中是哪个嘉宾。这样我们就可以将嘉宾识别出来。具体的人脸识别是怎么样实现的之后会有详细的介绍。 ### 2.2.2 声纹识别对于声纹识别这方面，通过对市面上的调研，声纹识别的应用场景并没有人脸识别广泛。所以对于声纹识别这方面的实现来说，并不是一件简单的事情。所以对于声纹识别这个部分，我们也像人脸识别一样假设，我们实现的声纹识别准确率可以达到90%以上，（实际上可能最高只有80%）。通过上面介绍的两种找音频切换点的方案：这样也可以像人脸识别一样得到一项列表，也可以将嘉宾实现出来。具体的声纹识别是怎么样实现的在之后会有所涉及。 **所以我们的这个实现思路可以用下面的一张图来表示：** ![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767233-e1ff32cc-6a0f-446c-b932-9f61b86c5ea4.png#averageHue=%23f8f7f5&from=url&id=bDpTy&originHeight=189&originWidth=693&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=) # 三：实验环境 **操作系统**：Windows 10 pro **编译环境**: Python 3.7.4 + Pychram 2019.3 + Jupyter Notebook **视频播放器**：potplayer Mini # 四：分帧这一部分是由我的队友严诚逸来进行实现的。所以这一部分详细内容见他的实验报告即可，这里是简单的介绍。对于视频的处理而言，区分每个分镜之间最重要的就是做好每一帧之间的相似度对比，当相似度跳动的超过了某个我们设置的阈值，我们就可以认为镜头切换了。而如何做每一帧的相似度对比呢。我们找到了三种解决上述问题的方法： ## 4.1 直方图计算法从机器的角度上来说，如果说要识别两种相似的图像，应该先识别图像的特征，然后进行对比。 ``` 而如果说没有建立一个模型来提取特征值，计算机很难识别两张相似图片。但是计算机却可以很容易就识别图像的图像值。所以我们选择使用直方图的计算法。在颜色检索中，颜色直方图是最通用的颜色特征形式，它运用了统计学的方法，体现了三个颜色通道分布密度的联合分布概率。它具有特征提取和相似度计算方便，并且随图像尺度，旋转等变化不敏感的特点，它能简单描述一幅图像颜色的全局分布，即不同色彩在整幅图像中所占的比例下列图片来源自：https://blog.csdn.net/feimengjuan/article/details/51279629 ``` ![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767292-4c1135dd-bd18-41ee-b450-ec1ab3d2cb7f.png#averageHue=%233c3f3b&from=url&id=CUl5P&originHeight=217&originWidth=302&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767355-5f54c585-be25-470b-bdb0-f8d1717556a1.png#averageHue=%233c403f&from=url&id=eVhZ6&originHeight=220&originWidth=305&originalType=binary&ratio=1&rotation=0&

评论收藏

内容反馈

版权申诉