> # ♻️ 资源
> **大小:** 56.1MB
> **文档链接:**[**https://www.yuque.com/sxbn/ks/100010666**](https://www.yuque.com/sxbn/ks/100010666)
> **➡️ 资源下载:**[**https://download.csdn.net/download/s1t16/87425292**](https://download.csdn.net/download/s1t16/87425292)
> **注:更多内容可关注微信公众号【神仙别闹】,如当前文章或代码侵犯了您的权益,请私信作者删除!**
> ![qrcode_for_gh_d52056803b9a_344.jpg](https://cdn.nlark.com/yuque/0/2023/jpeg/2469055/1692147256036-49ec7e0c-5434-4963-b805-47e7295c9cbc.jpeg#averageHue=%23a3a3a3&clientId=u8fb96484-770e-4&from=paste&height=140&id=u237e511a&originHeight=344&originWidth=344&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=8270&status=done&style=none&taskId=ud96bf5f7-fe85-4848-b9c2-82251181297&title=&width=140.1999969482422)
# 一:问题描述
选题五:
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265766928-64374598-4e9b-4e91-9c71-fb50f7bf8422.png#averageHue=%23efefef&from=url&id=UDlRX&originHeight=362&originWidth=693&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
# 二:实现思路
一开始拿到这个题目是有点懵的,因为我们组里都是信安,并没有学习过机器学习类似的课程,但是这道题目是一定要用到机器学习。再加上这道题老师并没有给出参考代码,所以可以说是完全是“从头开始”。不过功夫不负有心人并且老师给了我们最后一个选题充裕的时间,所以我们才可以将其做出来。
## 2.1 切换点
而根据问题的描述:根据声音或者视频,给出镜头的切换点,按照时间段给出时间起点和终点。
我们所理解的切换点为两种:镜头切换点和音频切换点。
### 2.1.2 镜头切换点
对于镜头切换点:对于这个视频来说,可以很明显的看到这个视频的拍摄并不是一个机位拍摄的,而是多机位进行拍摄。每个机位对着一个嘉宾或者主持人。如下图所示:
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767079-317a9d98-ef42-46f2-80b1-022de2bbc6a2.png#averageHue=%2376818b&from=url&id=TcDZu&originHeight=322&originWidth=561&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
所以我们想到如果说我们可以找到这个视频的镜头切换点或者说剪辑点,对于一个视频而言后期剪辑会将不同机位拍摄的视频剪辑在一起,而这个剪辑点是很好找的,所以只要找到这视频的剪辑点就相当于找到了这个视频的镜头切换点,就可以将一段视频分段,分成一段只有一个主持人的样子,并且将每一段所对应的时间记录下来生成一个列表,这样就可以达到选题给出的要求。
至于如何找这个剪辑点在之后的第三段:分帧中会提到,这里就不赘述了。
### 2.1.2 音频切换点。
对比寻找视频切换点,音频切换点就显得不是友好了。
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767167-352330f4-c9db-402e-84d0-65228bc1bd4e.png#averageHue=%23181d15&from=url&id=wYJUA&originHeight=550&originWidth=641&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
这是我们用来测试的波形图
对于这段音频,当一个人停止说话时就是波谷,然后后面一个人又接话这样就可以判断音频的切换点。
虽然说理论上这样是没有错的,但是实际实现上是有很多纰漏的:当一个人说完了一句话,其实就有停顿,这个时候如果说时音频切换点的话那么一段视频中就有很多很多个切换点,如上图,其实里面实际的音频切换点没有几个,但是可以观察到波谷有二十来个左右,所以这种方法一开始就被我们摒弃了,但是不无参考价值。
对于这个切换点我们给出了两种方案:
1:设定相应的步长,分块进行声纹识别,得出说话人队列。
2:说话人日志(Speaker Diarization):基于深度学习的说话人日志,通过深度学习的方法,从训练数据中学习语音和说话人的特征,从而实现说话人“谁在什么时候说话”的目标。
## 2.2 嘉宾识别 = 人脸识别 & 声纹识别
### 2.2.1 人脸识别
对于人脸识别这方面,现在技术上已经做的很发达了。比如说图书馆和宿舍用的人脸识别系统:可以说秒识别了。而且识别准确率特别高。
我们在这里先假设我们的人脸识别准确率可以达到90%以上,实际上我们也达到了90%以上。但是在这里我们假设人脸识别是成功的,是可移植的。如果说分帧做好了的话,对于人脸识别的话我们就可以在一段视频中取多帧图片,对其进行人脸识别,然后取匹配结果中的最匹配的那一项作为结果,成为那个片段的标签用来标记这个片段中是哪个嘉宾。这样我们就可以将嘉宾识别出来。具体的人脸识别是怎么样实现的之后会有详细的介绍。
### 2.2.2 声纹识别
对于声纹识别这方面,通过对市面上的调研,声纹识别的应用场景并没有人脸识别广泛。所以对于声纹识别这方面的实现来说,并不是一件简单的事情。所以对于声纹识别这个部分,我们也像人脸识别一样假设,我们实现的声纹识别准确率可以达到90%以上,(实际上可能最高只有80%)。通过上面介绍的两种找音频切换点的方案:这样也可以像人脸识别一样得到一项列表,也可以将嘉宾实现出来。具体的声纹识别是怎么样实现的在之后会有所涉及。
**所以我们的这个实现思路可以用下面的一张图来表示:**
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767233-e1ff32cc-6a0f-446c-b932-9f61b86c5ea4.png#averageHue=%23f8f7f5&from=url&id=bDpTy&originHeight=189&originWidth=693&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)
# 三:实验环境
**操作系统**:Windows 10 pro
**编译环境**: Python 3.7.4 + Pychram 2019.3 + Jupyter Notebook
**视频播放器**:potplayer Mini
# 四:分帧
这一部分是由我的队友严诚逸来进行实现的。所以这一部分详细内容见他的实验报告即可,这里是简单的介绍。
对于视频的处理而言,区分每个分镜之间最重要的就是做好每一帧之间的相似度对比,当相似度跳动的超过了某个我们设置的阈值,我们就可以认为镜头切换了。而如何做每一帧的相似度对比呢。
我们找到了三种解决上述问题的方法:
## 4.1 直方图计算法
从机器的角度上来说,如果说要识别两种相似的图像,应该先识别图像的特征,然后进行对比。
```
而如果说没有建立一个模型来提取特征值,计算机很难识别两张相似图片。但是计算机却可以很容易就识别图像的图像值。
所以我们选择使用直方图的计算法。
在颜色检索中,颜色直方图是最通用的颜色特征形式,它运用了统计学的方法,体现了三个颜色通道分布密度的联合分布概率。它具有特征提取和相似度计算方便,并且随图像尺度,旋转等变化不敏感的特点,它能简单描述一幅图像颜色的全局分布,即不同色彩在整幅图像中所占的比例
下列图片来源自:https://blog.csdn.net/feimengjuan/article/details/51279629
```
![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767292-4c1135dd-bd18-41ee-b450-ec1ab3d2cb7f.png#averageHue=%233c3f3b&from=url&id=CUl5P&originHeight=217&originWidth=302&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)![](https://cdn.nlark.com/yuque/0/2024/png/2469055/1714265767355-5f54c585-be25-470b-bdb0-f8d1717556a1.png#averageHue=%233c403f&from=url&id=eVhZ6&originHeight=220&originWidth=305&originalType=binary&ratio=1&rotation=0&
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
详情介绍:https://www.yuque.com/sxbn/ks/100010666 编译环境: Python 3.7.4 + Pychram 2019.3 + Jupyter Notebook 根据声音或者视频,给出镜头切换点。并标注出讲话人的声音。并给出画面中嘉宾的人的名字,按时间段给出时间起点和终点,画面中只要嘉宾变了,就作为一个新段。
资源推荐
资源详情
资源评论
收起资源包目录
基于Python实现的人脸识别系统【100010666】 (116个子文件)
__model__ 111KB
__model__ 111KB
__model__ 111KB
fc_0.b_0 2KB
fc_0.b_0 2KB
fc_0.b_0 2KB
conv2d_2.b_0 280B
conv2d_1.b_0 280B
conv2d_2.b_0 280B
conv2d_1.b_0 280B
conv2d_2.b_0 280B
conv2d_1.b_0 280B
conv2d_0.b_0 152B
conv2d_0.b_0 152B
conv2d_0.b_0 152B
fc_1.b_0 40B
fc_1.b_0 40B
fc_1.b_0 40B
多媒体-识别视频中的人物.docx 5.5MB
moviecut.ipynb 2.24MB
FaceRecognition.ipynb 243KB
wps54C7.tmp.jpg 285KB
wps5498.tmp.jpg 282KB
wps555C.tmp.jpg 147KB
wps554A.tmp.jpg 138KB
wps54C8.tmp.jpg 132KB
wps5538.tmp-16356657973241.jpg 132KB
wps5538.tmp.jpg 132KB
wps5497.tmp.jpg 118KB
wps554C.tmp.jpg 112KB
wps554B.tmp.jpg 110KB
wps54C4.tmp.jpg 106KB
wps54C5.tmp.jpg 105KB
wps54C2.tmp.jpg 100KB
wps54C3.tmp.jpg 91KB
wps5496.tmp.jpg 88KB
wps550E.tmp.jpg 78KB
wps5549.tmp.jpg 77KB
wps54C1.tmp.jpg 73KB
wps550F.tmp.jpg 72KB
wps5537.tmp.jpg 72KB
wps5534.tmp.jpg 70KB
wps5511.tmp.jpg 68KB
wps54E9.tmp.jpg 64KB
wps5510.tmp.jpg 56KB
wps54E8.tmp.jpg 52KB
wps54B1.tmp.jpg 46KB
wps5565.tmp.jpg 45KB
wps5499.tmp.jpg 44KB
wps5560.tmp.jpg 44KB
wps5535.tmp.jpg 42KB
wps5533.tmp.jpg 40KB
wps5563.tmp.jpg 40KB
wps5561.tmp.jpg 40KB
wps5532.tmp.jpg 40KB
wps5566.tmp.jpg 40KB
wps555E.tmp.jpg 40KB
wps5536.tmp.jpg 39KB
wps54EB.tmp.jpg 39KB
wps555F.tmp.jpg 38KB
wps5564.tmp.jpg 33KB
wps54AF.tmp.jpg 33KB
wps549E.tmp.jpg 32KB
wps549D.tmp.jpg 32KB
wps54ED.tmp.jpg 31KB
wps54B0.tmp.jpg 31KB
wps5562.tmp.jpg 27KB
wps54EA.tmp.jpg 26KB
wps555D.tmp.jpg 20KB
wps5512.tmp.jpg 19KB
wps54C6.tmp.jpg 18KB
wps54EC.tmp.jpg 15KB
LICENSE 1KB
README.md 43KB
1.png 1.19MB
4.png 1.18MB
2.png 1.16MB
3.png 1.04MB
wps549C.tmp.png 731KB
4.png 477KB
9.png 469KB
8.png 433KB
14.png 423KB
3.png 407KB
13.png 405KB
0.png 397KB
12.png 395KB
6.png 389KB
11.png 349KB
5.png 304KB
7.png 290KB
2.png 285KB
10.png 279KB
wps549B.tmp.png 263KB
wps549A.tmp.png 257KB
1.png 250KB
test.py 3KB
test.spec 852B
demo.srt 1KB
demo1.srt 953B
共 116 条
- 1
- 2
资源评论
神仙别闹
- 粉丝: 2680
- 资源: 7667
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功