# Датасет Silero-VAD
> Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный
интеллект» национальной программы «Цифровая экономика Российской Федерации».
По ссылкам ниже представлены `.feather` файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. `.feather` файлы можно открыть с помощью библиотеки `pandas`:
```python3
import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
```
Каждый `.feather` файл с разметкой содержит следующие колонки:
- `speech_timings` - разметка данного аудио. Это список, содержащий словари вида `{'start': START_SECOND, 'end': END_SECOND}`, где `START_SECOND` и `END_SECOND` - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;
- `language` - ISO код языка данного аудио.
Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.
**Все данные размечены при временной дискретизации в ~30 миллисекунд (`num_samples` - 512)**
| Название | Число часов | Число языков | Ссылка | Лицензия | md5sum |
|----------------------|-------------|-------------|--------|----------|----------|
| **Bible.is** | 53,138 | 1,596 | [URL](https://live.bible.is/) | [Уникальная](https://live.bible.is/terms) | ea404eeaf2cd283b8223f63002be11f9 |
| **globalrecordings.net** | 9,743 | 6,171[^1] | [URL](https://globalrecordings.net/en) | CC BY-NC-SA 4.0 | 3c5c0f31b0abd9fe94ddbe8b1e2eb326 |
| **VoxLingua107** | 6,628 | 107 | [URL](https://bark.phon.ioc.ee/voxlingua107/) | CC BY 4.0 | 5dfef33b4d091b6d399cfaf3d05f2140 |
| **Common Voice** | 30,329 | 120 | [URL](https://commonvoice.mozilla.org/en/datasets) | CC0 | 5e30a85126adf74a5fd1496e6ac8695d |
| **MLS** | 50,709 | 8 | [URL](https://www.openslr.org/94/) | CC BY 4.0 | a339d0e94bdf41bba3c003756254ac4e |
| **Итого** | **150,547** | **6,171+** | | | |
## Bible.is
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/BibleIs.feather)
- Колонка `audio_link` содержит ссылки на конкретные аудио файлы.
## globalrecordings.net
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/globalrecordings.feather)
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
``Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.``
## VoxLingua107
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/VoxLingua107.feather)
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
## Common Voice
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/common_voice.feather)
Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по [ссылке](https://commonvoice.mozilla.org/en/datasets) и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета `Common Voice Corpus 16.1`.
- Колонка `audio_path` содержит уникальные названия `.mp3` файлов, полученных после скачивания соответствующего датасета.
## MLS
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/MLS.feather)
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
## Лицензия
Данный датасет распространяется под [лицензией](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en) `CC BY-NC-SA 4.0`.
## Цитирование
```
@misc{Silero VAD Dataset,
author = {Silero Team},
title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
email = {hello@silero.ai}
}
```
[^1]: ``Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.``
没有合适的资源?快使用搜索试试~ 我知道了~
python系列&deep-study系列:神经网络实用工具(整活)系列-使用silero-vad标注语音中的人物对话
共53个文件
md:11个
java:7个
py:6个
0 下载量 118 浏览量
2024-08-05
22:14:21
上传
评论
收藏 3.84MB ZIP 举报
温馨提示
python系列&deep-study系列:神经网络实用工具(整活)系列-使用silero-vad标注语音中的人物对话
资源推荐
资源详情
资源评论
收起资源包目录
silero-vad-master.zip (53个子文件)
silero-vad-master
silero-vad.ipynb 6KB
files
silero_logo.jpg 23KB
.github
ISSUE_TEMPLATE
feature_request.md 755B
questions---help---support.md 335B
bug_report.md 1KB
workflows
python-publish.yml 1KB
src
silero_vad
__init__.py 388B
data
__init__.py 0B
silero_vad.jit 2.16MB
silero_vad.onnx 2.22MB
model.py 824B
utils_vad.py 18KB
LICENSE 1KB
hubconf.py 2KB
examples
go
go.mod 218B
go.sum 2KB
cmd
main.go 1KB
README.md 333B
java-wav-file-example
src
main
java
org
example
App.java 2KB
SileroSpeechSegment.java 1KB
SileroVadOnnxModel.java 7KB
SileroVadDetector.java 10KB
java-example
pom.xml 928B
src
main
java
org
example
App.java 3KB
SlieroVadOnnxModel.java 6KB
SlieroVadDetector.java 6KB
parallel_example.ipynb 4KB
rust-example
Cargo.toml 185B
src
utils.rs 1KB
main.rs 1KB
silero.rs 2KB
vad_iter.rs 7KB
Cargo.lock 20KB
.gitignore 20B
README.md 496B
microphone_and_webRTC_integration
microphone_and_webRTC_integration.py 8KB
README.md 820B
cpp
wav.h 7KB
README.md 1KB
silero-vad-onnx.cpp 15KB
csharp
resources
put_model_here.txt 58B
SileroSpeechSegment.cs 522B
VadDotNet.csproj 675B
Program.cs 1KB
SileroVadOnnxModel.cs 7KB
SileroVadDetector.cs 9KB
pyaudio-streaming
pyaudio-streaming-examples.ipynb 9KB
README.md 797B
colab_record_example.ipynb 8KB
datasets
README.md 7KB
CODE_OF_CONDUCT.md 3KB
pyproject.toml 1KB
README.md 6KB
共 53 条
- 1
资源评论
坦笑&&life
- 粉丝: 5w+
- 资源: 1416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功