<div align="center">
<hr>
<img src="https://raw.githubusercontent.com/MashiroSA/sekai-voice-fetch/master/assets/img/stamp.png" height="200" alt="sekai-voice-fetch">
<h1>sekai-voice-fetch</h1>
<b>一个用于爬取sekai.best网站中角色的对话语音的爬虫?</b>
</div>
</br>
<p align="center">
<a href="https://github.com/MashiroSA/sekai-voice-fetch/issues"><img src="https://img.shields.io/github/issues/MashiroSA/sekai-voice-fetch"></a>
<a href="https://github.com/MashiroSA/sekai-voice-fetch/forks"><img src="https://img.shields.io/github/forks/MashiroSA/sekai-voice-fetch"></a>
<a href="https://github.com/MashiroSA/sekai-voice-fetch"><img src="https://img.shields.io/github/stars/MashiroSA/sekai-voice-fetch"></a>
<a href="https://github.com/MashiroSA/sekai-voice-fetch/blob/main/LICENSE"><img src="https://img.shields.io/github/license/MashiroSA/sekai-voice-fetch"></a>
<a href="https://github.com/MashiroSA/sekai-voice-fetch"><img src="https://img.shields.io/github/commit-activity/t/MashiroSA/sekai-voice-fetch"></a>
</p>
<div align="center">
<img src="https://repobeats.axiom.co/api/embed/27ead3353d126b5d5008a85afedf019e30ec3531.svg" alt="Repobeats analytics image">
</div>
---
## 介绍
最近在做电子鳳えむ嘛,额兄弟们大家都知道我喜欢的角色就是emu了,我有`emu电子化训练的程序,emu的彩卡,emu的二次元角色图,emu的附庸ChatGPT,emu的爱`。可以说所有有关emu的东西我都有了,可是大家都知道emu喜欢唱歌,我还没有给她赛博唱歌的条件。那么我还缺什么?哦!我还缺emu的语音数据集。
于是想着手动下载数据集的,后来确实感觉麻烦,所以不小心写了个这个,感觉问题还是很多,但是勉强能用。
数据集的获取主要来源自`sekai.best`中的角色对话和活动对话资源。设计思路是:`循环模拟访问直至js加载完成-获取网页元素-遍历并找寻到以mp3结尾的链接-过滤以获取指定角色id的链接-下载`。
请不要使用过多给`sekai.best`造成困扰哦!
## 文件结构
```
├── config
│ └── setting_fetch.ini #配置文件,在运行前你必须先配置这个文件
├── logger #logger包,主要管理日志功能
│ ├── log_manager.py
│ ├── __init__.py
│ └── logs #日志
├── main.py #程序入口点
├── requirements.txt #依赖
├── sekai #sekai包,主要管理模拟访问和下载
│ ├── voice.py
│ ├── __init__.py
│── resource #下载到的文件都存放在这个文件夹里
│
├── tests
└── venv
```
## 使用方法
### 配置
- 打开配置文件`config/setting_fetch.ini`
```file
[DEFAULT]
url = https://sekai.best/storyreader/eventStory/15/6
interval = 30
character = 14
```
- 填写或修改你所要爬取的角色语音的story链接到url。
- 修改角色id项目character,相应的角色id请自行到sekai.best的故事板的下载语音的文件名查看,如`voice_ev_wonder_03_01_02_14.mp3`是emu的语音,角色的id是14。
- 如有需要,可以继续修改下载间隔interval(默认30秒),请勿调整过小,极容易触发`503`。
### 运行
- Python > 3.8, Tested by Python 3.10
- 启用虚拟环境venv
```bash
python3 -m venv .venv
source .venv/bin/activate
```
- 安装依赖
```bash
pip install -r requirements.txt
```
- 运行程序
```bash
python3 ./main.py
```
## 可能的问题
- 暂且不支持捕获网站的错误如`503 service unavailable`。
- 暂且不支持异步。
- 暂且不支持多链接批量下载,执行一次后需要更换链接。
- 没有很好的异常捕获。
- JS加载的处理直接使用循环有点暴力。(好像好了)
## 许可证
`sekai-voice-fetch` 采用 `MIT` 许可证进行开源
```text
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS
FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR
COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER
IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
```
请注意!使用本程序你将默认同意,所有资源的版权方归`Project Sekai`和`SEGA`以及资源托管站(及其他们的许可要求),本程序和`SEGA`和资源站`sekai.best`团体没有关系,您将保证不对二者产生任何不利影响。本程序仅供进行技术学习和交流,使用本程序所带来的一切法律后果由用户自行承担。
## 感谢
感谢sekai.best资源站为大家提供关于PJSK的资源服务。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
一个用于爬取sekai.best网站中角色的对话语音的爬虫。我爬!我爬!.zip (20个子文件)
SJT-code
SECURITY.md 1KB
.github
ISSUE_TEMPLATE
feature_request.md 610B
pre-pr.md 166B
bug_report.md 840B
workflows
checkout.yml 2KB
renovate.json 107B
assets
img
stamp.png 75KB
main.py 807B
LICENSE 1KB
tests
test_main.py 397B
conftest.py 102B
sekai
__init__.py 892B
voice.py 4KB
logger
__init__.py 0B
log_manager.py 993B
CODE_OF_CONDUCT.md 5KB
requirements.txt 33B
.gitignore 2KB
README.md 5KB
config
setting_fetch.ini 132B
共 20 条
- 1
资源评论
JJJ69
- 粉丝: 6370
- 资源: 5917
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- A股本轮牛市新高度预测:数据统计揭示最高点位,散户如何布局牛市?.mp4
- springboot项目中小型制造企业质量管理系统.zip
- springboot项目助农管理系统.zip
- springboot项目助农产品采购平台设计与实现.zip
- springboot项目足球社区管理系统.zip
- springboot项目足球俱乐部管理系统.zip
- 抖音无人直播,会说话的汤姆猫弹幕互动小游戏,两场直播6000+.mp4
- COMSOL裂缝地层的THM耦合,离散裂缝模型,随机复杂裂缝,适合地热能研究
- dma接口数据手册PDF
- 短视频抖店蓝海课程:从基础功能到变现方式,轻松打造爆款短视频.mp4
- 短视频制作与运营全攻略:拍摄剪辑全流程,带你0到1做流量变现.mp4
- 短视频文案创作教程:从钉子思维到实操结构整改,轻松提升文案质量.mp4
- Comsol砷化镓和频SFG
- 快手&俄罗斯 数字人带货:流量获取与选品策略 文案制作与账号运营指南.mp4
- 基于simulink的8阶lms自适应滤波器模型,纯手搭 非软件自带lms库,图示为降噪效果 第一行为加噪信号; 第二行为滤波器输出; 第三行为降噪结果 可广泛应用于数字域噪声抵消的原型验证,具有
- JavaScript逆向(一)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功