[TOC]
## 零、版本信息
**版本:v2.0.20210513**
新增爬虫-基金经理
-----------------------------------------------------------------------------------------------------
**版本:v2.0.20210507**
更新如下:
1、北向沪股通、深股通和港股通的爬虫更改了提取url,重写了beixiang_10stock.py
2、检查了爬虫,并爬取部分数据更新到data_temp文件夹
3、考虑到全部数据过大,data_temp文件夹仅为少量数据,全部数据自行参考后文启动爬虫
------------------------------------------------------------------------------------------------------
**版本:v1.0.20200424**
首次发布!具体功能参考下文。
------------------------------------------------------------------------------------------------------
启动方式:scrapy crawl spider.name
说明:阅读前可以点击原网址查看爬取的目标样式!成功抓取的数据样式在data_temp文件夹内。
本程序从天天基金网采集数据,目前包含下面5个爬虫,基本上涵盖了整个基金市场情况。可以根据实际需要,有选择性的爬取即可。
- 一、北向资金每日流向
- 二、北向资金每日前20大交易股
- 三、基金公司情况
- 四、基金排名每日涨跌情况
- 五、大盘(上证指数、深圳成指、创业板指)每日涨跌情况
---
## 一、北向资金每日流向
- [原网址](http://data.eastmoney.com/hsgt/index.html)
![](https://upload-images.jianshu.io/upload_images/19723859-bc428d99f8ab84b9.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
- 文件名:beixiang.py (上海MarketType=1, 深圳MarketType=3)
- 字段含义
爬取基本上按照原网址格式,理解起来简单。根据天天基金网提示,值得注意的有两点。1、当日资金流入`today_in`包含两个部分:已经成交的和已申报未成交的。2、当日净买额`today_net_in` = 买入`total_in`-卖出`total_out` 。 一般分析使用的是净买额为当日资金流入`today_in`。
| 字段名 | 含义 |
| ---------------- | ------------------------------------------------------------ |
| marketType | 市场类型:1代表上海,3代表深圳 |
| datetime | 时间 |
| total_net_in | 当日成交净买额 |
| total_in | 买入额 |
| total_out | 卖出额 |
| today_in | 当日资金流入 |
| grand_total_in | 历史累计流入 |
| today_balance | 当日余额 |
| stock_code | 领涨股代码 |
| stock | 领涨股名称 |
| stock_up | 领涨股涨跌幅 |
| sz_index | 指数(上证或者深圳成指数,根据marketType来确定。1代表上海,3代表深圳) |
| sz_index_percent | 指数涨跌幅 |
## 二、北向资金每日前20大交易股
- [原网址](http://data.eastmoney.com/hsgt/top10/2020-01-02.html)
分沪股通10大交易股和深股通10大交易股
![](https://upload-images.jianshu.io/upload_images/19723859-a0102c849829adc3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
- 文件名:beixiang_10stock.py
- 字段含义
当日净流入=当日流入-当日流出; 当日成交额=当日流入+当日流出
| 字段名 | 含义 |
| ------------- | ------------------------------ |
| marketType | 市场类型:1代表上海,3代表深圳 |
| date_time | 时间 |
| rank | 排名 |
| code | 股票代码 |
| name | 股票名称 |
| close | 当日收盘价 |
| changePercent | 当日涨跌幅 |
| net_in | 当日净流入 |
| in | 当日流入 |
| out | 当日流出 |
| total | 当日成交额 |
## 三、基金公司信息
- [原网址](http://fund.eastmoney.com/Company/default.html)
- [基金公司基本信息](http://fund.eastmoney.com/Company/80163340.html)
![](https://upload-images.jianshu.io/upload_images/19723859-05db1a9edc3b0c54.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
| 字段名 | 含义 |
| ------------------- | ------------ |
| company_code | 基金公司代码 |
| company_shortName | 基金公司 |
| company_name | 基金公司全称 |
| position | 位置 |
| general_manager | 总经理 |
| website_url | 官网 |
| tell | 客服热线 |
| manager_total_asset | 管理规模 |
| fund_amount | 基金数量 |
| manager_amount | 经理人数 |
| publish_date | 成立日期 |
| company_property | 公司性质 |
- [基金公司规模](http://fund.eastmoney.com/Company/80163340.html)
![](https://upload-images.jianshu.io/upload_images/19723859-7445eb87d6228845.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
| 字段名 | 含义 |
| ------------------------ | ------------------------ |
| company_code | 基金公司代码 |
| company_shortName | 基金公司 |
| fund_type | 基金类型 |
| fund_scale | 基金规模(亿元) |
| fund_scale_mean | 平均每家公司基金规模 |
| fund_scale_rank | 同类排名 |
| fund_amount | 基金数量 |
| fund_amount_mean | 平均每家公司基金数量 |
| fund_amount_rank | 同类排名 |
| fund_manager_amount | 基金经理数量 |
| fund_manager_amount_mean | 平均每家公司基金经理数量 |
| fund_manager_amount_rank | 同类排名 |
- [基金公司下的基金清单](http://fund.eastmoney.com/Company/80163340.html)
这里就爬取了清单,净值等信息参考第三点基金信息即可。
![](https://upload-images.jianshu.io/upload_images/19723859-e78dcfe364ff52e1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
| 字段名 | 含义 |
| ----------------- | ------------ |
| company_code | 基金公司代码 |
| company_shortName | 基金公司 |
| fund_name | 基金名称 |
| fund_code | 基金代码 |
- [公司的10大持仓股票](http://fund.eastmoney.com/Company/f10/gscc_80163340.html)
![](https://upload-images.jianshu.io/upload_images/19723859-d9dfd48aa476ad28.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
| 字段名 | 含义 |
| --------------------- | ---------------- |
| company_code | 基金公司代码 |
| company_shortName | 基金公司 |
| stock_code | 股票代码 |
| stock_name | 股票名称 |
| havein_mycomanpy_fund | 配置的基金数
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
天天基金网爬虫:北向资金、基金每日净值涨跌、大盘涨跌、基金公司信息.zip (28个子文件)
SJT-code
scrapy.cfg 257B
tt_fund
__init__.py 0B
data_temp
fund_earning
fund_earning_list_20210507.csv 2KB
fund_stock10_20210507.csv 3KB
fund_earning_perday_20210507.csv 3KB
fund_basic_info_20210507.csv 15KB
beixiang_10stock
beixiang_10stock_20210507.csv 2KB
nanxiang_10stock_20210507.csv 2KB
market_index
market_index_20210507.csv 1KB
manager
manager_20210513.csv 667KB
beixiang
beixiang_20210507.csv 1KB
fund_company
company_10stock_20210507.csv 963B
company_fund_list_20210507.csv 687B
company_info_20210507.csv 2KB
company_industry_category_20210507.csv 661B
company_fundscale_20210507.csv 824B
pipelines.py 419B
spiders
__init__.py 161B
fund_earning.py 9KB
beixiang.py 3KB
manager.py 3KB
fund_company.py 10KB
market_index.py 2KB
beixiang_10stock.py 5KB
items.py 286B
settings.py 3KB
middlewares.py 4KB
README.md 16KB
共 28 条
- 1
资源评论
- weixin_467740252024-09-18这个资源内容超赞,对我来说很有价值,很实用,感谢大佬分享~
JJJ69
- 粉丝: 6347
- 资源: 5918
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功