【自动化需求文档-202110111】主要涵盖了自动化爬虫技术在金融信息领域的应用,目的是为了收集和处理与股票、投资、配资等相关的信息,以便生成具有针对性和高质量的内容。以下是文档中涉及的主要知识点:
1. **关键词段落**:
- **数据获取**:通过设定定时任务,每天从指定的股票资讯站点抓取包含特定关键词的原创文章段落。
- **关键词筛选**:首先判断文章是否包含关键词"配资",然后去掉首尾段落,选取中间包含标签词的段落,要求段落长度在100至500个字符之间。
- **数据标注**:对符合条件的段落进行标注,包括关键词、替换关键词,并替换链接词。
- **API调用**:利用HTTP Post请求向特定地址提交处理后的数据,其中API key由"data pool"和时间戳MD5加密生成。
2. **关联段落**:
- **数据源**:从指定的股票知识网站获取最近三天内与股票相关的段落。
- **筛选条件**:段落需包含至少一个股票关键词,如"个股"、"股市"等,且长度在250至500字符之间。排除包含特定词汇(如"图"、股票名称或代码、日期等)以及指向性强的段落。
- **自动化脚本**:为每个数据源编写自动化执行脚本,每小时更新一次。
- **额外任务**:定期更新A股股票名称和代码表,以避免重复和保持最新。
3. **缩略图**:
- **图像处理**:获取金融类通用图片,通过MD5加密生成唯一标识,按照121x75的尺寸进行裁剪并重命名。
4. **内容图**:
- **图像要求**:同缩略图,但可能用于不同场景,仍需要金融类图像,MD5命名,尺寸处理。
5. **视频**:
- **视频筛选**:从抖音和快手等平台搜索股票相关知识型或炒股技巧视频,要求时长2到5分钟,无时间限制、个股评论、股票名称或指数。
- **更新频率**:每小时更新一次,生成股票通用型文章素材。
6. **传点评数据**:
- **评论收集**:寻找股票相关的评论,增加网站相关性信息更新。
- **筛选标准**:排除包含时间、个股评论、股票名称或代码的评论。
以上内容体现了自动化在信息采集、处理、分析中的重要作用,涉及网页爬虫技术、数据筛选与清洗、API接口设计、图像处理和视频筛选等多个方面。通过这些自动化流程,可以有效提升内容生成的效率和质量,满足金融信息网站的日常运营需求。
评论0