没有合适的资源？快使用搜索试试~ 我知道了~

文库首页开发技术其它website_extractor:这是一个内存中的网络爬虫和抓取工具，用于从公共网站小规模地提取数据。当前的实现采用 .csv 的 url 并抓取站点，提取有关站点的基本信息，如电子邮件、电话号码、地址和指定的术语

website_extractor:这是一个内存中的网络爬虫和抓取工具，用于从公共网站小规模地提取数据。当前的实现采用 .cs...

共27个文件

csv：10个

php：9个

md：3个

需积分: 10 1 下载量 125 浏览量 2021-06-11 15:42:37 上传评论收藏 63KB ZIP 举报

温馨提示

网站数据提取器一个实用程序将包含以下内容的 .csv 作为输入 ID 网站名称（通常映射到此域的公司名称）网址 ( ) 抓取这些网站提取每个站点的基本信息电子邮件地址触发条件将提取的数据放入 .csvs 使用这个工具确保您的设置正确（ config.php ）将网站 ID、名称和 url 的列表放入targets.csv文件中确保它有 linux 行尾（ \n ）或者确保你更新了config.php的行尾设置在创建 csvs 时，通常 excel 搞砸了，所以使用数字或其他一些基本的 csv 编辑器（或只是一个文本编辑器）执行 scrape_targets.php 这将抓取所有站点，提取数据，并将内容推送到 results.csv 地址和地理编码此工具默认使用公共“数据科学工具包 API” 如果你通过它运行大量地址，它会阻止你（不知道具体限制）

资源推荐

资源详情

资源评论