火车采集器插件开发手册
1.火车采集器插件使用 C#语言开发,用户开发时需要引用 Release 目录下的 super.dll 和
AppInerFace.dll 两个类库 即可。开发时需要实现 ILocoySpider 和 ISuperJob 两个接口,程
序在运行时会加载并执行插件程序集中的方法。插件的开发细节请查看开发示例。
2.开发插件时需要注意以下几个方法
A.程序集的目标 Framework 为 .Net Framework 2.0
B.程序集的目标平台为 x86
C.插件开发完成后,除插件文本本身外,其它引用的 dll 文件需要放在采集器的 System 目录
下。本程序引用的 super.dll 和 AppInerFace.dll 文件程序已自带并加密,不需要复制。复制
会引起程序运行错误。
我们从接口的源码中解析一下插件中需要实现的各个方法和属性的功能和使用时间:
using System;
using System.Collections.Generic;
using System.Text;
namespace LeWell.Api
{
/// <summary>
/// 火车采集器的插件
/// </summary>
public interface ILocoySpider
{
/// <summary>
/// 是否处理起始网址,如果是,则调用MakeStartAddress方法,对每个起始网址再进行处理
/// </summary>
bool UseMakeStartAddress { get; }
/// <summary>
/// 对起始网址进行处理,对每一个起始网址可以返回多个网址。注意这里的起始网址是采集器对
起始规则进行解析后生成的新的起始网址
/// </summary>
/// <param name="urlData"></param>
/// <param name="useragent"></param>
/// <param name="refer"></param>
/// <param name="cookie"></param>
/// <returns>如果UseMakeStartAddress,请直接返回空List或null</returns>
List<string> MakeStartAddress(string urlData,string useragent,string refer,System.Net.CookieCollection
cookie);
/// <summary>
/// 在 请 求 多 级 网址前更改http 请求,处理的是多级网址请求时的Request对象,可以修改