系统简介: 本搜索引擎是采用倒排结构算法,ASP_VB脚本,Access数据库的小型垂直(行业)搜索引擎。 具有平台适应性好,易于维护,速度快,源码开放等优点。 平均单个网页处理时间:小于15秒。 平均检索时间:小于300豪秒。 应用范围:(重要) 1.中小型网站的站内全文搜索,中小企业内网全文搜索。 2.小型应用范围的互联网行业搜索,例如:汽车用品搜索,化妆品网购搜索,蔬菜信息搜索等。 3.SEO工作者和初学者的实践应用,主要是虚拟大型互联网全文搜素引擎(谷歌、百度等),并用于检验SEO效果。 4.文字工作者和科研工作者提供基于本地单机的文章,学术资料的搜集整理(文库模块),建立索引,并可以发布在互联网上,即个人版的兴趣化搜索引擎。 5.类似于:hao123,265的网址站导航服务,全后台管理,精品网页的站内全文搜索。 6.基于搜索模块带来的流量,类似于百度、谷歌的收费竞价广告服务。 7.提供以上两种或多种功能的综合服务 相对以前版本的主要改进: 1.使用VB标准应用程序,加速关键任务的执行。 2.清理了垃圾代码,优化了核心算法。 3.整合第三方ASP运行平台,安装调试更方便。 4.对突发大访问量了进行优化。 5.对云虚拟服务器了进行优化。 极限临界状态: 主表不分库的情况下支持:986万有效网页,索引条目11.7亿条,最大占用空间(平均每个网页大小160K)约3.2T_NTFS。 后台管理入口:login.asp 默认用户名:admin 默认密码:admin 请在调试成功后,修改用户名和密码,以确保安全。 数据库连接文件: conn.asp 请调试成功后立即修改参数data_name的数据库名称和路径 单机运行环境: iis6.0 MSXML 3.0 Service ACCESS 2003 (或前述软件的更高版本) 开放FSO权限 ASP默认语言VBS 空间3G约支持10万左右的普通网页被检索 NTFS格式 主文件夹必须给 USERS 用户“ 修改 ”及以上权限 VB6常用组件支持 关于运行平台: 仅仅用于学习和测试,可以使用NetBox平台 小型网站应用,访问量有限,可以使用普通虚拟主机,硬盘空间最小3G 自架设服务器,建议标准:CPU双核,2G内存,win2003 快速上手建议:查看帮助文档 >>> 上手试用 >>> 一个小型搜索引擎的建立,应遵循: ⑴确立主题 >>> ⑵建立并维护主关键词库 >>> ⑶搜集整理种子网址,作网站结构分析与统计分析 >>> ⑷建立并执行抓取网址任务 >>> ⑸网址去重及监测 >>> ⑹建立并执行网页采集任务 >>> ⑺网页去重过滤及监测 >>> ⑻建立并执行索引生成任务 >>> ⑼调试检索程序 >>> ⑽监测并分析用户访问的统计资料 >>> 由⑵开始循环维护,建议20天左右为一个循环周期。 注:过程⑵-⑽全部执行过后,再次循环执行内部维护周期时,必须先初始化上一步才能进行更新,更换主题重新开始除外。 操作运营原则: 原则1:小富即安。解释:幻想在单机环境下实现谷歌、百度这样通用搜索的功能是不现实的。因此针对单机版服务器开发的自主搜索引擎,在特定行业范围内,用户体验度高于通用搜索引擎是可以实现的,但是如果在这个框架范围内合理,就算富裕了,任何想要扩大这个范围的想法都是不可能实现的。 原则2:建设一个的好搜索的重要性应该是:有效性>查准率>查全率>响应速度。船小好调头,嘟嘟行业搜索的设计容量较小,缺点就是只能再特点范围内保证可用性。优点就是:在人工干预的情况下,能够迅速更新和转换热点方向。 原则3:部分人工干预是最重要的。尽管搜索引擎的终极目标是人工智能,就是脱离人脑这种生物智能计算机。但是,实现的日期根本不确定。而嘟嘟行业搜索的使用者,以中小站长和3人下的搜索管理员为主,最大的优势就是人的智能。任何好的系统都是在模拟人脑的,对于小规模应用,人工优化策略的使用,会使嘟嘟行业搜索的用户体验,就是查准率和人性化,强于大型通用搜索。即策略由人来定,计算由程序完成。
- 粉丝: 411
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助