• EasyXSpider

    EasyXSpider 是一个简单的Linux下的爬虫程序。 包括了爬虫多线程同时抓取N个网站页面,倒排序索引制作,多条件检索,分词(英文及中文二元法切词),以及Google PageRank?算法的实现。

    3
    57
    3.96MB
    2009-07-15
    0
  • Words Singer

    Words Singer是一个用于把单词列表转换成MP3的软件.包括单词读音,拼写及汉语意思读音.能够生同步的MP3歌词. 支持各种列表(比如金山词霸生词本导出列表等).

    0
    79
    441KB
    2007-04-22
    9
  • ShootSearch 中文分词组件(c#开源)

    ShootSearch 中文分词组件(c#开源) 技术支持:support@shootsoft.net http://www.shootsoft.net 分词算法:词库+最大匹配 词库来自www.jesoft.cn,已经过一定的修改 使用说明: 先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择! 可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配! sDict.txt的编码为UTF-8! 示例: 文字内容来自:http://tech.tom.com/2006-08-09/04B5/34545343.html using ShootSeg; ... Segment seg = new Segment(); seg.InitWordDics(); string str="日前,奇虎董事长周鸿祎新推出了一款反流氓软件“360安全卫士”,并将雅虎中国3721网络实名定义为流氓软件。此举引起了雅虎员工的强烈不满,甚至有就职于雅虎的原3721员工声称将起诉周鸿祎。围绕着3721这个产品,引发了一场雅虎中国与奇虎之间的战争。"; seg.Separator = "/"; Console.WriteLine(seg.SegmentText(str.Text,true)); 日前/,/奇虎/董事长/周鸿祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周鸿祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇虎/之间/的/战争/。/ 不加人名识别效果如下: 日前/,/奇/虎/董事长/周/鸿/祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周/鸿/祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇/虎/之间/的/战争/。/ 2006-8-9----1.0 bate 060809 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 智能数字,日期,人名识别

    5
    212
    978KB
    2006-08-18
    45
  • ShootSearch (基于dotlucene的c#开源搜索引擎)

    技术支持:support@shootsoft.net http://www.shootsoft.net 平台:.Net1.1 C# + dotlucene 1.9.0.2 ShootSearch是一个c#编写的基于dotlucene的开源搜索引擎.其目标是能够检索http,ftp,本地,本地网络邻居四类资源. 已经完成http部分. 测试DEMO: 新浪&搜狐首页开始所有www开头的主机,13分钟54.5 MB 985个文件 60个文件夹 索引文件12MB. 可以在这里查看http://www.shootsoft.net/dotlucene在线测试. 支持微软标准IFilter,支持自己写插件. 没有使用自己写的分词程序,时间不是很充足... dotLucene下的高亮显示好像有问题,不是很好用

    4
    137
    2.66MB
    2006-08-18
    50
  • LL(1)文法判定(C#)

    这个是我的编译原理课程设计作业。用C#实现。参考书籍:《编译原理》 张素琴 吕映之 蒋维杜 戴桂兰 著 清华大学出版社 2005年2月 第2版。 先后计算First集,Follow集和Sellect集,然后判断是否是LL(1)文法,最后判断句子。生成结果界面很Cool。 运行时注意先加载或编辑符号集,然后加载或编辑产生式集,最后才输入测试句子进行测试。 SimpleLL1目录下为源程序 EXE目录下为编译好的可执行文件 Product1.txt~Product4.txt为测试用产生式(可直接在程序中加载) Symbols.txt为测试用符号集(可直接在程序中加载) 转载或引用请注明出处:www.shootsoft.net

    5
    181
    297KB
    2006-08-18
    50
关注 私信
上传资源赚积分or赚钱