抓虾的后台架构部分信息

bigqiang 组长
2007-12-30 11:23:15

抓虾官方博客提供了一些抓虾后台架构的部分信息：http://www.zhuaxia.com/blog/?p=207 这里摘抄如下：存储：ZStorage,抓虾自己开发了分布式的存储系统，用来存储海量数据，抓虾的文章数已经接近了7亿篇，每天还在疯狂增长，数据量早就超过了 1 TB。感谢大牛工程师CL为我们带来稳定的存储系统。抓取：ZSpider,400万博客、接近7亿篇文章背后，是抓虾强大的分布式Spider，融合几十种抓取策略，多种页面分析算法与内容抽取算法，无论是普通网页、RSS、论坛页面甚至JS脚本，都可以应付自如。当然，这个spider也是由抓虾工程师用一行一行代码写出来的。搜索：有了这么多数据，怎么找呢？ZIndex，三个工程师用一个月的时间，开发了抓虾的分布式、高效灵活的检索系统，性能可比主流搜索引擎，为抓虾用户提供TB 级海量数据的检索。缓存：抓虾自己开发的分布式缓存 ZCache，命中率只能用一个字来形容——舒服。这么精彩的作品，感谢大牛工程师dasheng。还有监控、统计、报警….. 无论是存储、抓取、检索还是缓存、监控、统计等，都是抓虾自己开发的，为什么我们不用开源软件而是自己“从轮子造起”呢？我们也曾尝试使用开源软件或在其基础上修改，但是面对海量数据时，已有的产品都或多或少的不能满足我们的需求，为了追求高效灵活的应用，我们只好自己开发。

加入小组后即可参加投票

确定

回复转发赞收藏查看所有回复

你的回复

回复请先登录 , 或注册

大型网站开发

3769 人聚集在这个小组

加入小组

抓虾的后台架构部分信息

bigqiang 组长
2007-12-30 11:23:15

你的回复

相关内容推荐

最新讨论 ( 更多 )

抓虾的后台架构部分信息

bigqiang 组长 2007-12-30 11:23:15

你的回复

相关内容推荐

最新讨论 ( 更多 )

bigqiang 组长
2007-12-30 11:23:15