抓虾的后台架构部分信息
bigqiang
抓虾官方博客提供了一些抓虾后台架构的部分信息:http://www.zhuaxia.com/blog/?p=207 这里摘抄如下: 存储:ZStorage,抓虾自己开发了分布式的存储系统,用来存储海量数据,抓虾的文章数已经接近了7亿篇,每天还在疯狂增长,数据量早就超过了 1 TB。感谢大牛工程师CL为我们带来稳定的存储系统。 抓取:ZSpider,400万博客、接近7亿篇文章背后,是抓虾强大的分布式Spider,融合几十种抓取策略,多种页面分析算法与内容抽取算法,无论是普通网页、RSS、 论坛页面甚至JS脚本,都可以应付自如。当然,这个spider也是由抓虾工程师用一行一行代码写出来的。 搜索:有了这么多数据,怎么找呢?ZIndex,三个工程师用一个月的时间,开发了抓虾的分布式、高效灵活的检索系统,性能可比主流搜索引擎,为抓虾用户提供TB 级海量数据的检索。 缓存:抓虾自己开发的分布式缓存 ZCache,命中率只能用一个字来形容——舒服。 这么精彩的作品,感谢大牛工程师dasheng。 还有监控、统计、报警….. 无论是存储、抓取、检索还是缓存、监控、统计等,都是抓虾自己开发的,为什么我们不用开源软件而是自己“从轮子造起”呢?我们也曾尝试使用开源软件或在其基础上修改,但是面对海量数据时,已有的产品都或多或少的不能满足我们的需求, 为了追求高效灵活的应用,我们只好自己开发。
你的回复
回复请先 登录 , 或 注册相关内容推荐
最新讨论 ( 更多 )
- 大佬!求网站防采集处理方法 (樱花🌸 遍地)
- 买云找我,人已秃顶,嘎嘎专业 (灿灿@AWS)
- 有没有创业经历的搞事情 (观棋)
- 原阿里程序员,现独立开发者,想参与技术(AI最好)+疗愈赛道的... (11111111111)
- 官网&APP&小程序定制 看过来 (爱蜡笔工作室)