Hbase 存储爬虫详情页 相关设计

做一个 爬虫系统,leader 要把详情页 的全部html 存储到Hbase。
有大神搞过这方便的东西么? 关于rowkey 是 怎么设计,是直接把整个页面的内容作为一个 列族么?
已邀请:

hbase - 80后

赞同来自: 过往记忆 lizhi 强二

这个是Hbase最初的设计,在不少新闻类的公司都是那hbase存储。此比较简单,就直接一个rowkey,rowkey可以带时间,或者路径等,加value即可。
2.0 还有mob的,可以存放较大的对象

过往记忆

赞同来自: lizhi 强二

一般爬虫程序爬取的是整个互联网上的所有或特定主题的数据,这个数据量一般是PB级,因此用使用分布式的爬取设计和分布式存储是架构设计的不二选择,基于Hadoop的HBase可以实现数据存储的目的。
Key值
以链接的URL做为key值,这里的url中的主机部分使用IP地址而不是域名,防止重复主机的出现。另外,可以通过url压缩的方式对url地址进行压缩。

Value设计
 
爬虫抓取到的信息都可以存放在同一列族info中,主要的字段有:
oriUrl:原始URL值,主机部分是域名
Url:url的值,主机部分是IP地址
statusCode:访问URL时的返回的状态码
linkNum:该链接被其他链接引用的次数
type:页面类型
Title:页面标题
Length:页面大小
Lastmodified:最后修改时间
abstractText:摘要信息
Content:文章内容
 

要回复问题请先登录注册


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群