structured streaming与kafka010整合的问题

回复

chensi 发起了问题 • 1 人关注 • 0 个回复 • 99 次浏览 • 2019-01-25 14:39 • 来自相关话题

请问,stremaming对接kafka,消费到的每批次的数据量由什么决定

回复

刘狗 发起了问题 • 1 人关注 • 0 个回复 • 123 次浏览 • 2019-01-17 15:37 • 来自相关话题

com.google.protobuf.LazyStringList faultCodes_ = com.google.protobuf.LazyStringArrayList.EMPTY;

回复

刘狗 发起了问题 • 1 人关注 • 0 个回复 • 103 次浏览 • 2019-01-11 10:53 • 来自相关话题

spark保存数据到Phoenix报错

回复

Marshal丶张 发起了问题 • 1 人关注 • 0 个回复 • 277 次浏览 • 2018-12-25 15:42 • 来自相关话题

关于kafka处理业务的消费者组规划和对资源的影响

回复

xumajie 发起了问题 • 1 人关注 • 0 个回复 • 104 次浏览 • 2018-12-25 12:05 • 来自相关话题

yarn log打印日志中文显示问题

回复

刘狗 发起了问题 • 1 人关注 • 0 个回复 • 136 次浏览 • 2018-12-18 16:56 • 来自相关话题

spark streaming 消费kafka数据导入hbase卡住

回复

fengye 发起了问题 • 1 人关注 • 0 个回复 • 258 次浏览 • 2018-12-11 02:10 • 来自相关话题

sparkjar指定yarn模式后引起的问题

回复

刘狗 发起了问题 • 1 人关注 • 0 个回复 • 122 次浏览 • 2018-12-10 19:20 • 来自相关话题

Spark性能问题咨询

回复

stars_dream 发起了问题 • 1 人关注 • 0 个回复 • 158 次浏览 • 2018-12-05 14:49 • 来自相关话题

关于协同过滤算法的隐式数据问题

回复

xumajie 发起了问题 • 2 人关注 • 0 个回复 • 185 次浏览 • 2018-11-13 09:36 • 来自相关话题

互联网公司大数据面试题参考指南

hbasegroup 发表了文章 • 0 个评论 • 1049 次浏览 • 2018-09-17 09:59 • 来自相关话题

以下面试题都是群里小伙伴提供的,现场真题(包含校招题)
1.网易大数据面试题
说说项目Spark哪部分用得好,如何调优Java哪部分了解比较好聊聊并发,并发实现方法,volatile关键字说说HashMap的底层原理为什么要重写hashcode和equals说说jvm各个垃圾收集器运用在什么情形jvm调优说说io为什么考虑转行呢?是因为原专业不好就业吗?

2.蚂蚁金服面试题
小文件的合并MR与Spark的区别关注哪些名人的博客对大数据领域有什么自己的见解平常怎么学习大数据的StringBuilder与StringBuffer的区别HashMap与Hashtable的区别谈谈你对树的理解数据库索引的实现jvm的内存模型jvm的垃圾收集器jvm的垃圾收集算法HDFS架构HDFS读写流程Hadoop3.0做了哪些改进谈谈YARN为什么项目选择使用Spark,你觉得Spark的优点在哪里了解Flink与Storm嘛,他们与Spark Streaming的区别在哪里1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来
 
3.美图面试题
为什么选择美图,你知道美图地点在哪里嘛介绍下你做的项目吧数据统一管理平台,我挺感兴趣的,你说说吧我大概知道是怎么回事了,java web这块你参与开发了吗你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛还是hive,你对hive有哪些原理性了解呢知道AST、operator tree这些长什么样吗那你的hive转mr过程是怎么了解的呢?除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优jvm了解不,说下垃圾收集算法平常用java和scala语言哪个多点如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问如何去监控线程Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数你觉得join该怎么优化你对未来的规划是什么?(五年内)你也就是走技术路线咯

4.​美图二面
ThriftServer的HA如何去实现,能说下实现的思路嘛说下Zookeeper的watch机制是如何实现的嘛?场景题:
     现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper),如何通信,说说具体实现?
 
5.七牛云面试题
快排hive和hdfs之间的联系inode和文件描述符linux指令如何创建文件http中header中放入key value 有什么变化系统调用和库函数区别http缓冲实现机智session cookie  区别进程间通信方式jsp本质http请求状状态get post put remove数据库join 数据库引擎hibernate和mybiters区别jvm垃圾回收hive和关系型数据库区别hive实现原理spark与mr的区别 查看全部
以下面试题都是群里小伙伴提供的,现场真题(包含校招题)
1.网易大数据面试题
  • 说说项目
  • Spark哪部分用得好,如何调优
  • Java哪部分了解比较好
  • 聊聊并发,并发实现方法,volatile关键字说说
  • HashMap的底层原理
  • 为什么要重写hashcode和equals
  • 说说jvm
  • 各个垃圾收集器运用在什么情形
  • jvm调优
  • 说说io
  • 为什么考虑转行呢?是因为原专业不好就业吗?


2.蚂蚁金服面试题
  • 小文件的合并
  • MR与Spark的区别
  • 关注哪些名人的博客
  • 对大数据领域有什么自己的见解
  • 平常怎么学习大数据的
  • StringBuilder与StringBuffer的区别
  • HashMap与Hashtable的区别
  • 谈谈你对树的理解
  • 数据库索引的实现
  • jvm的内存模型
  • jvm的垃圾收集器
  • jvm的垃圾收集算法
  • HDFS架构
  • HDFS读写流程
  • Hadoop3.0做了哪些改进
  • 谈谈YARN
  • 为什么项目选择使用Spark,你觉得Spark的优点在哪里
  • 了解Flink与Storm嘛,他们与Spark Streaming的区别在哪里
  • 1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来

 
3.美图面试题
  • 为什么选择美图,你知道美图地点在哪里嘛
  • 介绍下你做的项目吧
  • 数据统一管理平台,我挺感兴趣的,你说说吧
  • 我大概知道是怎么回事了,java web这块你参与开发了吗
  • 你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛
  • 还是hive,你对hive有哪些原理性了解呢
  • 知道AST、operator tree这些长什么样吗
  • 那你的hive转mr过程是怎么了解的呢?
  • 除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优
  • jvm了解不,说下垃圾收集算法
  • 平常用java和scala语言哪个多点
  • 如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问
  • 如何去监控线程
  • Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
  • 你觉得join该怎么优化
  • 你对未来的规划是什么?(五年内)
  • 你也就是走技术路线咯


4.​美图二面
  • ThriftServer的HA如何去实现,能说下实现的思路嘛
  • 说下Zookeeper的watch机制是如何实现的嘛?
  • 场景题:

     现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper),如何通信,说说具体实现?
 
5.七牛云面试题
  • 快排
  • hive和hdfs之间的联系
  • inode和文件描述符
  • linux指令如何创建文件
  • http中header中放入key value 有什么变化
  • 系统调用和库函数区别
  • http缓冲实现机智
  • session cookie  区别
  • 进程间通信方式
  • jsp本质
  • http请求状状态
  • get post put remove
  • 数据库join 
  • 数据库引擎
  • hibernate和mybiters区别
  • jvm垃圾回收
  • hive和关系型数据库区别
  • hive实现原理
  • spark与mr的区别


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群