离线数据仓库:Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、数据仓库。
4、大 数据开发工程师需掌握哪些技能?1。几个仓库的开发。Java是必须的,但是提问不够深入,Javase部分理解透彻,对于Java部分的面试来说足够了。2,Hadoop生态,Yarn,Zookeeper,HDFS,这些底层原理要懂,面试也经常被问到。3,Mapreduce的洗牌过程也是面试中经常被问到的。4、Hbase和HIve,做大数据这些东西真的没有意义。5.Mysql,Oracle和Postgres 数据 Library操作要返回,sql要会写。
7.必须至少有一个数据Kettle或Sqoop等处理工具。8、数据 仓库建模、数据模型问题。二、技术方面1、SparkSql和SparkStreaming,底层原理、内核、提交任务的流程等。,尽量深入内幕,经常和MapReduce比较。当然,你也应该了解风暴和弗林克。Flink是一个你应该学习的建议,以后会越来越有用。
5、什么是 数据 仓库, 数据 仓库在哪里保存 数据。BI项目需要用到哪些技术数据仓库或数据 Library,数据它还在数据Library中。但是架构是按照-2仓库/库的概念设计开发的。BI项目主要使用数据 仓库、OLAP和。如Oracle、DB2、SQL Server、Java、Cognos、Bo、Biee、SAS、SPSS、克莱曼婷、WEKA等等。
6、sparkSQL和hive到底什么关系历史上,数据 仓库是由hive构建的,所以对hive管理的数据查询有很大的需求。Hive,shark,sparlSQL都可以查询hive的数据。Shark是一个sql解析器和优化器,它使用hive,并修改executor使其运行在spark上。SparkSQL使用了自己的语法解析器、优化器和执行器,同时sparkSQL还扩展了接口,不仅支持hive 数据的查询,还可以查询各种数据sources数据。
7、2分钟读懂大 数据框架Hadoop和Spark的异同Hadoop和Spark都是集群并行计算框架,可以做分布式计算,都是基于MapReduce并行模型。Hadoop基于磁盘计算,只有两个操作符,map和reduce。在计算过程中,会有大量的中间结果文件登陆到磁盘上,会显著降低运行效率。Spark基于内存计算(一个任务会以流水线的形式在一个片上执行,中间不分配内存,避免很快耗尽内存),非常适合机器学习中的迭代计算(通过在内存中缓存RDD);
8、spark可以取代hadoop中的哪个组件MapReduce .Spark是一个基于内存的迭代计算框架,适用于需要多次操作特定数据 set的应用。pageRank、KMeans等算法非常适合内存迭代计算。Spark的整个生态系统也在逐渐完善,比如GraphX,SparkSQL,SparkStreaming,MLlib。当Spark有了自己的-2仓库,就完全可以媲美Hadoop的生态系统了。
9、科普Spark,Spark是什么,如何使用Spark科普Spark,什么是Spark,如何使用Spark 1。Spark基于什么算法进行分布式计算(很简单)2。Spark和MapReduce 3有什么区别?为什么Spark比Hadoop 4更灵活。Spark 5有哪些局限性。Spark1是什么?火花?它是UCBerkeleyAMPlab的开源HadoopMapRed类。Uce的通用并行计算框架,Spark的基于mapreduce算法的分布式计算,具有HadoopMapReduce的优点;但与mapreduce不同的是,Job的中间输出和结果可以存储在内存中,不需要读写HDFS,所以Spark可以更好地应用于需要迭代的MapReduce算法,比如数据 mining和machine learning。
10、spark从hive 数据 仓库中读取的 数据可以使用 sparksql进行查询吗1。为了让Spark连接到Hive的原数据 仓库因为我的Spark是自动安装部署在这里的,所以经过摸索,我需要知道CDH把hivesite.xml .放在哪里,这个文件的默认路径是:/etc/hive/conf。