sparksql 数据仓库

3、大数据分析应该掌握哪些基础知识呢?

离线数据仓库:Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、数据仓库。

4、大数据开发工程师需掌握哪些技能?

1。几个仓库的开发。Java是必须的，但是提问不够深入，Javase部分理解透彻，对于Java部分的面试来说足够了。2，Hadoop生态，Yarn，Zookeeper，HDFS，这些底层原理要懂，面试也经常被问到。3，Mapreduce的洗牌过程也是面试中经常被问到的。4、Hbase和HIve，做大数据这些东西真的没有意义。5.Mysql，Oracle和Postgres 数据 Library操作要返回，sql要会写。

7.必须至少有一个数据Kettle或Sqoop等处理工具。8、数据仓库建模、数据模型问题。二、技术方面1、SparkSql和SparkStreaming，底层原理、内核、提交任务的流程等。，尽量深入内幕，经常和MapReduce比较。当然，你也应该了解风暴和弗林克。Flink是一个你应该学习的建议，以后会越来越有用。

5、什么是数据仓库, 数据仓库在哪里保存数据。BI项目需要用到哪些技术

数据仓库或数据 Library，数据它还在数据Library中。但是架构是按照-2仓库/库的概念设计开发的。BI项目主要使用数据仓库、OLAP和。如Oracle、DB2、SQL Server、Java、Cognos、Bo、Biee、SAS、SPSS、克莱曼婷、WEKA等等。

6、sparkSQL和hive到底什么关系

历史上，数据仓库是由hive构建的，所以对hive管理的数据查询有很大的需求。Hive，shark，sparlSQL都可以查询hive的数据。Shark是一个sql解析器和优化器，它使用hive，并修改executor使其运行在spark上。SparkSQL使用了自己的语法解析器、优化器和执行器，同时sparkSQL还扩展了接口，不仅支持hive 数据的查询，还可以查询各种数据sources数据。

7、2分钟读懂大数据框架Hadoop和Spark的异同

Hadoop和Spark都是集群并行计算框架，可以做分布式计算，都是基于MapReduce并行模型。Hadoop基于磁盘计算，只有两个操作符，map和reduce。在计算过程中，会有大量的中间结果文件登陆到磁盘上，会显著降低运行效率。Spark基于内存计算(一个任务会以流水线的形式在一个片上执行，中间不分配内存，避免很快耗尽内存)，非常适合机器学习中的迭代计算(通过在内存中缓存RDD)；

8、spark可以取代hadoop中的哪个组件

MapReduce .Spark是一个基于内存的迭代计算框架，适用于需要多次操作特定数据 set的应用。pageRank、KMeans等算法非常适合内存迭代计算。Spark的整个生态系统也在逐渐完善，比如GraphX，SparkSQL，SparkStreaming，MLlib。当Spark有了自己的-2仓库，就完全可以媲美Hadoop的生态系统了。

9、科普Spark,Spark是什么,如何使用Spark

科普Spark，什么是Spark，如何使用Spark 1。Spark基于什么算法进行分布式计算(很简单)2。Spark和MapReduce 3有什么区别？为什么Spark比Hadoop 4更灵活。Spark 5有哪些局限性。Spark1是什么？火花？它是UCBerkeleyAMPlab的开源HadoopMapRed类。Uce的通用并行计算框架，Spark的基于mapreduce算法的分布式计算，具有HadoopMapReduce的优点；但与mapreduce不同的是，Job的中间输出和结果可以存储在内存中，不需要读写HDFS，所以Spark可以更好地应用于需要迭代的MapReduce算法，比如数据 mining和machine learning。

10、spark从hive 数据仓库中读取的数据可以使用 sparksql进行查询吗

1。为了让Spark连接到Hive的原数据仓库因为我的Spark是自动安装部署在这里的，所以经过摸索，我需要知道CDH把hivesite.xml .放在哪里，这个文件的默认路径是:/etc/hive/conf。