# spark-batch-stream **Repository Path**: sweetdream/spark-batch-stream ## Basic Information - **Project Name**: spark-batch-stream - **Description**: Spark流批处理 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-06-25 - **Last Updated**: 2022-08-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 工程说明 ## Spark实战 * Spark项目实战1:[服务器日志分析](./code/batch-stream) * Spark项目实战2:[电商网站日志分析](./code/spark-shoppingweb-logs) --- 此工程是一个spark流批处理的demo工程,目的是为了学习spark流批处理,主要内容如下: 批处理 1. 应用程序发生操作,服务器集群记录日志; 2. Flume采集服务器日志发送给HDFS; 3. SparkSQL对HDFS上的日志进行预处理,并将结果存储到HBase中; 4. SparkSQL对HBase中的数据进行统计分析,并将结果保存到mysql中; 5. web端调用mysql中的数据进行可视化展示。 流处理 1. 应用程序发生操作,服务器集群记录日志; 2. Flume采集服务器日志发送给Kafka; 3. SparkStreaming接受Kafka中的数据进行统计分析,并将结果保存到Redis中; 4. web端调用Redis中的数据进行可视化展示。 详细代码和说明可以进入`batch-stream`文件夹查看。 后续添加了Spark的学习笔记,包括概念、架构、优化、生态,具体内容可以到`note`文件夹下进行查看。