# 网站流量大数据分析（新）

**Repository Path**: long-xiaozhen/website_analysis

## Basic Information

- **Project Name**: 网站流量大数据分析（新）
- **Description**: 网站数据分析
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2023-06-08
- **Last Updated**: 2024-07-17

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 操作步骤
### 1.数据库准备
> 不过下面的表中的数据并没有用到，只是将随机生成的数据保存到了数据库中了
> 以后的操作还是都是从文件中读取的
需要创建的数据库的名称是：spark
```sql
DROP TABLE IF EXISTS website_traffic;
CREATE TABLE website_traffic (
    id INT AUTO_INCREMENT PRIMARY KEY,
    source VARCHAR(255),
    city VARCHAR(255),
    date DATE,
    duration FLOAT,
    page_views INT,
    visitors INT
);

```
## 2.数据生成 （20分）
input文件夹下的 **analog_data.py** 用于数据的生成
目前生成的数量是100000条
![img_11.png](img_11.png)


## 3.数据分析 （40分）
> 目前就是简单的分析了一下，分析后的数据以json格式保存到output文件夹下
> 并保存到数据库中，表会自动创建无需手动创建
> 读取不到website_traffic.csv就采用绝对路径的方式


analyst文件夹中的**analyst.py**用于分析数据的
目前做的分析如下：
- 按城市统计页面被查看次数和访问人数和访问时长
- 按日期统计平均访问次数和访问人数
- 按日期统计不同source的页面被查看次数和页面访问人数
- 按日期统计不同city的页面被查看次数和页面访问人数

![img_12.png](img_12.png)

![img_14.png](img_14.png)
## 4.预测 （20分）
> 利用 Spark ML 进行分析预测，或者选择合适的推荐模型，进行个性化的推
荐

**prediction**文件夹下的**prediction.py**用于数据的预测，并把预测的结果保存到json文件和数据库中去

![img_13.png](img_13.png)
![img_15.png](img_15.png)
## 5.项目报告 （20分）
- 项目总结
- 项目概述
- 项目流程设计
- 各个模块实现和总结
- 每个过程的截图

## 5.数据展示 （10分）
> 目前采用的是chart图表展示的方式进行读取前面生成的json数据
> 
> 主要是对前面json数据进行展示
> 
> 目前存在一个小问题，设置了在图表上直接展示数据无效（不影响展示）

![img.png](img.png)
![img_1.png](img_1.png)
![img_2.png](img_2.png)
![img_3.png](img_3.png)
![img_4.png](img_4.png)
![img_5.png](img_5.png)
![img_6.png](img_6.png)
![img_7.png](img_7.png)
![img_8.png](img_8.png)
![img_9.png](img_9.png)
![img_10.png](img_10.png)