# 网站流量大数据分析(新) **Repository Path**: long-xiaozhen/website_analysis ## Basic Information - **Project Name**: 网站流量大数据分析(新) - **Description**: 网站数据分析 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2023-06-08 - **Last Updated**: 2024-07-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 操作步骤 ### 1.数据库准备 > 不过下面的表中的数据并没有用到,只是将随机生成的数据保存到了数据库中了 > 以后的操作还是都是从文件中读取的 需要创建的数据库的名称是:spark ```sql DROP TABLE IF EXISTS website_traffic; CREATE TABLE website_traffic ( id INT AUTO_INCREMENT PRIMARY KEY, source VARCHAR(255), city VARCHAR(255), date DATE, duration FLOAT, page_views INT, visitors INT ); ``` ## 2.数据生成 (20分) input文件夹下的 **analog_data.py** 用于数据的生成 目前生成的数量是100000条 ![img_11.png](img_11.png) ## 3.数据分析 (40分) > 目前就是简单的分析了一下,分析后的数据以json格式保存到output文件夹下 > 并保存到数据库中,表会自动创建无需手动创建 > 读取不到website_traffic.csv就采用绝对路径的方式 analyst文件夹中的**analyst.py**用于分析数据的 目前做的分析如下: - 按城市统计页面被查看次数和访问人数和访问时长 - 按日期统计平均访问次数和访问人数 - 按日期统计不同source的页面被查看次数和页面访问人数 - 按日期统计不同city的页面被查看次数和页面访问人数 ![img_12.png](img_12.png) ![img_14.png](img_14.png) ## 4.预测 (20分) > 利用 Spark ML 进行分析预测,或者选择合适的推荐模型,进行个性化的推 荐 **prediction**文件夹下的**prediction.py**用于数据的预测,并把预测的结果保存到json文件和数据库中去 ![img_13.png](img_13.png) ![img_15.png](img_15.png) ## 5.项目报告 (20分) - 项目总结 - 项目概述 - 项目流程设计 - 各个模块实现和总结 - 每个过程的截图 ## 5.数据展示 (10分) > 目前采用的是chart图表展示的方式进行读取前面生成的json数据 > > 主要是对前面json数据进行展示 > > 目前存在一个小问题,设置了在图表上直接展示数据无效(不影响展示) ![img.png](img.png) ![img_1.png](img_1.png) ![img_2.png](img_2.png) ![img_3.png](img_3.png) ![img_4.png](img_4.png) ![img_5.png](img_5.png) ![img_6.png](img_6.png) ![img_7.png](img_7.png) ![img_8.png](img_8.png) ![img_9.png](img_9.png) ![img_10.png](img_10.png)