# Data Mining report **Repository Path**: yanan0122/data-mining-report ## Basic Information - **Project Name**: Data Mining report - **Description**: 数据挖掘课程报告 Data Mining report - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-06-07 - **Last Updated**: 2023-06-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Data Mining report ## 数据探索 ### 1. Candlestick charts 常用于反应一段时间内,物品价值(或公司股价)的变化,可以参考[网页](https://www.investopedia.com/trading/candlestick-charting-what-is-it/) ### 2. 数据预处理 - 缺失值 - 只有target列有NAN值,1956200个数据中缺少了340个。 - 每个货币都缺少一些时间戳,即缺失一些行。这些缺失行并没有由NAN值反映出。这个问题用reindex解决,用上一行的数据填充缺失的空行。 ### 3. 数据可视化 当前只可视化了货币按时间戳的Close值变化。不过它提供了一个思路:可以研究两种货币近期价值的相关性。在下面有实现。 ### 4. log returns 收益率对数 对close求自然对数之后,求相邻时间戳的差(diff函数实现)。等同于先用相邻时间戳的close值做除法,再求这个值的自然对视。后面的公式可以参考。 ### 5. 两种货币的相关性 - 分析两种货币在10000分钟内,close平均值的相关性。可以看出,相关性是随着时间动态变化的。这是一个不稳定系统,即数据的统计特征随着时间的变化而改变。 - 计算了不同两种货币组合之间的近期相关性。 ## 建立预测模型 ### 1. 预测目标和评价 ### 2. 特征工程 ### 3. 建模 ### 4. 评价模型