# Transformer复现 **Repository Path**: wangpin-code/transformer-reproduction ## Basic Information - **Project Name**: Transformer复现 - **Description**: 专注于Transformer模型的复现与优化,涵盖多种自然语言处理任务,帮助初学者快速了解。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-02-24 - **Last Updated**: 2025-04-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Transformer网络复现 ## 效果展示 ## 网络架构 ### 掩码 1.1 普通掩码 1.2 因果掩码 1.2.1 为什么要有因果掩码: 考虑Teacher Forcing 情况下,输入给解码器的是整个答案序列。但是,语言模型的训练又是每次根据当前已有的token预测下一个token。那么,需要这样一个结构,能够避免模型“看到”“未来”的token。我们采用因果掩码,应用在q*k得到的相似度矩阵上。 1.2.2 如何起作用: Transformer的decoder,对于原始的Transformer,并非计算了token之间“两两”的相似度。应用因果掩码之后,q*k得到的相似度矩阵变成了如下的结构: TODO: Implement ## 数据处理 ## 扩展 ## 总结 ## 附录