# Transformer复现

**Repository Path**: wangpin-code/transformer-reproduction

## Basic Information

- **Project Name**: Transformer复现
- **Description**: 专注于Transformer模型的复现与优化，涵盖多种自然语言处理任务，帮助初学者快速了解。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-02-24
- **Last Updated**: 2025-04-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Transformer网络复现

## 效果展示

## 网络架构

### 掩码

1.1 普通掩码

1.2 因果掩码   
1.2.1 为什么要有因果掩码：    
考虑Teacher Forcing 情况下，输入给解码器的是整个答案序列。但是，语言模型的训练又是每次根据当前已有的token预测下一个token。那么，需要这样一个结构，能够避免模型“看到”“未来”的token。我们采用因果掩码，应用在q*k得到的相似度矩阵上。  
1.2.2 如何起作用：   
Transformer的decoder，对于原始的Transformer，并非计算了token之间“两两”的相似度。应用因果掩码之后，q*k得到的相似度矩阵变成了如下的结构：
TODO: Implement


## 数据处理

## 扩展

## 总结

## 附录