当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 04:55:14
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- jwt的设计合理吗?
- 有哪些新生代没见过或者无法理解的 Windows XP 7 时代的事情?
- 如何评价B站峰哥亡命天涯直播中说面包就是比馒头好吃,中国古代不吃面包是因为贫穷,没有足够的柴火?
- 有哪些小众的开源项目养活了一大批人?
- 如何评价B站up主***千代退网?
- Electron 做游戏客户端的潜力有多大?
- 真的有这种又苗条身材又爆炸的么?
- 网络游戏为什么会有***?
- 字节引入Rust是否代表J***a的缺点Go也没解决?
- 为什么同样是输球,常州和国足的风评却差那么多呢?
最新资讯文章
- 37岁了,想出国移民,可行性大吗?
- 为什么中国JK无法拍出日本JK的感觉?
- 匿名说说你最近的烦心事吧!?
- 如何看待盲人up主蒙眼炒鸡蛋在成都各大医院都买不到胰岛素,最后进抢救室?
- 用PHP写了个小框架,怎么才能得到大佬们的指点?
- 为什么 electron 不做成独立的 runtime?
- 毕设答辩,老师说node不可能写后台怎么办?
- 如何评价Orbstack(在Mac上低开销地运行容器和Linux)?
- Tauri 为什么仍未取代 Electron?
- 中国预警机世界领先吗?
- 黑客为什么可以做到无需知道源码的情况下找出系统漏洞?
- 中国的防空系统能有效防止B2、B21这类飞翼隐身战略轰炸机入侵吗?
- 如何评价 Zed 编辑器?
- 为什么macOS软件生态不敌Windows?
- 当年《诛仙》第一部的成功在于什么?