当前位置:首页>资讯>DeepSeek发布《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文

DeepSeek发布《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文

2025-02-19

PANews2月18日消息,DeepSeek团队近日发布了一篇题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的技术论文,介绍了他们提出的NSA(NativelySparseAttention)机制。NSA结合了算法创新和硬件优化,旨在实现高效的长文本建模。其核心创新包括:

1.动态分层稀疏策略,结合粗粒度的令牌压缩与细粒度的令牌选择,以保留全局上下文信息和局部精度;

2.通过平衡算术强度的算法设计和现代硬件优化,显著加速计算;

3.支持端到端训练,减少预训练计算成本,同时保持模型性能。

实验结果表明,NSA在长文本任务和指令推理等领域表现优异,尤其在64k长度的序列处理中,实现了解码、前向传播和反向传播的显著加速。

2025-07-16

从草根到市值 6000 亿,Robinhood 娱乐至生 从草根到市值 6000 亿,Robinhood 娱乐至生

起于零佣金,兴于加密热。

2025-05-16

美国立法者将于5月19日对稳定币GENIUS法案进行最终表决 美国立法者将于5月19日对稳定币GENIUS法案进行最终表决

PANews5月16日消息,据Coingape报道,美国参议院多数党领袖JohnThune已正式提交《GENIUS法案》的终结辩论动议,定于5月19日进行表决。这项稳定币监管法案要求:资产超100亿美...

2024-12-23

淘金手册 | 潜在稳定币存款空投哪家强? 淘金手册 | 潜在稳定币存款空投哪家强?

而存款类项目 TGE 后的财富效应也较为显著,例如近期火热的 Usual 存款为用户带来了约 50% 存款量的收益,此前 Ethena 也为首期用户带来了 70% 的收益率,且几个项目均是在短短几个月的存款周期内便为用户带来了可观的回报,由此,很多存款项目正在吸引越来越多的链上流动性入局押注。

2025-01-24

BNB Chain举办新年红包嘉年华,分发价值逾30万美元的代币奖励迎接新年 BNB Chain举办新年红包嘉年华,分发价值逾30万美元的代币奖励迎接新年

PANews1月23日消息,BNBChain宣布将开展红包嘉年华活动,派发超30万美元的奖励红包,希望这些象征着好运与繁荣的红包可以为社区用户带去美好的祝福,享受节日的狂欢。此次红包嘉年华为期三周,从...

2025-01-22

PumpFun向Kraken转移约2800万美元的SOL PumpFun向Kraken转移约2800万美元的SOL

PANews1月21日消息,据OnchainLens监测,PumpFun刚向Kraken转移116,054.56枚SOL,价值约2800万美元。2025年以来,其累计已向Kraken转移692,877...

2025-07-16

“内幕巨鲸”近半小时平仓319.68枚BTC实现盈利20.5万美元 “内幕巨鲸”近半小时平仓319.68枚BTC实现盈利20.5万美元

PANews7月15日消息,据链上分析师@ai_9684xtpa监测,7月11日至7月14日做空亏损957.4万美元的“内幕巨鲸”此次谨慎采取止盈操作。过去半小时内,该交易员平仓319.68枚BTC实...