在花
返回时间线
· 19:07 · 已编辑 · 0 条回复 ·

FlashAttention升级,实现长文本推理速度8倍提升

Together AI官方推特发文称其推出的Flash-Decoding,使长上下文 LLM 推理速度加快8倍。

据其介绍,达成这一效果的原理为并行加载KV缓存,然后分别重新缩放以合并结果。

来源

投稿:@ZaiHuaBot
频道:@TestFlightCN

Telegram 评论区

0 条回复,可以前往 Telegram 继续讨论。

去评论区