返回时间线

2023年10月14日 · 19:07 · 已编辑 · 0 条回复 ·

FlashAttention升级，实现长文本推理速度8倍提升

Together AI官方推特发文称其推出的Flash-Decoding,使长上下文 LLM 推理速度加快8倍。

据其介绍,达成这一效果的原理为并行加载KV缓存，然后分别重新缩放以合并结果。

投稿：@ZaiHuaBot
频道：@TestFlightCN

Telegram 评论区

0 条回复，可以前往 Telegram 继续讨论。