【[14星]RetrievalAttention:微软推出的加速长文本上下文LL

爱生活爱珂珂 2025-05-19 13:59:52

【[14星]RetrievalAttention:微软推出的加速长文本上下文LLM推理的创新系统。亮点:1. 通过向量检索技术,显著提升推理效率;2. 支持高达128K的上下文长度,突破传统限制;3. GPU与CPU协同工作,优化计算资源分配】

'RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval'

GitHub: github.com/microsoft/RetrievalAttention

长文本推理 向量检索 LLM优化 AI创造营

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注