【[14星]RetrievalAttention:微软推出的加速长文本上下文LLM推理的创新系统。亮点:1. 通过向量检索技术,显著提升推理效率;2. 支持高达128K的上下文长度,突破传统限制;3. GPU与CPU协同工作,优化计算资源分配】
'RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval'
GitHub: github.com/microsoft/RetrievalAttention
长文本推理 向量检索 LLM优化 AI创造营