IndexCache, um novo otimizador de atenção esparsa, oferece inferência 1,82x mais rápida em modelos de IA de contexto longo
Processar 200.000 tokens por meio de um grande modelo de linguagem é caro e lento: quanto mais longo o contexto, mais rápida será a espiral de custos. Pesquisadores da Universidade…
