undefined | Dark Hacker News

1 points by g023 26 days ago

g023 26 days ago |

A self-contained CUDA inference engine for LiquidAI/LFM2.5-8B-A1B (hybrid conv + GQA-attention MoE, 8.5B params, 1B active) targeting a single RTX 3060 (12 GB) using flash-decoding. MIT license.

g023 26 days ago |

A self-contained CUDA inference engine for LiquidAI/LFM2.5-8B-A1B (hybrid conv + GQA-attention MoE, 8.5B params, 1B active) targeting a single RTX 3060 (12 GB) using flash-decoding. MIT license.