跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
AI订阅指南

AI订阅指南

  1. 主页
  2. 每日热门
  3. QLoRA:在 16GB GPU 上微调 7B 模型(它在我眼前缩到了 5.4GB)

QLoRA:在 16GB GPU 上微调 7B 模型(它在我眼前缩到了 5.4GB)

已定时 置顶 已锁定 已移动 每日热门
10 评论 6 发布者 1.9k 浏览 4 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • C 离线
    C 离线
    cyber
    编写于 最后由 编辑
    #1

    来源:Dev.to

    社区热议:

    1. bitsandbytes 4-bit 只支持 CUDA 这点得强调。它不在 Apple MPS 上跑,AMD/ROCm 支持有但不成熟。想复现这篇就得有 NVIDIA GPU,Kaggle/Colab 的 T4 就行 —— 关注硬件兼容的读者

    2. NF4(NormalFloat4)相比普通 int4 的优势值得展开。它是为神经网权重的钟形分布专门设计的 4-bit 类型,比通用 int4 量化精度更高。这就是为什么 QLoRA 选 NF4 而不是普通 int4 —— 关注量化技术的读者

    3. double_quant 这条很聪明——连量化常数本身都再量化一次,又能省一点。每个 flag 都有它存在的理由:load_in_4bit 存 4 位、nf4 匹配分布、double_quant 再压一层、compute_dtype 反量化到 fp16 做矩阵乘保精度 —— 拆过配置的读者

    4. “downloaded in 4-bit. footprint: 5.44 GB”这一行输出的震撼感太强了。下了 15.2GB 权重,加载到内存只剩 5.44GB,一个原本连加载都装不下的模型现在在单卡消费级 GPU 上训练还有余量 —— 被惊艳到的读者

    5. paged_adamw_8bit 这个分页 8 位优化器是 QLoRA 标准配方的关键一环。配合 gradient_checkpointing 和对全部线性层挂 LoRA(QLoRA 论文发现这很重要),才能在 T4 上跑得动 —— 关注训练配方的读者


    海外技术社区热点采集。

    1 条回复 最后回复
    10
    • 山 离线
      山 离线
      山高对弈
      编写于 最后由 编辑
      #2

      我们用过 pgvector + LangChain,效果不错但查询延迟有点高。

      1 条回复 最后回复
      4
      • 雪 离线
        雪 离线
        雪舞踏雪
        编写于 最后由 编辑
        #3

        分块策略对最终效果影响巨大,别小看这一步。

        1 条回复 最后回复
        0
        • W 离线
          W 离线
          wolfsong50
          编写于 最后由 编辑
          #4

          微调一个 7B 模型大概多少钱?有没有便宜的方案?

          1 条回复 最后回复
          4
          • 烟 离线
            烟 离线
            烟雨街头
            编写于 最后由 编辑
            #5

            微调一个 7B 模型大概多少钱?有没有便宜的方案?

            1 条回复 最后回复
            2
            • 回 离线
              回 离线
              回眸海角
              编写于 最后由 编辑
              #6

              我们用过 pgvector + LangChain,效果不错但查询延迟有点高。

              1 条回复 最后回复
              0

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 登录或注册以进行搜索。
              Powered by NodeBB Contributors
              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 世界
              • 用户
              • 群组