Puyu

InternLM2 Technical Report

shanghai AI Lab

书生浦语大模型全链路开源体系

回归语言建模的本质

新一代数据集清晰过滤技术

  • 多维度数据价值评估
  • 高质量预料驱动的数据富集
  • 有针对的数据补齐

书生浦语2.0

  • 超长上下文
  • 推理数学代码提升 3.5
  • 精确指令跟随,丰富结构化创作
  • 支持工具多轮调用
  • 敲打的内生计算能力,在GSM8K 和 MATH 达到4

构建应用的workflow

书生连图体系

  • 数据(书生.万卷) 2TB数据,涵盖多模态任务
  • 预训练 InternLM-Train ,并行训练
  • 微调 Xtuner ,FT,or LoRA etc
  • 部署 LMDeploy 全链路,2000+/s
  • 测评 OpenCompass 全方位,100套,50万道
  • 应用 Lagent AgentLego 多智能体,代码解释器,工具

数据集 OpenDataLab 上获取

评测 OpenCompass 2.0 思南大模型评测体系

  • CompassRank 中立全面的性能榜单
  • CompassKit 大模型测评全栈工具链
  • CompassHub 高质量基准评测社区

InternLM2 技术报告

  • 开源性能,1.8B,7B,和20B
  • 200k上下文窗口
  • 负载推理
  • COOL RLHF

数据处理