跳到主要内容

法律类大模型

法律类大模型的应用

  • 獬豸(LawGPT_zh) (2023-04-09)

    • Code: https://github.com/LiuHC0428/LAW-GPT
    • License:
    • 基础模型: ChatGLM-6B
    • 数据:
      • 情景对话:真实的律师用户问答 (200K)
        • 利用ChatGPT根据CrimeKgAssitant的问答重新生成 (52K)
        • 根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答 (92K)
      • 知识问答:法律知识问题的解释性回答
        • 法律领域的教科书,经典案例等数据
    • 算力: 4 x NVIDIA 3090
    • 院校: 上海交通大学
  • LaWGPT (2023-04-12)

    • Code: https://github.com/pengxiao-song/LaWGPT
    • License: GPL-3.0
    • 基础模型: Chinese-Alpaca-Plus-7B
    • 数据:
      • https://github.com/pengxiao-song/awesome-chinese-legal-resources
        • 官方数据

        • 竞赛数据

          • 中国法律智能技术评测(CAIL)历年赛题数据
          • 中国法研杯司法人工智能挑战赛(LAIC)历年赛题数据
          • 百度知道法律问答数据集:约 3.6w 条法律问答数据,包括用户提问、网友回答、最佳回答
          • 法律知识问答数据集:约 2.3w 条法律问答数据
          • 中国司法考试试题数据集:约 2.6w 条中国司法考试数据集
        • 开源数据

          • LaWGPT 数据集 @pengxiao-song:包含法律领域专有词表、结构化罪名数据、高质量问答数据等
          • 法律罪名预测与机器问答 @liuhuanyong:包括罪名知识图谱、20w 法务问答数据等
          • 法律条文知识抽取 @liuhuanyong:包括法律裁判文书和犯罪案例
          • 中国法律手册 @LawRefBook:收集各类法律法规、部门规章案例等
        • 其他

          • 刑法最新罪名一览表:记录2021年最新刑法罪名
        • 中文裁判文书网公开法律文书数据

        • 司法考试数据

        • 中国检查网:起诉书等

    • 算力: 8 x NVIDIA Tesla V100 32GB, 24h/epoch (pre-training), 12/epoch (fine-tuning)
    • 院校: 南京大学
  • LexiLaw (2023-05-16)

    • Code: https://github.com/CSHaitao/LexiLaw
    • License: MIT
    • 基础模型: ChatGLM-6B
    • 数据:
      • 通用领域数据
        • 链家 BELLE-1.5M
      • 法律问答数据
        • LawGPT_zh :52k单轮问答数据和92k带有法律依据的情景问答
        • Lawyer LLaMA :法考数据和法律指令微调数据
        • 华律网问答数据 :20k高质量华律网问答数据
        • 法律知道 :百度知道收集的36k条法律问答数据
      • 法律法规和法律参考书籍
        • 法律法规: 包含刑法、民法、宪法、司法解释等法律法规
        • 法律参考书籍: JEC-QA数据集提供的法律参考书籍
      • 法律文书
        • 从法律裁判文书网收集50k法律文书
    • 算力: 7 x NVIDIA A100 GPUs 40GB
    • 院校: 清华大学
  • Lawyer LLaMA (2023-05-24)

  • 韩非(HanFei) (2023-05-31)

    • Code: https://github.com/siat-nlp/HanFei
    • License: Apache-2.0
    • 基座模型: BLOOMZ-7B1
    • 数据:
      • 预训练
        • 案例、法规、起诉状、法律新闻 (60G, 2K token/条)
      • 微调
        • v1.0
          • 中文通用指令 (53k)
          • 中文法律指令 (41k)
          • 中文通用对话 (55k)
          • 中文法律对话 (56k)
          • 中文法律问答数据 (50k)
      • 评估
        • 法律问题
          • 包含劳动、婚姻等9个板块 (150)
    • 算力: 8 x NVIDIA A100/A800
    • 机构:
      • 中科院深圳先进院
      • 深圳市大数据研究院
      • 香港中文大学(深圳)
  • ChatLaw (2023-06-28)

    • Paper: https://arxiv.org/abs/2306.16092
    • Code: https://github.com/PKU-YuanGroup/ChatLaw
    • License: AGPL-3.0
    • 基础模型:
      • ChatLaw-13B: 姜子牙 Ziya-LLaMA-13B-v1
      • ChatLaw-33B: Anima-33B
    • 数据: 由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据
    • 算力: multiple NVIDIA V100 GPUs
    • 院校: 北京大学