法律类大模型
法律类大模型的应用
-
獬豸(LawGPT_zh) (2023-04-09)
- Code: https://github.com/LiuHC0428/LAW-GPT
- License:
- 基础模型: ChatGLM-6B
- 数据:
- 情景对话:真实的律师用户问答 (200K)
- 利用ChatGPT根据CrimeKgAssitant的问答重新生成 (52K)
- 根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答 (92K)
- 知识问答:法律知识问题的解释性回答
- 法律领域的教科书,经典案例等数据
- 情景对话:真实的律师用户问答 (200K)
- 算力: 4 x NVIDIA 3090
- 院校: 上海交通大学
-
LaWGPT (2023-04-12)
- Code: https://github.com/pengxiao-song/LaWGPT
- License: GPL-3.0
- 基础模型: Chinese-Alpaca-Plus-7B
- 数据:
- https://github.com/pengxiao-song/awesome-chinese-legal-resources
-
官方数据
- 中国检查网:起诉书等
- 中国裁判文书网:裁决书、裁定书、决定书等
- 司法部国家司法考试中心:行政法规库、法考真题等
- 国家法律法规数据库:官方法律法规数据库
- https://github.com/pengxiao-song/awesome-chinese-legal-resources/issues/2
-
竞赛数据
- 中国法律智能技术评测(CAIL)历年赛题数据
- 中国法研杯司法人工智能挑战赛(LAIC)历年赛题数据
- 百度知道法律问答数据集:约 3.6w 条法律问答数据,包括用户提问、网友回答、最佳回答
- 法律知识问答数据集:约 2.3w 条法律问答数据
- 中国司法考试试题数据集:约 2.6w 条中国司法考试数据集
-
开源数据
- LaWGPT 数据集 @pengxiao-song:包含法律领域专有词表、结构化罪名数据、高质量问答数据等
- 法律罪名预测与机器问答 @liuhuanyong:包括罪名知识图谱、20w 法务问答数据等
- 法律条文知识抽取 @liuhuanyong:包括法律裁判文书和犯罪案例
- 中国法律手册 @LawRefBook:收集各类法律法规、部门规章案例等
-
其他
- 刑法最新罪名一览表:记录2021年最新刑法罪名
-
中文裁判文书网公开法律文书数据
-
司法考试数据
-
中国检查网:起诉书等
-
- https://github.com/pengxiao-song/awesome-chinese-legal-resources
- 算力: 8 x NVIDIA Tesla V100 32GB, 24h/epoch (pre-training), 12/epoch (fine-tuning)
- 院校: 南京大学
-
LexiLaw (2023-05-16)
- Code: https://github.com/CSHaitao/LexiLaw
- License: MIT
- 基础模型: ChatGLM-6B
- 数据:
- 通用领域数据
- 链家 BELLE-1.5M
- 法律问答数据
- LawGPT_zh :52k单轮问答数据和92k带有法律依据的情景问答
- Lawyer LLaMA :法考数据和法律指令微调数据
- 华律网问答数据 :20k高质量华律网问答数据
- 法律知道 :百度知道收集的36k条法律问答数据
- 法律法规和法律参考书籍
- 法律法规: 包含刑法、民法、宪法、司法解释等法律法规
- 法律参考书籍: JEC-QA数据集提供的法律参考书籍
- 法律文书
- 从法律裁判文书网收集50k法律文书
- 通用领域数据
- 算力: 7 x NVIDIA A100 GPUs 40GB
- 院校: 清华大学
-
Lawyer LLaMA (2023-05-24)
- Paper: https://arxiv.org/abs/2305.15062
- Code: https://github.com/AndrewZhe/lawyer-llama
- License: Apache-2.0
- 基础模型: Chinese-Alpaca-Plus-13B
- 数据:
- JEC-QA中国法考数据集
- 中国国家统一法律职业资格考试客观题
- JEC-QA中国法考数据集
- 院校: 北京大学
-
韩非(HanFei) (2023-05-31)
- Code: https://github.com/siat-nlp/HanFei
- License: Apache-2.0
- 基座模型: BLOOMZ-7B1
- 数据:
- 预训练
- 案例、法规、起诉状、法律新闻 (60G, 2K token/条)
- 微调
- v1.0
- 中文通用指令 (53k)
- 中文法律指令 (41k)
- 中文通用对话 (55k)
- 中文法律对话 (56k)
- 中文法律问答数据 (50k)
- v1.0
- 评估
- 法律问题
- 包含劳动、婚姻等9个板块 (150)
- 法律问题
- 预训练
- 算力: 8 x NVIDIA A100/A800
- 机构:
- 中科院深圳先进院
- 深圳市大数据研究院
- 香港中文大学(深圳)
-
ChatLaw (2023-06-28)
- Paper: https://arxiv.org/abs/2306.16092
- Code: https://github.com/PKU-YuanGroup/ChatLaw
- License: AGPL-3.0
- 基础模型:
- ChatLaw-13B: 姜子牙 Ziya-LLaMA-13B-v1
- ChatLaw-33B: Anima-33B
- 数据: 由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据
- 算力: multiple NVIDIA V100 GPUs
- 院校: 北京大学