医学类大模型
医学类大模型的应用
-
ChatDoctor (2023-03-24)
- Paper: https://arxiv.org/abs/2303.14070
- Code: https://github.com/Kent0n-Li/ChatDoctor
- License: Apache 2.0
- 基座模型:LLaMA-7B
- 数据:
- HealthCareMagic-100k
- icliniq-10k
- GenMedGPT-5k
- disease database
- 算力:
- 6 x NVIDIA A100 GPUs, 18h, batch size 192, 3 epochs
- 院校:
- Department of Radiation Oncology, University of Texas Southwestern Medical Center, Dallas, USA
- Department of Computer Science, University of Illinois at Urbana-Champaign, Illinois, USA
- Department of Computer Science and Engineering, The Ohio State University, Columbus, USA
- 杭州电子科技大学计算机学院
-
DoctorGLM (2023-04-03)
- Paper: https://arxiv.org/abs/2304.01097
- Code: https://github.com/xionghonglin/DoctorGLM
- 基座模型: THUDM/chatglm-6b
- 数据:
- CMD
- Surgical (116K)
- Obstetrics and Gynecology (229K)
- Pediatrics (117K)
- Internal Medicine (307K)
- Andriatria (113K)
- MedDialog (3.4M)
- ChatDoctor (5.4K)
- HealthCareMagic (200K)
- CMD
- 算力:
- 1 x NVIDIA A100 GPU 80GB, 13h
- 院校:
- 上海科技大学
- 上海交通大学
- 复旦大学华山医院
-
MedicalGPT-zh (2023-04-08)
- Code: https://github.com/MediaBrain-SJTU/MedicalGPT-zh
- License: Apache 2.0
- 基座模型: ChatGLM-6B
- 数据:
- 28科室的中文医疗共识与临床指南文本
- 情景对话 (52K)
- 知识问答 (130K)
- 28科室的中文医疗共识与临床指南文本
- 算力:
- 4 x NVIDIA 3090 GPUs
- 院校:上海交通大学未来媒体网络协同创新中心
-
Chinese-Vicuna-Medical (2023-04-11)
- Code: https://github.com/Facico/Chinese-Vicuna/blob/master/docs/performance-medical.md
- License: Apache 2.0
- 基座模型:Chinese-Vicuna-7B
- 数据:
- cMedQA2
- 算力:
- 70w of data, 3 epochs, a 2080Ti about 200h
-
本草(BenTsao) (2023-04-14)
- 原名:华佗(HuaTuo)
- Paper: https://arxiv.org/abs/2304.06975
- Code: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
- License: Apache 2.0
- 基座模型:LLaMA-7B, Chinese-LLaMA-Alpaca, ChatGLM-6B
- 数据:
- 公开和自建的中文医学知识库,主要参考了cMeKG
- 2023年关于肝癌疾病的中文医学文献,利用GPT3.5接口围绕医学文献多轮问答数据
- 算力:
- A100-SXM-80GB,10 epochs, 2h17m, batch_size=128
- 院校:哈尔滨工业大学社会计算与信息检索研究中心健康智能组
-
OpenBioMed (2023-04-17)
- Paper: https://arxiv.org/abs/2305.01523 (2023-04-17)
- Paper: https://arxiv.org/abs/2306.04371 (2023-06-07)
- Code: https://github.com/BioFM/OpenBioMed
- License: MIT
- 模型:BioMedGPT-1.6B
- 数据:DeepDTA
- 院校:清华大学计算机系
-
ChatMed (2023-04-19)
- Code: https://github.com/michael-wzhu/ChatMed
- License: Apache 2.0
- 基座模型:LLaMA-7B + Chinese-LLaMA-Alpaca
- 数据:
- 中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集
- 中医药指令数据集ChatMed_TCM_Dataset
- 中医药知识图谱
- ChatGPT得到11w+的围绕中医药的指令数据
- 算力:
- 4 x NVIDIA 3090 GPUS
- 院校:华东师范大学
-
扁鹊(BianQue) (2023-04-22)
- Code: https://github.com/scutcyr/BianQue
- 基座模型:
- v1: 元语智能
- v2: ChatGLM-6B
- 数据:
- 中文医疗问答指令与多轮问询对话混合数据集包含了超过900万条样本
- 扁鹊健康大数据BianQueCorpus
- 扩充了药品说明书指令
- 医学百科知识指令
- ChatGPT蒸馏指令等数据
- MedDialog-CN
- IMCS-V2
- CHIP-MDCFNPC
- MedDG
- cMedQA2
- Chinese-medical-dialogue-data
- 算力:
- 8张 NVIDIA RTX 4090显卡上微调了1个epoch,大约16天
- 院校:华南理工大学未来技术学院
-
PMC-LLaMA (2023-04-27)
- Paper: https://arxiv.org/abs/2304.14454
- Code: https://github.com/chaoyi-wu/PMC-LLaMA
- 基座模型: LLaMA-13B
- 数据:
- PubmedCentral papers (4.8M)
- 院校:上海交通大学未来媒体网络协同创新中心
-
MeChat (2023-04-30)
- Paper: https://arxiv.org/abs/2305.00450
- Code: https://github.com/qiuhuachuan/smile
- License: CC0-1.0
- Model: https://huggingface.co/qiuhuachuan/MeChat
- 基座模型: ChatGLM-6B
- 微调方式: LoRA
- 数据:
- PsyQA
- 院校:
- 西湖大学
- 浙江大学
-
启真医学大模型 (2023-05-23)
- Code: https://github.com/CMKRG/QiZhenGPT
- License: GPL-3.0
- 基座模型:ChatGLM-6B, CaMA-13B, Chinese-LLaMA-Plus-7B
- 数据:
- 启真医学知识库
- 真实医患知识问答数据
- 在启真医学知识库的药品文本知识基础上,通过对半结构化数据设置特定的问题模板构造的指令数据
- 药品适应症评测数据集
- 启真医学知识库
- 算力:
- 7 x NVDIA A800 GPU 80GB
- ChatGLM-6B, 16h20m (2500),
- CaMA-13B, 54h30m (6000) / 114h46m (12400)
- Chinese-LLaMA-Plus-7B, 40h56m (6000)
- 7 x NVDIA A800 GPU 80GB
- 院校:浙江大学
-
XrayGLM (2023-05-23)
- Code: https://github.com/WangRongsheng/XrayGLM
- License: CC BY-NC-SA 4.0
- 基座模型: VisualGLM-6B
- 数据:
- MIMIC-CXR (377K Image + 227K Report)
- Openl (6459 Image + 3955 Report)
- 算力: 4 x NVIDIA A100 GPUs 80GB
- 院校: 澳门理工大学应用科学学院
-
华佗GPT (HuaTuoGPT) (2023-05-24)
- Papser: https://arxiv.org/abs/2305.15075
- Code: https://github.com/FreedomIntelligence/HuatuoGPT
- License: Apache 2.0
- 基座模型: BLOOMZ-7b1
- 数据:
- 用 ChatGPT 构成的指令数据集 (61K)
- 真实的医生指令集 (70K)
- ChatGPT 角色扮演医患对话数据集 (68K)
- 真实的医患对话数据集 (26K)
- 算力:
- 8 x NVIDIA A100 GPUs, 3 epochs, 16000 steps,
- 院校: 香港中文大学(深圳)
-
MedicalGPT (2023-06-05)
- Code: https://github.com/shibing624/MedicalGPT
- License: Apache 2.0
- 基座模型:Ziya-LLaMA-13B-v1 等
- 数据:
- 医疗数据:
- 240万条中文医疗数据集(包括预训练、指令微调和奖励数据集):shibing624/medical
- 22万条中文医疗对话数据集(华佗项目):FreedomIntelligence/HuatuoGPT-sft-data-v1
- 通用数据:
- 50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN
- 100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN
- 5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset
- 2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh
- 69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0
- 5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K
- 80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M
- 116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data
- Reward Model datasets
- 原版的oasst1数据集:OpenAssistant/oasst1
- 2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward
- 11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf
- 9万条英文reward数据集(来自Anthropic's Helpful Harmless dataset):Dahoas/static-hh
- 7万条英文reward数据集(来源同上):Dahoas/rm-static
- 7万条繁体中文的reward数据集(翻译自rm-static)liswei/rm-static-m2m100-zh
- 7万条英文Reward数据集:yitingxie/rlhf-reward-datasets
- 3千条中文知乎问答偏好数据集:liyucheng/zhihu_rlhf_3k
- 医疗数据:
- 作者:徐明
-
ClinicalGPT (2023-06-16)
- Paper: https://arxiv.org/abs/2306.09968
- 基座模型: BLOOM-7B
- 数据:
- cMedQA2 (120K: 10K RM + 4K RL)
- cMedQA-KG (100K)
- MD-EHR (100K)
- MEDQA-MCMLE (34K)
- MedDialog (100K)
- 院校: 北京邮电大学
-
孙思邈(Sunsimiao) (2023-06-21)
- Code: https://github.com/thomas-yanxin/Sunsimiao
- License: Apache 2.0
- 基座模型:
- Sunsimiao: baichuan-7B
- Sunsimiao-6B: ChatGLM2-6B
- 数据:
- 十万级高质量的中文医疗数据
- 院校: 华东理工大学信息科学与工程学院
-
神农(ShenNong-TCM) (2023-06-25)
- Code: https://github.com/michael-wzhu/ShenNong-TCM-LLM
- License: Apache 2.0
- 基座模型: Chinese-Alpaca-Plus-7B
- 数据:
- 中 医药指令数据集 ShenNong_TCM_Dataset
- 以开源的中医药知识图谱为基础
- 调用ChatGPT得到11w+的围绕中医药的指令数据
- 中 医药指令数据集 ShenNong_TCM_Dataset
- 院校:华东师范大学