愿景
- 一直想进军AI,恨自己数学实在太差,没法理解大量公式,没办法从头开始学习AI
 - 退而求期次,基于基础模型,找数据集,训练一个自己的问答模型
 
基建
- I7-10700F 16G内存 1660super(6G显存) 显卡
- 内存可以加,显卡买不起
 
 - deepin 20.9 社区版
 - 已通过nvidia官方下载驱动的方式,安装CUDA套件
 - 已安装 anaconda3并安装配置pytorch虚拟环境
- pytorch官网:https://pytorch.org/get-started/locally/
 - conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
 - 注:安装时间较久,下载过程可重试
 
 
初步测试
参考 https://blog.csdn.net/weixin_44599230/article/details/130005752
- 按上文下载了作者项目和数据集,将batch_size 设置为2跑了一遍
- 用时4小时以上
 - GPU使用率在45%
 
 - 第一次AI尝试成功..还是有点小兴奋,but:
- 由于数据集质量问题,问答效果不理想
 - 感觉这样的模型也没有啥意义
 
 - 我需要一个质量高的,契合个人的数据集,不然这个事就没有意义
 - 同时要不要换模型,这个模型是一个1024的模型,数据不能长
- 可换 Alpaca-LoRA 模型
 - 参考 https://www.fenchuan8.com/shows/3037.html
 
 
数据收集
- 编程问答数据积
- https://hyper.ai/datasets/30703
 - 这个全是英文的,考虑要不要至少把问题转成中文
 
 - Alpaca-LoRA的中文数据集
 - 中文社区语料(部分已过时)
 - 阿里计算巢数据
- https://computenest.console.aliyun.com/dataset/service/detail
 - 维基百科(wiki2019zh) - 中文
 - CMMLU评测集 - 中文
 - 流萤Firefly数据集firefly-train-1.1M (不确定通用性)
 - 中英文翻译语料
 - 知乎问题 数据集
 
 - Alpaca Chinese Dataset翻译语料
 
