学习的起因是在收尾Leelazero的时候,看到一篇评论,说当今开源的一款围棋AI KataGo甚是厉害,大有赶超leelazero之势。
自阿法狗后,围棋AI层出不穷,但基本都是站在狗身上不见头而已。引起兴趣的是这款AI的贴目、让子设定更为灵活,而且后续版本将支持中国古谱中的还棋头,这样可以对古谱提供支持分析。更关键的是只支持N卡的gpu计算,这样就必须安装CUDA和CUDNN,而这正好是最近需要学习和测试的。
于是开始安装。但上来就挨了当头一棒,老笔记本显卡太旧,CUDA和CUDNN居然直接拒绝安装。马上换上宏碁笔记本,开始了漫长的安装调试。
根据以往的经验,网上的教程不可靠。果然,网上写的容易,安装起来诸多意外。一个一个解决,顺带倒是学习了不少相关知识。
安装完CUDA和CUDNN,KataGo编译倒是简单了,没有费多大功夫。使用sabaki可以调用引擎进行对弈,甚至可以让KataGo和leelazero进行对弈。但网上最流行的lizzie却无法调用。但好在主要问题已经解决,足矣,立马倒头就睡。
今天早晨起来,又把剩余的问题解决。在lizzie的配置文件中的engine-command后面加engine-command-list,将各种引擎伸至权重写入数组,这样就可以通过ctl+数字进行引擎切换。
虽然费时费脑,算是完美的解决吧。
前几天误打误撞注册了AutoDL后果然有些停不下来,算上折扣,要比阿里云、腾讯云的gpu服务器更为合适,同时AutoDL是容器化实例,这样初始化在几秒内完成,而阿里云等初始化过程中的GPU驱动、框架搭建时间有些过于漫长了。如果把时间考虑在内,AutoDL性别比就更高了。
但AutoDL受实例限制,暂时无法编译TensorRT Backend版本,编译的是cuda11.2版本。在不同GPU实例下简单测试了一下katago的benchmark,权重为kata1-b40c256-s10359230464-d2525387336。
使用阿里云最低端的Tesla T4,4核cpu,15G内存服务器作为参考。
在使用sabaki对弈感觉速度尚可,但经过测试,NVIDIA RTX 3060 / 12GB的成绩与阿里云的Tesla T4比想象中要差不少。
作为TeslaT4的替代者,NVIDIA RTX A4000 / 16GB成绩相比TeslaT4略好一点,也符合AutoDL首页算力排名。AutoDL北京地区实例均使用RTX A4000。
NVIDIA RTX 3090 / 24GB成绩两倍于NVIDIA RTX A4000 / 16GB,同样符合算力排名。
最令人吃惊的是NVIDIA RTX 2080Ti / 11GB,成绩直逼阿里云TeslaV100 16G。katago测试过程中,
第一次测试居然认为成绩出现误差,提示“Optimal number of threads is fairly high, increasing the search limit and trying again.”自动重新测试了一遍。
不愧为显卡核弹。难怪黄厂长严令禁止数据商将游戏显卡用于数据服务器上。其价格居然还要低于NVIDIA RTX A4000 / 16GB,这也是性价比最高的GPU实例。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)