带GPU的SoC,我希望用GPU的shader加速运算,但并不用真正的3D功能。
如果为这个需求就装Linux和OpenGL太重了,有没有可能裸机调用到GPU的部分功能?
系统和GPU通信也是通过寄存器吗?是否能选择性地只使用小部分功能,还是必须开发一套复杂的driver才能用起来?
离线
几乎不可能。shader要编译的,编译器一般是jit的,驱动里面实现的。一般gpu的驱动超级复杂,是一个完整的编译器+优化器,而且还得负责分配gpu资源。
离线
几乎不可能。shader要编译的,编译器一般是jit的,驱动里面实现的。一般gpu的驱动超级复杂,是一个完整的编译器+优化器,而且还得负责分配gpu资源。
多谢!
离线
关注裸机gpu开发
离线
搞深度学习的吗?
可以关注K210这个芯片,基本算裸机的,算力好像有1T OPS,基本是秒杀目前大部分SOC的GPU了,包括骁龙845,855这种等级的
RK1808也有3T的算力,目前好像的跑LINUX,但基本也算轻量级
离线
搞深度学习的吗?
可以关注K210这个芯片,基本算裸机的,算力好像有1T OPS,基本是秒杀目前大部分SOC的GPU了,包括骁龙845,855这种等级的
RK1808也有3T的算力,目前好像的跑LINUX,但基本也算轻量级
请问:算力的具体意义是什么,有统一标准吗?
离线
请问:算力的具体意义是什么,有统一标准吗?
对AI来说,算力一般指的是计算8比特数据的能力。先乘后加算两次运算。
所以一个400MHz主频,576个乘加器的NPU就有0.4*576*2=0.46T的算力(K210)。
K210可以超频到800MHz,但是要加压,功耗和稳定性都炸了。现实点说600MHz没问题,也就是0.69T算力。
K210的所有内存都是单周期片上SRAM,这一点比外挂内存的芯片强太多了。6MB用于CPU程序和NPU模型,2MB用于NPU数据。
CPU可以寻址全部8MB空间,NPU只能寻址2MB的NPU数据内存,NPU的模型要逐层由CPU加载到NPU里面。
NPU模型内存只存储当前计算层的参数,独立于上述8MB之外。
容量小是硬伤,但是速度快很爽。
如果你的模型能压缩到6MB以下,而且层数据(当前+下一层)能做到2MB以下,K210应该实际速度比那些号称1T/2T/3T的基于外部DRAM的方案快的多。
这芯片潜力很大,但是就是文档太日狗了。没有内部人士帮忙想跑tinyyolo以外的任何东西基本上都不可能。
离线
K210芯片价格40块钱左右容易买到,的确是目前能实用的跑深度学习的芯片. 训练YOLO V3,支持显卡CUDA加速,算整套系统都可以使用了.
但缺点好像就是内存太小,我训练50张图片出来的模型都很大了? ?? 更别说那些训练几千张的模型(一般有几百M了),这点不知道大家如何解决的?
还有个方案是外挂AI芯片,国内有"光矛"这个,通过SD接口可以和任意芯片连接,算力也有个1T吧 ,价格也是几十块钱 ,但这个方案好像不如RK1808内置的,都的上LINUX+外接DDR内存芯片,有点复杂
离线
这有几个方案,海思的芯片不便宜,问了下300块钱起步,不过好像支持4K的摄像头,一般搞这方面的基本都是图像识别了,摄像头必须的
最近编辑记录 jiangchun9981 (2020-09-19 21:39:45)
离线
但缺点好像就是内存太小,我训练50张图片出来的模型都很大了? ?? 更别说那些训练几千张的模型(一般有几百M了),这点不知道大家如何解决的?
不需要也别快的话可以从SPI加载模型,然后往KPU里面倒腾。K210有MMU,可以SPI映射内存,但是K210用的RiscV版本有bug,MMU看现在的RV手册不好使,得参考某个特定版本的MMU手册。有个日本人搞出来了,可以把完整的16MB NOR映射成内存。
我用K210不跑实际训练的模型,所以不是很在乎内存大小。我跑的是简单的几何图形检测(贴片捡放机,找零件位置和pin1圆圈),都有数学表达式的,可以直接推出来卷积核,pooling参数和激活函数,模型特别简单。
离线
我跑的是简单的几何图形检测(贴片捡放机,找零件位置和pin1圆圈)
这感觉挺好,啥时候出产品。
离线
Blueskull 说:我跑的是简单的几何图形检测(贴片捡放机,找零件位置和pin1圆圈)
这感觉挺好,啥时候出产品。
遥遥无期。业余爱好,时间不多。天天公司早九晚六,通勤吃饭健身到家就9点了,再处理一下邮件,做做明天的材料,看会傻缺视频,就该洗澡睡觉了。
离线
@Blueskull
您好!请问,具体如何对k210进行超频?我查过网上的资料没有任何关于k210超频的教程.
离线