我国学者在基于忆阻器的存算一体研究领域取得新进展
来源:国家自然科学基金委员会信息科学部   作者: 编辑:陈志军   点击数:   日期:2020-03-03   字体:【

图1存算一体系统架构

在国家自然科学基金应急管理项目(批准号:61851404)等资助下,清华大学吴华强教授团队在基于忆阻器的存算一体研究领域取得新进展。研究成果以“Fully hardware-implemented memristor convolutional neural network(忆阻器卷积神经网络的全硬件实现)”为题,于2020年1月29日在《自然》杂志(Nature)上在线发表。论文链接:https://www.nature.com/articles/s41586-020-1942-4。

芯片算力的提升是人工智能兴起的重要驱动力。深度学习模型的复杂化和参数规模的增长对底层芯片的功耗和算力提出了更高的要求,然而,传统的存储-计算分离架构制约了硬件能力的进一步发展。根据忆阻器的器件特性,单个器件既是存储单元,又是计算单元,从而节省了数据搬移的功耗和延时开销,有望实现全新的存算一体的新型计算系统。当前,国际上的研究主要面向基于单个忆阻器阵列的功能验证,实现基于全连接结构的矩阵向量乘加速,尚缺乏忆阻器卷积网络的完整硬件实现方案。因此,研发面向复杂网络实现的多阵列硬件系统需要解决以下问题:硬件上,需要制备具有高一致性、高可靠性的忆阻器阵列;系统上,忆阻器固有的非理想特性会导致计算准确率降低;架构上,忆阻器阵列实现卷积功能,需要以串行滑动的方式连续采样、计算多个输入块,无法匹配全连接结构的计算效率。

针对上述问题和挑战,该团队通过器件、架构和系统的创新,开发了面向大规模集成忆阻器的加工工艺,提出混合训练的方法在系统层次克服器件非理想特性带来的性能损失,完成了忆阻器卷积网络的完整硬件实现。他们通过开发、优化与传统CMOS芯片工艺兼容的器件制备流程,提升了多值忆阻器件的可靠性,研发出多忆阻器阵列(8个)的集成电路板,并利用FPGA开发板,部署了5层卷积网络,搭建出完整的多阵列存算一体硬件系统;为解决器件非理想特性带来的系统识别准确率下降问题,提出混合训练的存算一体计算方法;进一步提出空间并行的架构,将相同卷积核编程到多组忆阻器阵列中,提高了并行度、提升了忆阻器阵列的卷积计算效率,实现了系统加速。该研究实现的基于忆阻器阵列的存算一体硬件系统,与Tesla V100 GPU相比,在图像识别准确率相当的情况下,该硬件系统具有110倍的能效优势。本研究工作为解决忆阻器件非理想特性导致的阵列内部、阵列间的误差累积问题提供了新思路,为突破现行计算机架构“存储墙”的限制提供了新路径。

版权所有:内江师范学院 科技与学科建设处
地址:四川省内江市东兴区红桥街1号,邮编:641100  邮箱:sfkyc@163.com