自然驱动的解决方案,可使人工智能更节能更高效

编辑 | 萝卜皮

一辆汽车的「生命」周期内,排放约 126,000 磅的温室气体二氧化碳(CO2)。将这些排放与人工智能(AI)技术留下的碳足迹进行比较。仅 2019 年,训练顶级人工智能便产生了超过 625,000 磅的二氧化碳排放量。之后,人工智能的能源需求只会变得更大。

为了降低人工智能的能耗,华盛顿大学的研究团队提出了一种自适应突触阵列,可用于提高训练机器学习(ML)系统的能效。

突触阵列由一组模拟记忆元件组成,每个记忆元件本身就是一个微尺度动态系统,将信息存储在其时间状态轨迹中。然后通过系统级学习算法对状态轨迹进行调制,从而将集成轨迹引导至最优解。

研究表明,状态轨迹调制所需的外在能量可以与神经网络学习的动态相匹配,从而显著减少 ML 训练期间内存更新所消耗的能量。因此,所提出的突触阵列可能对解决人工智能(AI)系统中观察到的训练和推理阶段之间的能效失衡具有重要意义。

该研究以「An adaptive synaptic array using Fowler–Nordheim dynamic analog memory」为题,于 2022 年 3 月 29 日发布在《Nature Communications》。

在节能 ML 和神经形态处理器的设计中,可靠且可扩展的突触权重或内存的实现仍然是一个未解决的挑战。理想情况下,突触权重应该是「模拟的」,并且应该在非易失性且易于修改的存储设备上实现。

此外,如果这些内存元素与计算电路或处理元素紧密集成,则产生的内存计算(CIM)体系结构有可能缓解「内存墙」,这是指ML处理器中由于重复内存访问而出现的能效瓶颈。在大多数实际和可扩展的实现中,处理元件是使用 CMOS 电路实现的;因此,需要使用与 CMOS 兼容的技术来实现模拟突触权重。

在前人的研究中,已经提出了几种用于实现模拟突触的多级非易失性存储器。其中包括两个终端记忆器件,如电阻随机存取存储器(RRAM)、磁随机存取存储器(MRAM)、相变存储器(PCM)、自旋转移转矩磁RAM(STT-MRAM)、导电桥RAM或三个终端器件,如浮栅晶体管、铁电场效应晶体管基存储器(FeFET),电荷阱存储器和电化学RAM(ECRAM)。

在所有这些设备中,模拟存储器状态本质上是静态的,其中每个状态都需要通过能垒 ΔE 与其他状态分开。例如,在 RRAM 器件中,两个电极之间的导电丝的状态决定了存储的模拟值,而在浮栅或 FeFET 等基于电荷的器件中,极化状态决定了模拟值。为了确保非易失性存储,选择足够大的能量屏障 ΔE 以防止由于热波动和其他环境干扰导致的内存泄漏是至关重要的。

然而,能垒的高度 ΔE 也为在不同模拟存储状态之间切换所消耗的能量设定了基本限制。例如,切换 RRAM 内存状态需要 100 fJ/bit,而 STT-MRAM 需要大约 4.5pJ/bit。

一种学习/训练算法,以量化步长 (…,Wn−1, Wn, Wn+1, …) 调整存储的权重,以最小化系统级损失函数 L(W),如图 1 所示 , 必须消耗 (…, ΔEn−1, ΔEn, ΔEn+1, …) 的最小能量以进行内存更新。通过能量屏障分离静态还允许学习算法精确控制后续参数更新之间的参数保留时间(参数泄漏),但是,这种更新模式没有利用学习的物理特性来优化能量效率。

在许多节能 ML 训练公式中,尤其是在模拟 ML 系统中,损失函数 L(W)由物理 ML 系统的等效能量函数表示,学习/训练涉及系统动力学根据输入刺激向最小能量状态的自然演化。因此,系统演化过程的物理特性选择了朝向期望最优值的最小能量路径。与该系统动力学匹配的突触元素需要对其记忆保留时间进行自适应,然后可以根据每次更新的能量耗散进行权衡。

图示:所提出的突触记忆装置的动机和工作原理。(来源:论文)

在这项研究中,研究人员提出了这样一个突触元素,它使用动态状态(而不是静态状态)来实现模拟记忆,并与 ML 训练的动态相匹配。所提出设备的核心本身就是一个微动态系统,系统级学习/训练过程调节记忆集合的动态状态(或状态轨迹)。

报道了,一种基于 FN 量子隧道的 DAM (FN-DAM),其物理动力学可以与 ML 或神经网络训练中使用的权重更新动力学相匹配。

图示:不同操作区域下的 FN-DAM 塑性。(来源:论文)

在训练阶段,存储在 FN-DAM 上的权重本质上是可塑性的,并根据梯度下降训练收敛所必需的学习率演化而衰减。随着训练阶段过渡到推理阶段,FN-DAM 充当非易失性存储器。因此,训练后的权重可以持久存储,无需任何额外的刷新步骤(用于易失性嵌入式 DRAM 架构)。

FN-DAM 在训练阶段的可塑性可以与更新权重所需的能量进行权衡。这很重要,因为训练期间权重更新的数量与参数数量成二次方关系,因此训练期间的能量预算明显高于推理的能量预算。FN-DAM 的动力学与神经网络训练和其他随机优化引擎中用于克服局部最小值伪影的退火过程相似。

因此,FN-DAM 实现或 ML 处理器可以自然地实现退火而不消耗任何额外的能量。如果要在其他模拟存储器上模拟这种动态,则需要额外的硬件和控制电路。

将 FN-DAM 扩展到大型神经网络存在一些挑战。训练大规模神经网络可能需要几天到几个月的时间,具体取决于问题的复杂性、网络的复杂性和训练数据的大小。这意味着 FN-DAM 动力学也需要与长训练时间相匹配。

幸运的是,FN 设备的 1/log 特性确保动态可以持续超过一年。可能将 FN-DAM 扩展到大型神经网络的另一个挑战是测量精度。测量的分辨率和读出电路限制了内存访问期间的能量消耗以及梯度计算的速度。

例如,一个 1 pF 的浮栅电容可以初始化为存储 10^7 个电子。即使能够测量每个电子隧穿事件的突触权重变化,读出电路也需要区分 100 nV 的变化。更现实的情况是测量 1000 次电子隧穿事件后的电压变化,这意味着测量 100 µV 的变化。但是,这会将存储的权重/更新的分辨率降低到 14 位。该分辨率可能足以训练中型神经网络;然而,这个分辨率是否足以训练大规模网络仍然是一个悬而未决的问题。

图示:内存更新表征。(来源:论文)

提高动态范围和测量分辨率的一种机制是使用与电流模式神经网络架构集成的电流模式读出器。如果读出晶体管在弱反相中偏置,则有可能实现 120 dB 的动态范围。然而,请注意,即使在这种操作模式下,重量的分辨率仍然会受到电子数量和电子传输引起的量化的限制。解决这一限制将是未来研究的一部分。

如果将 FN-DAM 用作静态模拟存储器,那么测量 1 mV 差异以区分不同的存储器状态将具有挑战性,尤其是在考虑设备失配的情况下。然而,存储在 FN-DAM 阵列上的模拟值在最小化系统级目标函数(累积损失或距离)的学习循环中更新。

因此,在训练过程中,内存单元上的任何静态失配的影响都会得到校准。校准过程成功的重要方面是内存更新相对于误差梯度是单调的,并且更新的精度足够高(通常大于 12 位)。由于电子隧穿的物理特性,FN-DAM 满足了这两个要求。

事实上,在 FN-DAM 神经网络训练中可以看到由于学习而产生的校准效果,其中分类精度与 FN-DAM 状态的初始选择和 FN-DAM 设备特性的不匹配无关。由于热噪声的存在,模糊的效果实际上有利于训练神经网络,因为它有助于克服由于局部最小值引起的伪影。

一旦 FN-DAM 转变为非易失状态(在推理期间),模糊的影响就会显著降低,因为分离不同模拟状态的能垒明显高于由于热波动而产生的能量。然而,由于测量噪声造成的模糊效应需要通过平均或增加累积测量时间来补偿。

在这项工作中,研究人员使用了电压缓冲器(源极跟随器)来读取 FN-DAM 单元的状态。然而,电流模式读数也可用于区分 FN-DAM 电压的 mV 变化。如果读出晶体管在弱反相中被偏置,则可以使用栅极电压和漏极电流之间的指数依赖性来放大电压的变化。

该团队曾将这种方法用于浮栅电流存储器阵列,并且得到了一种基于主动反馈的方法,来提高电压模式读出的分辨率。然而,在这两种实施方式中,都需要权衡测量分辨率的准确性和读出速度。

由于在 SET 和 RESET 期间,存储在浮栅上并穿过隧道势垒传输的有限数量的电子产生的另一个限制是编程速度。较短持续时间的编程脉冲将减少存储电压(权重)的变化,如果需要更新精度,这可能是有益的。相反,通过增加编程脉冲的幅度,可以粗略地调整存储电压的变化。但是,这将限制权重饱和之前的更新次数。当然,由于设备不匹配,不同 FN-DAM 设备上的编程值会有所不同。

图示:设备表征。(来源:论文)

续航方面,单次初始化后,FN-DAM 可以支持 10^3–10^4 更新周期,直到权重饱和。但是,FN-DAM 的核心是一种 FLASH 技术,可能会再次重新初始化。鉴于 FLASH 存储器的寿命为 10^3,预计 FN-DAM 的寿命为 10^6–10^7 个周期。在其他内存性能指标方面,FN-DAM 的 ION/IOFF 比率由操作机制和读出机制决定。

此外,当 FN-DAM 被偏置为非易失性存储器时,只需要片上电荷泵来产生高压编程脉冲,用于不频繁的全局擦除;因此,与 FLASH 存储器相比,FN-DAM 的故障模式应该更少。由于 FN-DAM 也可以在传统的 FLASH 存储器上实现,因此突触可以扩展到未来的 3-D 和 2.5D FLASH 过程,其中可以实现高突触密度以实现大规模神经网络。

图示:用于神经形态应用的突触记忆。(来源:论文)

与其他新兴存储器技术相比,FN-DAM 的主要优势在于其可扩展性和与 CMOS 的兼容性。FN-DAM 的核心是基于在机器学习架构背景下广泛研究的浮栅存储器。

此外,从等效电路的角度来看,FN-DAM 可以被视为一个电容器,其电荷可以使用 CMOS 处理元件进行精确编程。由于其独特的衰减特性,FN-DAM 还在不太小的权重更新之间提供了平衡,因此学习永远不会发生,而权重更新过大导致学习变得不稳定。

FN-DAM 的物理特性确保了权重衰减(在没有任何更新的情况下)向零向量(由于重新同步),这对于神经网络的泛化很重要。为了实现大规模神经网络,需要减小 FN-DAM 形状因子,这会影响器件的可变性和失配。

然而,在之前的工作中,该团队已经证明 FN-DAM 电池的动力学(处于稳态)主要由栅极氧化物厚度决定,这是一个在整个过程中得到很好控制的参数。大于 10 nm 的氧化物厚度确保电子泄漏机制由 FN 量子隧穿(而不是直接量子隧穿)支配。因此,FN-DAM 器件应该可以在大多数亚 10nm CMOS 工艺上实现,这些工艺允许为输入/输出器件制造更厚的栅极氧化物晶体管。

与其他模拟非易失性存储器一样,FN-DAM 可用于任何先前提出的 CIM 架构。然而,在传统的 CIM 实现中,权重是离线训练的,然后下载到芯片上,而不需要重新训练处理器。这使得架构容易出现偏移、失配和非线性等模拟伪影。

片上学习和训练缓解了这个问题,通过权重对工件进行自我校准以产生所需的输出。然而,为了支持片上训练/学习,需要以大于 12 位的精度更新权重。在这方面,FN-DAM 与其他模拟存储器相比具有显著优势。尽管在这个概念验证工作中,研究人员使用了混合芯片在环训练范例,但预计将来训练电路和 FN-DAM 模块可以在芯片上集成在一起。

图示:用于深度神经网络任务的突触记忆。(来源:论文)

从神经形态学的角度来看,FN-DAM 可用于模拟网络级突触适应或修剪,这在学习过程中确定最佳网络配置方面起着关键作用。例如,据报道,儿童的大脑比成人大脑具有明显更密集的连接,并消耗身体 50% 的静息能量代谢 (BMR)。多年的学习和突触修剪产生了一个网络,该网络在成年期的能量和表现方面趋于最优,此时大脑仅占 BMR 的 20%。所提出的 FN-DAM 的适应性可用于在人工机器学习系统中模拟这种效果。

如果 FN-DAM 更新由恒定电压脉冲驱动,则内存可用于模拟在神经生物学系统中观察到的突触可塑性中的老化效应。与生物突触一样,对于相同幅度的施加输入电压脉冲,存储在 FN-DAM 上的值或突触功效的相对变化随着时间的推移而降低。利用 FN-DAM 的这一特性来模拟人工神经网络中与神经生物学相关的突触动力学也将是未来研究的主题。

论文链接:www.nature.com/articles/s4…

相关报道:techxplore.com/news/2022-0…

© 版权声明
THE END
喜欢就支持一下吧
点赞0

Warning: mysqli_query(): (HY000/3): Error writing file '/tmp/MYgv4FJN' (Errcode: 28 - No space left on device) in /www/wwwroot/583.cn/wp-includes/class-wpdb.php on line 2345
admin的头像-五八三
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称代码图片