基于拓扑相变的模拟忆阻突触:用于高性能神经形态计算和神经网络剪枝(Analog memristive synapse based on topotactic phase transition for high-performance neuromorphic computing and neural network pruning)

摘要

受人脑启发,基于非易失性存储器(NVM)的神经形态计算被认为是构建高能效人工智能计算硬件的一个有前途的范式。然而,现有的NVM仍然存在物理器件特性不完善的问题。在本研究中,我们展示了一种基于SrCoO(_x)的拓扑相变随机存取存储器(TPT-RAM),其具有独特的扩散性非易失双模式特性。通过沿高度有序的氧空位通道的氧离子迁移,可精确控制SrCoO(_x)的可逆相变,从而实现可重复的模拟开关特性并减少变异性。结合密度泛函理论和动力学蒙特卡罗模拟,系统研究了TPT-RAM的方向依赖型开关机制。此外,双模式TPT-RAM被用来模拟突触选择性稳定过程,并实现神经网络剪枝,成功减少了约84.2%的冗余突触,同时将图像分类精度提升至99%。本研究为设计神经形态计算中仿生忆阻突触提供了新的方向。

1. 引言

数字硬件(包括中央处理器和图形处理器)算力的增长推动了人工智能的快速发展。然而,这反过来也对硬件性能提出了越来越高的要求,甚至超出了摩尔定律的发展速度。其中的一个关键瓶颈来源于广泛采用的冯·诺依曼架构中存储单元与计算单元的物理分离,这导致了内存墙问题这一重大挑战。受神经生物系统的启发,神经形态计算作为一种极具前景的计算范式出现,其特点是在存储器中实现大规模并行计算,从而打破了所谓的冯·诺依曼瓶颈(参考文献1, 2)。各种非易失性存储器(NVM),例如阻变随机存取存储器(RRAM)(参考文献3, 4)和相变存储器(PCM)(参考文献5),已经被广泛研究,用作人工突触和神经元以构建人工智能芯片原型(参考文献6-8)。与数字存储应用不同,在这里需要可重复的模拟开关特性(例如,多级电导状态、权重更新的线性和对称性以及低变异性),以满足高计算精度和能效的要求(参考文献9, 10)。

不幸的是,目前的非易失性存储器(NVMs)仍然存在非理想的器件特性(如图 S1 所示),这是大规模神经形态计算系统硬件实现中的主要挑战之一。例如,传统的细丝型阻变存储器(RRAM)依赖于无定形切换氧化物中的随机氧空位(Vo)迁移,导致器件固有的高变异性;而界面型 RRAM 由于缺乏局部焦耳热效应,通常表现出较差的保持特性和较低的速度(参考文献11)。对于相变存储器(PCM),由于晶态到无定形相变中的骤冷过程,其切换通常表现出不对称性,并且还存在电导漂移问题(参考文献12)。这些不理想的器件特性源自其内在的工作机制,因此难以通过简单优化器件结构来消除(参考文献13, 14)。此外,目前这些器件主要限于模拟单个神经元或突触的功能(例如突触可塑性、神经元触发等),而许多重要的网络级特性的生物模拟(如在生物认知学习中关键的神经网络修剪)尚未被探索。因此,为实现未来高性能的神经形态计算,亟需在材料和器件工作机制方面的创新,以获得更可控的模拟切换特性并构建更符合生物学的神经网络(参考文献15, 16)。

为了寻求低变异模拟切换忆阻器的新材料和结构,我们提出了一种基于拓扑相变的新型突触,即拓扑相变随机存取存储器(TPT-RAM),其使用棕米勒氧化物(BM)[如 SrCoO₂.₅(SCO)(参考文献17, 18)和 SrFeO₂.₅(参考文献19-21)]作为阻变切换氧化物。我们选择了 SCO 作为示例材料,其独特的晶体结构由氧八面体和氧四面体交替堆叠而成,提供了实现均匀模拟切换的有利条件:
(i) 高度有序的一维氧空位通道(OVCs)为氧离子的迁移提供了预定义的“高速通道”,从而诱导相变和阻变切换(参考文献22)。相比于通过金属掺杂(参考文献23)或位错工程(参考文献15)等方法限制离子迁移,BM 氧化物中高度有序且原子级精确的 OVCs 更加均匀且易于操控,而无需额外的外部工艺(参考文献24)。
(ii) 多价态的钴离子在调整氧化学计量比的基础上,可在 BM 和钙钛矿(PV)结构之间可逆变化,而不会失去本征的晶格结构,从而实现渐进切换(参考文献25-27)。
(iii) 作为阻变切换层的高质量、稳定的 BM 氧化物,确保了多级电导状态下的优异保持特性以及增强的耐久性。

在本研究中,为了实现低功耗的神经形态计算,我们设计并制造了基于 SCO 的 TPT-RAM,其具有可调的 OVCs,作为忆阻突触。这样的 TPT-RAM 提供了一个绝佳的平台,通过关联电学与结构表征以及全面的原子器件建模和仿真(参考文献28-30),深入研究与拓扑相变相关的切换机制。然而,这对于使用无定形氧化物(如 HfO₂)的传统 RRAM 来说是困难的(参考文献31)。实验表明,通过操控顶部和底部电极(BEs)的 OVC,可以实现高速且均匀的模拟 TPT-RAM。此外,受生物神经网络中突触选择性稳定的启发,我们实现了通过自动修剪在线训练稀疏神经网络,从而大幅减少了网络规模和功耗。

2. 结果

2.1 TPT-RAM的取向依赖性切换特性

图 1 (A 和 B) 展示了具有可调节氧空位通道 (OVCs) 的 TPT-RAM 突触示意图及其相变机制。首先,通过脉冲激光沉积 (PLD) 方法,在 (001)- 和 (110)-取向的 SrTiO3 (STO) 衬底上外延生长了厚度分别为 35 nm 和 17 nm 的单晶棕镁矿 SrCoO₂.₅ (BM-SCO)/SrRuO₃ (SRO) 薄膜。BM-SCO 中氧八面体和四面体的交替堆叠形成了高度有序的氧空位通道。由于外延应变和晶体对称性,OVCs 在SCO (001)pc 取向的薄膜中主要沿面内方向排列,而在 SCO (110)pc 取向的薄膜中则具有明显的面外分量【32–34】。 金属 SRO 用作底电极 (BE),实现了无错配位错的原子级洁净外延界面(图 S2)【35】。在薄膜生长完成后,在 BM-SCO 层顶部沉积了一层厚度为 20 nm 的 Al₂O₃ 保护层。随后,通过在 Al₂O₃ 中刻蚀接触孔,定义了 TPT-RAM 器件的区域,面积范围从 (4 µm)² 到 (100 µm)² 不等。最后,通过溅射工艺在顶部制作了 100 nm 厚的金 (Au) 电极。Au 和 SRO 均能与 BM-SCO 形成欧姆接触【36】,这一特性对消除界面势垒的影响并获得对称的 I-V 特性至关重要。 通过 X 射线衍射 (XRD)(图 1C)和球差校正扫描透射电子显微镜 (STEM)(图 1D)进一步验证了这两种 BM-SCO 薄膜的不同晶体结构,其中氧四面体层(有序 OVCs)用粉色箭头标注。

图 1. 基于 SCO 的 TPT-RAM 突触器件设计及其可调的氧空位链(OVCs)取向
(A) 基于不同晶体取向的 SCO 制备的 TPT-RAM 示意图。
(B) 依赖于氧化学计量比的可逆场驱动的 BM-SCO 和 PV-SCO 之间的拓扑相变。
(C) 两种外延 SCO 薄膜的 XRD θ-2θ 图谱,分别生长在 SRO 缓冲的 STO (110) 和 (001) 衬底上(上方为 STO (110),下方为 STO (001))。
(D) 原子分辨率扫描透射电子显微镜图像展示了 SCO (110)pc(上)和 SCO (001)pc(下)的两种不同 OVC 取向,其中氧四面体层用粉色箭头标注。插图为相应的结构模型。
a.u. 表示任意单位

为研究器件的开关机制,我们对比了SCO (001)pc和SCO (110)pc TPT-RAM的开关特性。图 2A 展示了两种SCO器件的典型成形过程以及后续连续的I-V扫描曲线。图 2B 显示了从30个器件测得的成形电压的统计分布,用以关联氧离子的迁移。SCO (001)pc器件的成形电压(5.04 ± 0.07 V)明显高于SCO (110)pc器件(3.98 ± 0.05 V),同时SCO (110)pc器件表现出了显著的均匀性提升。 图 2C 显示了TPT-RAM器件在500次开关循环中电导率的均匀性(在0.2 V读出电压下测得)。附图S3(A和B)显示,SCO (110)pc TPT-RAM的循环间变异系数(σ/μ)非常低:设定电压的变异系数仅为1.8%,复位电压为0.9%,而高阻态(HRS)和低阻态(LRS)的变异(variation)系数分别为2.25%和13.74%。这种循环间均匀性归因于各向异性SCO晶体结构中高度各向异性的离子迁移路径。此外,附图S3(C和D)显示了优异的可再现性,器件间差异(variation)小(低至4.9%)且批次间均匀性良好,这主要得益于高质量的外延SCO薄膜。

此外,我们开发了一种脉冲测试方案来评估这两种不同SCO器件的工作速度(附图S4)。测试从相似的低电导状态(($G_ = 40 \mu S)$)开始,随后连续施加一系列固定幅值(0.8至4 V)但脉冲宽度不同(100 ns至10 ms)的脉冲。每次操作脉冲后读取器件导电值,直至其达到目标导电值($G_{target}$(80和160 $\mu S$),对应的导电开关比($n = G_{target} / G_{initial}$ = 2和4)。之后,将器件复位为初始低导电状态,并改变脉冲幅值以再次编程。 通过将器件从初始状态编程到目标状态的脉冲宽度累加,我们可以估算达到目标状态所需的脉冲操作条件。这种测试方法可以避免不同初始电阻状态的影响,并测试尽可能多的脉冲条件。图 2D 的结果表明,与SCO (001)pc相比,SCO (110)pc的电导率变化更为容易,其操作电压更低(最低至0.8 V),速度更快(最快达到100 ns,受限于测量设备),而SCO (001)pc的相应值约为2.0 V和10 µs。

为更好地理解TPT-RAM器件的电学特性,我们建立了一种协同建模方法来研究其潜在的开关机制(图2E和2F及附图S5至S8)。首先,利用密度泛函理论(DFT)计算在原子级上评估了SCO中不同方向的氧离子迁移势垒(附图S5)【22】。图2E 显示了氧离子在氧四面体层内的两种不同迁移路径。以两个相邻位置分别作为初始状态和最终状态,沿氧空位通道(OVCs)的迁移势垒估算为0.56 eV。相比之下,垂直于OVCs方向的最低迁移势垒为0.97 eV,其中X位置的氧离子迁移到Y位置,同时Y位置的另一个氧离子跃迁至Z位置。此外,图2F 显示了氧离子通过氧八面体层从一个四面体层迁移到另一个四面体层的势垒为1.84 eV,此过程中涉及三个氧离子。附图S6中的计算值表明,氧离子更倾向于沿OVCs方向迁移。

图 2. 可调 OVC 对 TPT-RAM 开关特性的影响
(A) 典型的直流形成过程及 100 次连续扫描的 I-V 曲线。
(B) 从每种 SCO 取向的 32 个不同器件中提取的形成电压的统计分析。
(C) 以 0.2 V 读电压进行 500 次 I-V 扫描后器件电导的累计概率分布图。
(D) 从相同初始电导值 $ G_{initial}$ 编程至目标电导值$ G_{target}$所需的脉冲操作条件,其中开关比定义为 $ n = G_{\text{target}} / G_{\text{initial}} $

(E) 在 SCO 中氧四面体层内的氧迁移路径,以及 (F) 跨越氧四面体层的氧迁移路径

此外,我们进行了动力学蒙特卡罗(KMC)模拟,以捕捉电阻切换的完整物理过程(附图S7)【37-39】。在SCO (110)pc器件中,OVCs与顶部电极(TE)和底部电极(BE)电场方向一致,为氧离子提供了优先迁移路径,因此BM(褐钙钛矿)到PV(钙钛矿)相变更容易发生,并形成多个导电细丝。相比之下,SCO (001)pc器件中的氧离子受垂直于OVCs的电场驱动,沿电场方向迁移的概率较低,导致不利的随机相变(附图S8和视频S1)。因此,SCO (110)pc器件更容易形成导电细丝,表现出更高的速度和更低的工作电压(如图2D所示)。这与SCO (110)pc器件观察到的较小写入电压变异系数($\sigma/\mu = 0.9\%$),附图S3)一致。结果表明,导电细丝的形成依赖于SCO (110)pc中沿OVCs方向的定向氧离子迁移。 此外,与传统的基于无定形氧化物的RRAM器件相比,SCO (110)pc的原子级空间均匀性显著提高,后者因随机氧空位(Vo)的生成和迁移会引入更大的开关变化【38】。附图S9A表明,SCO (110)pc低阻态(LRS)对器件面积的依赖性较弱,这表明其切换机制为细丝型,这与KMC模拟结果一致。在细丝形成后,局部电场在细丝顶端增强,导致器件区域内形成局部化的细丝。相反,SCO (001)pc的器件电导率与面积的明确依赖性(附图S9B)表明,其相变不像SCO (110)pc那样局限于小区域【18】。

2.2 TPT-RAM的模拟开关特性

基于上述结果,我们利用基于SCO (110)pc的TPT-RAM进一步研究了其用于神经形态计算的高性能模拟切换特性。测试了该器件的长时程增强(LTP)和长时程抑制(LTD)特性,使用了相同的设置脉冲和复位脉冲(图3A)。每个循环包含50个设置脉冲和50个复位脉冲,脉冲宽度为1 μs,随后是0.2 V、1 μs的读取脉冲。结果表明,TPT-RAM的模拟切换可以通过相同的低电压脉冲(1 V)实现,同时表现出几乎理想的线性切换,非线性因子分别为($\nu $= 0.20)(LTP)和($\nu$ = 1.29)(LTD)(附图S10A)。这两个值远低于典型细丝型RRAM的非线性因子【9】。此外,图3B中显示的逐周期脉冲编程测试表明,该器件在使用相同幅度脉冲和逐渐增加幅度脉冲的情况下均表现出可重复的模拟切换特性。测试表明,后者的编程方案可实现更好的线性度(附图S10)和更高的开关比【40】。

TPT-RAM的可逆相变在不破坏母晶体结构的情况下实现,这使其具有优异的保持特性和耐久性。图3C 显示,该器件在85°C下具有超过3000秒的长时间保持性能。此外,根据温度依赖性测量提取的活化能,可预测器件在室温下的保持时间超过10年(附图S11)【41】。SCO (110)pc中定向氧空位通道(OVCs)的存在,使得该器件可以通过更低的迁移势垒轻松编程,同时由于更高的扩散势垒,具备优异的保持特性(附图S12)。图3D 显示,该器件在超过$10^8$个脉冲下表现出可靠的多级切换,具有不同的电阻切换窗口。 这些结果表明,基于SCO (110)pc薄膜开发的TPT-RAM可以作为一种高性能的突触器件(与其他器件的比较见附图S1和表S1)。

图 3. 基于 SCO (110)pc 的 TPT-RAM 在类脑计算中的模拟开关特性
(A) 相同设置和复位脉冲下的长时程增强 (LTP) 和长时程抑制 (LTD)。写入脉冲列由 50 个设置脉冲(幅值分别为 1、1.5 和 2 V,宽度为 1 微秒)组成,随后是 50 个复位脉冲(幅值分别为 −1、−1.5 和 −2 V,宽度为 1 微秒)。每个写入脉冲后,通过读脉冲(幅值为 0.2 V,宽度为 1 微秒)测量器件电导。
(B) 多次循环下的可重复且均匀的模拟开关行为:在相同脉冲下,幅值为 1 V,宽度为 1 微秒(上图);以及脉冲幅值从 1 V 增加至 2.89 V,宽度为 100 纳秒(下图)。
(C) 在 85°C 下对五个电导等级进行 3000 秒的保持测试。
(D) 不同阻变开关窗口的器件耐久性测试(固定的高电阻态 HRS 和变化的低电阻态 LRS)。在每个循环中,使用幅值为 1.8 至 3.2 V、宽度为 1 微秒的脉冲将器件编程至期望的 HRS 和 LRS,并在 0.2 V 读电压下记录。无论在何种情况下,器件都在 108 次循环后保持稳定,展示了出色的可靠性

上述非易失性模拟切换特性是在器件经历成型过程后测得的,而在成型之前,器件表现为扩散性忆阻特性【42】。图4A 示意了器件在不同脉冲条件下的工作机制。起初,由于BM相的绝缘特性,器件表现出高电阻(>1 MΩ)。当施加低于成型电压的弱激励(例如,2 V,见图4C)时,氧离子从SRO层被提取到SRO/SCO界面,降低了器件电阻。然而,这种激励不足以支持SCO完成稳定的相变,因为稳定相变需要足够多的氧离子【27, 43】。一旦移除电压偏置,界面处的化学势差会驱动氧离子回流至SRO层,导致器件逐渐恢复至初始的高阻态(HRS)。在写入脉冲前后,施加了0.2 V的读取脉冲记录器件的电导状态。器件首先被编程至相对低电阻态,但随后在约1秒内自发恢复至初始状态(图4C)。因此,在弱激励条件下,TPT-RAM表现为扩散性忆阻器行为。此外,附图S13中的耐久性测试显示,在扩散模式下器件可以承受超过1500次循环操作。

相对而言,在强激励下(例如,约4 V的直流成型电压,见图3A),大量氧离子被驱入SCO,触发稳定相变。此后,小的正电压可以吸引更多氧离子迁移,诱导SCO从BM相向PV相的稳定相变(图3A),从而增加器件电导(设置过程)。当施加负电压时,氧离子被驱回SRO,发生反向相变,降低器件电导(复位过程)。因此,在这种非易失模式下,器件表现出相对较低的电阻和优异的保持性能(85°C下超过3000秒)。两种不同模式下的电气测试结果分别展示在图4C图4D 中。 为进一步研究成型过程,我们使用不同数量的相同脉冲(Vpulse = 3 V,脉冲宽度=10 ms)对器件进行了测试(图4B)。结果表明,器件可以从扩散模式转变为非易失模式。起始于相同的初始电导状态,10和50个脉冲可以引发增量电导变化,但在脉冲操作后逐渐衰减,表明器件工作在扩散模式。然而,当连续脉冲的数量增加至100时,观察到突发的电导变化,使TPT-RAM进入非易失模式。这些结果表明,器件既可以通过单一高电压成型,也可以通过足够多的小电压重复脉冲成型。 此外,使用50个3 V、10 ms的设置脉冲进行的循环测试(图4E)显示出良好的均匀性(变异率降至$\sigma/\mu = 1.35\%$))和模拟切换特性(TPT-RAM的非线性因子低至1.8,见附图S14)即使在扩散模式下也是如此。

图 4. TPT-RAM 突触的扩散性非易失性双模式
(A) 记忆电阻开关机制示意图。在初始状态下,弱激励无法引起稳定的相变,器件表现为扩散性记忆电阻器。经过强激励后,足够数量的氧离子跨越 SRO/SCO 界面迁移,从而形成导电丝,并使器件表现出非易失性特性。
(B) 脉冲形成过程。少量(≤50)脉冲只能诱导扩散性开关行为,但更多的脉冲(≥100)则能够电形成器件并将其转变为非易失性记忆电阻器。
(C) 强激励前(形成)脉冲测试显示在弱脉冲下的扩散性特征。PN,脉冲数;PW,脉冲宽度。
(D) 强激励后(形成)脉冲测试显示非易失性记忆电阻特性,脉冲条件与(C)相同。
(E) 在扩散模式下的多周期脉冲测试也展示了良好的周期间均匀性(低变异性,$\sigma/\mu = 1.35\%$)和模拟开关特性

2.3 进行神经网络剪枝

此外,我们想特别强调,图4 所揭示的TPT-RAM忆阻突触的独特扩散性-非易失性双模式特性,可以实现对神经生物学功能的更好模拟,不仅限于突触权重的表示【12】。在过去的十年里,关于通过新型忆阻器件模拟生物突触行为的研究得到了广泛关注,例如突触可塑性、短期记忆和长期记忆【42, 44】。然而,这些研究主要集中于器件层面的生物模拟,对于许多重要的网络层面属性的模拟(例如在人脑发育过程中起关键作用的神经网络剪枝【45】),目前的探索仍然不足【2】。这导致了生物神经网络与人工神经网络之间仍存在巨大的差距。因此,未来需要更系统地优化结构设计与符合生物学特性的硬件性能【2】。 此外,在资源受限的应用场景中(如便携式电子设备和物联网),高功耗和缺乏实时处理能力严重限制了深度神经网络的部署。神经网络剪枝被认为是降低网络复杂性和避免过拟合的有效途径【46】。然而,这通常会导致网络连接的不规则性,可能需要额外的努力来表示稀疏位置,从而增加硬件开销和计算成本【47】。因此,基于忆阻突触的神经网络剪枝技术尚未实现。

在本研究中,我们利用开发的TPT-RAM实现了结合深度学习算法的神经网络自动剪枝过程【46】。这种自动剪枝过程受到人脑中突触发育过程的启发(图5A)。在人脑中,突触连接数量在幼儿时期达到最大值,随后活跃的突触被选择性稳定,而很少使用的冗余突触逐渐被消除。这种自然的突触剪枝过程对于优化神经网络并提高网络效率至关重要。 在研究中,一个TPT-RAM差分对(即2个TPT-RAM器件构成)被用于表示一个突触权重。初始时,所有突触器件都工作在扩散模式。在训练过程中,频繁更新的器件会经历电成型并最终进入非易失态(代表稳定的突触连接),而其他器件则自然衰减至关闭状态。通过这种方式,神经网络可以强化重要的突触权重连接,同时去除其他无关的连接,最终在训练后形成一个稀疏网络。 图5B和5C 中的仿真结果展示了基于TPT-RAM的训练与使用常规非易失性突触的基线进行比较,在多层感知器(MLP)和卷积神经网络(CNN)中的应用表现。仿真中考虑了从实验中提取的器件循环变化特性。结果表明,利用扩散性-非易失性双模式特性的训练过程,剪枝网络的突触数量减少高达84.2%,同时在功耗方面节省高达63%,并通过避免过拟合将MNIST识别任务的准确率提高到约99%。这些由TPT-RAM带来的计算优势在训练更大规模的自动剪枝神经网络时可能更为显著。

图 5.类生物的神经网络修剪实现
(A) 基于 SCO 的 TPT-RAM 突触的在线训练类似于人脑中突触发展的选择性稳定化。首先,神经网络中的所有突触设备都处于扩散模式。在训练过程中,如果某个突触设备被频繁更新且电导达到某一阈值,则它会被电形成非易失性模式(这意味着突触连接已稳定)。否则,设备的电导会自发地衰减回几乎为零,连接则被修剪。 (B) 在修剪后的神经网络中(蓝色和红色曲线),通过避免过拟合,识别误差率得到了降低。对于MNIST的识别,最高准确率约为 99%。
(C) 训练后的模拟突触权重分布。对于 MLP 和 CNN,修剪率分别为 73.8% 和 84.2%。此外,修剪后的 MLP 和 CNN 网络的突触功耗分别降低了 38% 和 63%

3. 讨论

综上所述,我们展示了基于SCO拓扑相变的TPT-RAM作为一种新型忆阻突触。独特的沿高度有序氧空位链(OVCs)进行的氧迁移使其具有以下优异特性:循环间变异性仅约为0.9%,器件间变异性约为4.9%,低操作电压(0.8 V),以及小于100 ns的快速切换速度。密度泛函理论(DFT)计算和动力学蒙特卡洛(KMC)模拟进一步证实了其电阻切换机制与实验测得的电学特性一致性。这些结果突出了控制离子迁移路径在提高RRAM均一性方面的重要性,为未来神经形态器件的优化提供了指导。 为与硅晶体管集成以构建基于TPT-RAM的功能性突触阵列,可采用远程外延和牺牲层辅助薄膜转移等新技术【48, 49】。此外,基于SCO的突触展现出独特的弥散性-非易失性双模式特性,被用于模拟人脑中发育中的突触,并在在线训练中实现神经网络剪枝,减少多达82.5%的冗余突触,同时将MNIST识别精度提升至99%。本研究为设计和探索高性能神经形态计算的类生物模拟忆阻突触指明了新的方向。

4. 材料和方法

4.1 SCO 薄膜的生长和表征

35 nm厚的SCO薄膜和17 nm厚的SRO薄膜通过反射式高能电子衍射辅助脉冲激光沉积(PLD)系统沉积在STO (001)和STO (110)基板上。优化的生长条件为:温度750°C,氧气环境压力100 mtorr。激光波长为248 nm(KrF激光器),能量密度为1.2 J/cm²,重复频率为2 Hz。薄膜生长完成后,样品在100 mtorr氧气环境中以7°C/min的冷却速率冷却至室温。薄膜厚度通过生长时间控制,其晶体结构通过X射线衍射(XRD)和倒易空间映射(RSM)表征。SCO薄膜的原子结构则使用ARM 200CF型透射电子显微镜(JEOL,日本东京)进行表征。

4.2 器件制造与测试

通过原子层沉积(ALD)方法形成了20 nm厚的Al₂O₃隔离介电层,并开设了尺寸范围为4 × 4到100 × 100 μm²的接触孔,定义了器件的活性区域面积。在接触孔顶部使用磁控溅射法沉积了厚度为100 nm的Au电极,其尺寸为100 × 100 μm²。器件的电学性能测试使用了半导体参数分析仪(Agilent B1500)、脉冲发生器(Agilent 81110A)和开关矩阵(Keithley 707)进行。

4.3 神经网络模拟

一个 784 × 100 × 10 的多层感知机(MLP)和一个典型的卷积神经网络(CNN)LeNet-5 (50) 被用来验证神经网络剪枝的效果。在这项工作中,模拟了 LeNet-5,该网络由三个卷积层、两个池化层、一个全连接层和一个径向基函数(RBF)层组成。输入数据为 32 × 32 像素的图像。第一个卷积层(C1)经过一个 1 × 5 × 5 × 6 的卷积核计算后,输出尺寸为 28 × 28 × 6。结果通过一个池化层(S2)进行 2 × 2 平均池化,滑动步长为 2,并经过一个 sigmoid 函数处理。第二个卷积层(C3)使用一个 6 × 5 × 5 × 16 的卷积核处理后,输出尺寸为 10 × 10 × 6。接着,通过类似于 C1 和 S2 的方式形成另一个池化层(S4)。第三个卷积层(C5)经过一个 16 × 5 × 5 × 120 的卷积核处理后,输出尺寸为 1 × 1 × 120。然后,这些输出被输入到具有 84 个神经元和 tanh 激活函数的全连接层(F6)。最后,输出层由每个类别对应的 10 个欧几里得 RBF 单元组成。

在网络模拟中,一个由两个基于 SCO (110)pc 的 TPT-RAM 器件组成的差分对被用来表示一个突触权重。神经网络使用标准反向传播和随机梯度下降算法进行训练,批量大小为 200,学习率为 0.01。MLP 训练了 10 个周期,CNN 训练了 20 个周期。起初,所有突触器件都处于扩散模式,并使用图 4B 中测得的曲线进行模拟。这些器件在成型之前显示了约 100 个电导水平,并通过 3 V/10 ms(间隔 10 ms)的写入脉冲进行编程。 为了模拟人类的学习过程,在训练过程中引入了一系列休息阶段。对于 MLP,休息阶段每个周期出现一次;对于 CNN,每两周期出现一次。在休息阶段,没有学习任务,频繁更新的突触会通过电成型最终变为非易失性状态(代表稳定的突触连接),而其他仍处于扩散模式的无关突触连接会自动衰减(见图 S13),实现剪枝功能。剪枝后剩余的稳定突触连接使用 1 V/1 μs(间隔 1 μs)的脉冲(见图 3B)进行神经网络训练。读电压为 0.2 V,权重归一化到 (-1, 1) 范围内。模拟中包括从实验数据中提取的周期间变化(cycle-to-cycle variation)以及服从高斯分布的噪声模型。 在每个休息阶段之后,在测试数据集上测量网络的分类精度。剪枝率计算为零权重突触的比例,具体来说,是权重小于 1 × 10⁻⁶ 的突触数量除以突触总数。网络的突触功耗通过公式 $P_{synapse} = (V_)^2 \times G_{\text{synapse}}$) 估算得到。