Optics Express更新|混合监督和强化学习方法用于纳米光子的逆向设计-凡亿课堂

导言

纳米光子器件（如metasurfaces和metagratings）可在亚波长尺度上对光的传播进行控制。然而，由于必须探索材料和几何形状的巨大非线性设计空间，这些结构的设计和优化面临巨大挑战。传统的逆向设计方法，包括进化算法和基于邻接的优化，已经得到了成功应用，但往往存在局部最小值陷阱和计算效率低下等问题。

近年来，深度学习已成为纳米光子电路和组件逆向设计的强大框架。深度学习方法大致可分为三大类：监督学习（SL）、无监督学习（USL）和强化学习（RL）。每一类方法都有其优缺点，因此使用单一方法实现最佳性能具有挑战性。

在本文中我们介绍三月份在Optic Express的文章” Hybrid supervised and reinforcement learning for the design and optimization of nanophotonic structures”，探索混合策略将监督学习和强化学习结合起来，用于纳米光子结构的逆向设计。这种方法充分利用了强化学习和增强学习的优势，同时克服了各自的局限性，从而提高了设计性能，减少了训练数据需求，缩短了优化时间 [1]。

用于纳米光子逆向设计的监督学习

监督学习（SL）涉及使用标记数据训练神经网络或相关模型。在纳米光子逆向设计中，神经网络的输入通常是所需光学行为的图像或表示（如电场剖面），输出则是相应的器件参数（如metagratings的几何尺寸）。

一旦经过训练，SL 模型就能比传统的逆向设计方法更快地得出解决方案，因为该模型捕捉到了输入和输出之间的高维非线性函数近似值。然而，SL 有两大局限性：

1.需要大量训练数据：SL 模型需要大量的训练数据集才能实现高性能，而这些数据集的生成可能不切实际或耗费时间，尤其是在已经找到接近最优解的情况下。

2.泛化限制：SL 模型难以解决与训练数据集明显不同的问题，从而限制了其探索新颖设计或行为的能力。

图 1 展示了 SL 模型在元评级反向设计方面的局限性。尽管在 5000 个示例的数据集上进行了训练，但 SL 模型仍无法准确再现训练数据中不存在的目标电场剖面。

图 1 描述了使用深度学习方法组合进行透射式metagratings反向设计的过程。(a) 显示了设计透射光的挑战，入射光（1.5 μm）穿过二氧化硅上的硅条，以达到特定的电场目标（ETarget）。(b) 概述了一种深度学习框架，该框架将监督学习与卷积神经网络相结合，以预测初始metagratings设计，并通过强化学习来完善这些设计，从而提高性能。

纳米光子逆向设计的强化学习

强化学习（RL）采用不同的方法，通过与环境的试错互动来训练 "代理"。代理学会执行能使奖励函数最大化的行动，奖励函数可量化所需的行为或性能指标。

RL 为纳米光子逆向设计提供了几个优势：

1.不需要训练数据：RL 不需要标注训练数据，因此可以在没有先验信息的情况下探索新颖的设计。

2.增强性能：与传统优化算法和邻接优化增强生成网络相比，RL 的设计性能更佳。

3.迁移学习：与 SL 一样，经过训练的 RL 模型可以重复使用，并通过迁移学习应用于类似的设计问题。

然而，RL 有一个主要缺点：训练时间长。由于 RL 的探索性质，根据设计问题的复杂程度，优化可能需要几天甚至几个月的时间。

图 2 展示了 RL（特别是近似策略优化算法）在元评级反向设计中的应用。虽然 RL 最终可以收敛到所需的设计，但训练时间过长，每个目标电场剖面大约需要一周时间。

监督学习与强化学习相结合

为了解决单个 SL 和 RL 方法的局限性，可以采用混合策略，充分利用两种技术的优势。其主要思路是将 SL 作为初始步骤来捕捉高级特征和近似解决方案，然后应用 RL 来完善设计并探索 SL 训练数据之外的内容。

工作流程如下：

1.在相对较小的纳米光子设计及其相应光学响应数据集上训练 SL 模型（例如卷积神经网络）。

2.使用 SL 模型为所需的目标光学行为生成近似的初始设计。

3.将 SL 预测的设计作为 RL 算法的起点，迭代修改设计参数，以提高输出与目标光学响应之间的匹配度。

这种混合方法有以下几个优点：

降低训练数据要求：利用相对较小的数据集建立初始 SL 模型，可减少对大量训练数据的需求。
提高泛化能力：RL 可以在 SL 训练数据之外进行探索，从而扩展整个方法的泛化能力。
缩短优化时间：通过为 RL 算法提供一个来自 SL 模型的良好起点，RL 算法收敛到最佳解决方案所需的时间大大缩短。

图 3 展示了 SL RL 组合方法与 SL 或 RL 单独方法相比的优越性能。SL RL 设计在再现目标电场剖面（包括双准直光束等复杂模式）方面表现出更高的精度和更好的收敛性。

定量比较和分析

为了定量比较不同方法的性能，使用结构相似性指数（SSIM）来衡量生成的电场剖面与目标电场剖面之间的相似性。SSIM 值越低，表示性能越好，相似度越高。

图 4 显示了纯 SL、纯 RL、SL PSO（粒子群优化）和 SL RL 设计的 SSIM 值。与纯 SL 设计相比，SL RL 方法的方差（标准偏差小于 1%）显著降低，性能（SSIM 值降低）提高了 65%，优于其他方法。此外，在相同集数或训练周期内，SL RL 比纯 RL 设计的方差小 10 倍以上，性能高 30% 以上。

补充信息中的图 S2 进一步说明了 SL RL 混合方法所节省的训练时间。据估计，仅靠 RL 需要大约 30 天才能达到 SL RL 的峰值性能，而 SL RL 只需要 7 天，这意味着训练时间和效率提高了 4 倍 [1]。

局限性和未来方向

虽然 SL RL 混合策略具有显著的优势，但也应考虑到一些潜在的局限性和未来的研究方向：

1.复杂设计的可扩展性：虽然混合方法与单独的 RL 相比缩短了训练时间，但对于高度复杂的 3D 纳米光子设计或大型设计空间而言，冗长的优化时间可能仍然令人望而却步。

2.改进参数化和动作定义：为处理更复杂的设计，可将先进的参数化策略（如水平集或拓扑优化方法）和可同时调整多个设计参数的动作定义与 RL 相集成。

3.硬件加速和并行化：利用硬件加速（如 GPU）和并行化电磁求解器或环境评估可显著加快优化过程。

4.奖励函数工程：对奖励函数公式和工程技术的进一步探索可加快收敛速度，提高设计性能。

5.与其他深度学习技术相结合：将 SL 和 RL 与生成式对抗网络或自我监督学习等其他深度学习方法相结合，可以释放新的设计能力，并进一步增强整体方法。

结论

本文介绍的监督和强化学习混合策略为纳米光子结构的逆向设计提供了强大而实用的解决方案。通过结合 SL 和 RL 的优势，该方法解决了每种单独技术的局限性，从而提高了设计性能、减少了训练数据要求并缩短了优化时间。

定量结果和分析表明，混合方法优于 SL、RL 或单独的传统优化方法。SL RL 设计在再现复杂目标电场剖面方面表现出更高的精度、更低的方差和更好的收敛性，同时与纯 RL 优化相比，大大节省了训练时间。

随着纳米光子器件的不断进步和在各种新兴技术中的应用，开发高效、有效的反向设计方法变得越来越重要。本文介绍的 SL RL 混合策略代表了在这一方向上迈出的重要一步，激励着进一步研究和开发用于光子设计和优化的多类机器学习算法。

参考文献

[1]C. Yeung, B. Pham, Z. Zhang, K. T. Fountaine, and A. P. Raman, "Hybrid supervised and reinforcement learning for the design and optimization of nanophotonic structures," Optics Express, vol. 32, no. 6, pp. 9920, Mar. 11, 2024. [Online]. Available: https://doi.org/10.1364/OE.512159

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关于我们：

深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

登录后查看更多