找到与未知函数数据匹配的符号表达式。尽管此问题从原理上讲可能是NP难题,但实际感兴趣的功能通常表现出对称性,可分离性,组成性和其他简化特性。本着这种精神,我们开发了一种递归的多维符号回归算法,该算法将神经网络拟合与一整套物理启发技术相结合。
我们将其应用于费曼物理学讲座中的100个方程,并发现了所有方程,而以前的公开软件仅破解了71个;对于更困难的基于物理的测试集,我们将最新的成功率从15%提高到90%。1601年,约翰内斯·开普勒(Johannes Kepler)获得了世界上最好的行星轨道数据表,经过4年40次失败的尝试,火星数据适合各种卵形形状,他发现火星的轨道是椭圆形,从而掀起了一场科学革命。 (1)。这是符号回归的一个示例:发现与给定数据集精确匹配的符号表达式。更具体地说,我们得到一个数字表,其行格式为{x1,…,xn,y}其中y=f(x1,…,xn),我们的任务是为未知的神秘函数f找到正确的符号表达式,并可以选择包括噪声的复杂性。
不断增长的数据集激发了自动执行此类回归任务的尝试,并取得了显著成功。对于未知函数f是{x1,…,xn}的已知函数的线性组合的特殊情况,符号回归简化为简单地求解线性方程组。从金融到心理学,科学文献中普遍存在线性回归(其中f只是一个仿射函数)。f是{x1,…,xn中的单项式的线性组合的情况}对应于带有相互作用项的线性回归,并且更广泛地对应于多项式拟合。流行的回归函数还有无数其他示例,它们是已知函数的线性组合,范围从傅立叶展开到小波变换。尽管在特殊情况下取得了这些成功,但一般的符号回归问题仍未解决,原因不言而喻:如果将函数编码为符号字符串,则此类字符串的数量会随字符串长度呈指数增长,因此,如果我们简单地测试所有通过增加长度来增加字符串,直到我们找到所需的功能,它可能需要比宇宙的寿命更长的时间。
这个巨大的搜索空间组合挑战体现了许多著名的问题类别,从密码破解和Rubik立方体到自然选择问题,即发现产生最进化适合的生物体的遗传密码的自然选择问题。这促使遗传算法(2,3为在呈指数大空间,这代替目标搜索)上述通过突变,选择,继承和重组的生物学启发的策略强力搜索;粗略地说,基因的作用是由有用的符号字符串发挥作用的,这些符号字符串可能会成为抢手的公式或程序的一部分。这种算法已被成功地应用于领域从天线设计(4,5)和车辆(6)到无线路由(7),车辆路由(8),机器人导航(9),代码破解(10),发现偏微分方程(11),投资策略(12),市场营销(13),分类(14),魔方(15),程序合成(16)和代谢网络(17)。