导读:什么样的模型是好的模型?相信这是每一个数据分析师和大数据AI算法工程师都曾经默默思考过的问题。
为了更全面地思考这个问题,我们不妨从以下三方面进行讨论。
如何理解“模型”? 如何理解“好”? 有万能的模型么?
01如何理解“模型”?
“模型”的英文model,究其拉丁词源,是从modus这个词演化而来。而modus这个词在拉丁文中的含义基本可以用“测量”“标准”来概括。在汉语字典中,“模型”这个词可以分成两个字来理解:“模”是指规范、标准,“型”是样式的意思。将两种语言环境下的含义进行统一,“模型”就是“参照一定规范与标准而形成的样式”。
为理解“模型”这个概念,有两点内容是需要着重理解的。
A. “模型”参照一定的规范与标准,但并不一定要完全复制。例如,依照着实体的飞机,可以制作飞机模型。这个“模型”中,规范与标准是真实的飞机,最终形成的样式是一个小型的仿照真实飞机样子制作的模子。这种尽可能仿真无损地复制规范与标准的样式是模型。又如,将一些互联网移动支付行为,以数据关系的形式形成交互行为模型。在这个过程中,规范与标准是真实世界的互联网移动支付行为,最终形成的样式是一个反应交互行为的数据表现形式,即交互行为模型。在这个模型中,表现的真实支付行为可能会不太完整,可能仅仅是一小部分支付行为的数据记录,也有可能是一些经过处理与简化的抽象表达。这种参照规范与标准,进行抽象、简化、抽取或组合等方式形成的样式也是模型。
B. “模型”落地形成的样式,可以是物理实体,也可以是静态的抽象表达,还可以是或静态、或动态的实体与实体间的影响与关系。例如:上面提到的飞机模型就是一个物理实体;如果把用户在某网站上的如ID、年龄、职业等信息以一维表的形式组织,表中每一行记录代表一个用户的基本信息,这里就是对用户的抽象表达而形成的模型;如果以一定的形式(图示、图表、描述等)将家庭成员中的夫妻、父女、母子、母女、父子等关系进行记录,该记录反映的家庭成员间的关系同样是一种模型;“气温升高,冰块就会融化”,这句话表述的气温与冰块间的影响关系(不论是定性还是定量)也是一种模型……
数据科学领域中的“模型”并不脱离“模型”本质的含义,“规范与标准”可以是非常复杂的现实世界,也可以是一个个具体领域中业务的客观存在。但由于将研究内容确定在了数据科学的范围内,最终落地的“样式”多为各种各样的数据表达。当然,这其中包括静态表达,也包括动态表达。
在数据科学的相关领域中(包括数据分析、数据挖掘、人工智能等数据发挥巨大作用的领域),按照“模型”的使用形态,可以被分成以下三个大类:业务模型,数据模型,函数模型。
1. 业务模型的含义
业务模型是将现实世界、复杂事物、具体问题以某种特定方式进行重塑的模型。业务模型中所谓的“规范与标准”无疑是现实世界、复杂事物、具体问题等客观反映。而业务模型的“样式”,是一个抽象的存在,但这个抽象的存在却有着比较形象的表现形式,这个表现形式是多种多样的。
举例来讲,图1是某电商APP的业务逻辑模型图。该图描述的是该电商APP用户下单后的整个业务流程。在这个业务模型中,“规范与标准”是用户从支付到发货再到收货的整个现实环节,“样式”是抽象的,也就是一个非常虚拟的业务流程概念,下面的这张流程图仅仅是该业务模型的一种具体表现形式。可以把该表现形式下的业务模型称作一个完整的业务模型。但读者应该知道,这样的业务模型,实际上是一种抽象的(或产品的、流程的、组织的、逻辑的)存在,这种表现形式并不是业务模型的全部。