学问凝思(六):数据处理中的分解谬误

大众观感中分解谬误似乎只有在量子世界中才能被抓住,或者是在分组不平衡时以辛普森悖论的面目出现,然而现实中还有一种更加普遍更加本质但被忽视的方式肆虐人间:无定义处。
在一众计量文献中我们总是能看到那些简洁优雅的计量模型,其数据模式随着理论腾挪转移似乎毫无阻滞,但没有人会告诉你那些计量模型背后数据预处理中所凝结的人类的偏见与傲慢。分析能够奏效的前提正在于数据也要处于理论模型可定义的范畴,因此数据并不具有无限分解的可行性,数值算法逼近理论能够奏效的甜点区相当之窄,理论学者必须要克制自身无限分解的冲动,必须将数据分组恰好至于可定义范畴内处理,这样才能得到较为可靠的结论。经典物理理论之所以无法在微观世界无法推广,恰恰在于理论机制在量子尺度呈现出不可分性质,或者处于经典物理理论无定义处罢了。
经济学一个很小的例子能够解释这种“定义局限”导致的分解谬误,一个国家几乎在全产业分类中很难在某个行业某个年度被剃光头,分解到省份也许也足可以一战,但如果分解到市或者镇子,那么异常值就很容易出现,如果算增长率遇到今年为0明年不为0,那么这种增长率将是无意义的,0做分母让常规“增长率定义”失去了构成模式的可能性。因此我们处理数据时除了要避免辛普森悖论慎重分组,同时也要规避这类数据导致的无定义慎重分解,毕竟,再好的异常值处理都比不上没有异常值的数据处理。然而学者们往往会为了某种计量模型的完备和简洁,强行在一个统一框架下实施这类无定义分解,这不啻是另一种无奈。
当初在业界时,为稻粱谋,我做了太多这类异常值处理,做了很多无效分解,至今想来,也许现在我这么警惕和抵触无效的计量模型大约也不奇怪了。
Frederick 20210929