【纯机翻】大数据时代的科学作为职业:大数据背后的科学哲学和人类在科学中的持续作用 | SpringerLink,被引用次数:35
常规文章 您对此拥有完全访问权限 开放获取 出版日期:(2018 年)7月05日 第 52 卷,第 508–522 页,综合心理与行为科学
亨里克·斯考格·塞特拉
摘要
我们现在生活在大数据时代,根据其支持者的说法,大数据有望改变我们所知道的科学。有人声称没有理论和意识形态,并且假设大数据的结果是可信的,因为它被认为不受人类判断的影响,而人类判断通常被认为与人为错误有着千丝万缕的联系。这两种说法导致了这样一种观点,即大数据是通过更客观、更多的数据和更好的分析来获得更好的科学知识的来源。在本文中,我分析了大数据背后的科学哲学,并声称许多传统科学和人类科学家的死亡被夸大了。大数据科学的哲学意味着大数据在某些方面做得非常好,而有些事情则做不到。我认为,仍然需要人类来调解和创造理论,并提供科学作为规范性社会企业所需的合法性和价值观。
介绍
在这个世界里,大量的数据和应用数学取代了所有其他可能产生的工具。从语言学到社会学,每一种人类行为理论。忘记分类学、本体论和心理学。谁知道人们为什么要做他们所做的事情?关键是他们做到了,我们可以以前所未有的保真度跟踪和测量它。有了足够的数据,数字就不言自明了(Anderson 2008)。
许多人说我们现在生活在大数据时代(Boyd and Crawford 2012;Chen 等人,2012 年;Sivarajah 等人,2016 年)。大数据是一种现象,它围绕着积累大量数据并使用它来理解我们从中收集数据的对象。结合机器学习和人工智能技术,可以说,现在很多知识都是由科学家制造的工具自主产生的,而不是由科学家自己直接产生的。随着大数据的普及,它已经从商业和计算机科学领域蔓延到整个社会以及几乎所有其他科学领域。大数据时代的最高成就是大数据本身成为某种形式的主科学,取代其他形式的科学并彻底改变人类科学家的角色吗?
大数据的支持者经常提出没有理论和意识形态的双重主张。除此之外,还有一种假设是,大数据的结果是可信的,因为它被认为不受人类判断的影响,而人为判断通常被认为与人为错误有着千丝万缕的联系。这两种说法导致了这样一种观点,即大数据是更好的科学知识的来源,特别是在客观性方面。我认为,大数据在某些形式的客观性方面更好,特别是机械和透视版本,但这是有代价的(Daston 1992)。我表明,就科学哲学而言,大数据与行为主义有一定的相似之处,这意味着大数据可以用于某些事情,而其他事情则不能帮助我们。因此,我的主要论点是,人类在科学中仍将发挥作用,无论是在调解和创造理论方面,还是在提供科学作为规范性社会企业所需的合法性和价值观方面。
大数据的出现及其背后的科学哲学
大数据是一个术语,可能只是指大量数据,在这种情况下,它不会特别有用。人类收集数据已经有很长一段时间了,并且越来越熟练地收集越来越多的数据(Marr 2015)。我选择使用这个术语来描述这个术语的今天用法,根据Marr(2015)的大数据简史,该术语始于本文开头引用的Anderson(2008)的文章。然而,大数据的兴起与以前的科学定量工作之间存在着重要的相似之处,这些相似之处将在相关的情况下进行评论。我依赖于Laney(2001)对大数据的既定定义,该定义由三个V组成:数量,速度和多样性(Laney 2001)。数量是指收集的大量数据,数据生成和分析速度的速度,以及数据中“结构异质性”的多样性(Gandomi 和 Haider 2014,第 137 页)。大数据已成为一种跨学科现象,我们现在拥有的数据量意味着对数据分析和数据处理都有新的要求(Bello-Orgaz 等人,2016 年,第 45 页;博伊德和克劳福德 2012 年,第 662 页)。
为了确定大数据在科学中可以和不能发挥什么作用,有必要研究其基本的科学哲学。在使用大数据时,会做出哪些假设——隐式和显式?此外,这些假设对使用大数据产生知识的可能性有什么影响?我将首先研究一些理论中立和对行为的关注的主张。然后,我将简要地看一下计算机作为科学家的可能性,然后是一些与大数据的中立性、意识形态和研究议程相关的批评性评论。本节最后简要总结了大数据的哲学。
后理论与行为主义
Brooks(2013)指出,“大数据理论是没有理论的,至少是关于人性的。你只是收集大量信息,观察模式并估计人们未来如何行动的概率“(Brooks 2013)。这种说法意味着大数据将成为某种主科学,使传统学科过时,经典科学的理论活动成为过去。这句话似乎暗示,大数据通过其积累和发现我们人类思维无法发现的模式的逻辑,使哲学和心理学等学科过时了。就好像某些理论,例如那些长期指导社会科学的人性理论,只是为了代替收集足够数据并对其进行适当分析的可能性而做出的努力。
大数据背后的意识形态在许多方面与心理学中行为主义者的方法相似。根据这种方法,有意识思维的“黑匣子”要么被认为没什么兴趣,要么被简单地假设它不能用于科学目的,因此被忽略。Koestler(1967)是行为主义出现的一个有趣的批评者。他欣然承认,行为主义可以解释很多事情,但显然还有很多事情无法用这种方法来捕捉。他提到“科学发现和艺术独创性”就是这样一个领域,我在讨论人类科学家角色的部分中回到了这一点(Koestler 1967,第 13 页)。
人们认为他们想要什么,以及他们认为自己是什么样子,都没什么兴趣。我们收集的数据让我们比他们更了解个人,那么为什么要为主观感知而烦恼呢?心理学可能仍然是一门解释人们内心深处发生的事情以及他们如何体验世界的科学,但为了理解他们会做什么,当我们拥有大数据时,不再需要动机、偏好和行动的理论。如果这种对人类和社会客观科学的追求准确地描绘了大数据的兴起,那么伯特在行为主义兴起时提出的以下几句话似乎在今天仍然具有现实意义:
结果,正如愤世嫉俗的旁观者可能会说的那样,心理学首先讨价还价了它的灵魂,然后失去了它的思想,现在似乎,当它面临不合时宜的终结时,已经失去了所有的意识(Burt 1962,第229页)。
这有点类似于揭示偏好的经济理论。在这里,我们仅从行为中推断偏好。个体被观察,“个体豚鼠,通过他的市场行为,揭示了他的偏好模式——如果有这样一个一致的模式”(萨缪尔森 1948 年,第 243 页)。通过询问人们他们想要什么,我们是在浪费时间,因为a)没有必要,因为我们有数据来预测它,b)因为人们可能并不真正了解自己或他们行为的基础。这类似于 Sayer(2010 年,第 22 页)所称的激进行为主义,其“支持者坚持认为,人们赋予他们的行为和其他物体的意义在决定他们做什么方面没有任何作用”。大数据如何与自由和身份形成的概念相关联也是非常重要的问题,但我在本文中不会讨论这些问题。對於這些主題感興趣的讀者,我建議閱讀Cohen(2013)和Yeung(2017)。
计算机科学家,如:做科学的计算机
在引言中,我提到有些人认为大数据是计算机在没有人类参与的情况下进行科学研究。当然,我们已经建立了用于收集和分析数据的计算机和工具,但这些工具现在在某种程度上在没有我们的监督的情况下发挥作用。我们所说的计算机“智能”与早期的计算相比已经发生了翻天覆地的变化。人类程序员以前对计算机进行了详细的说明,详细说明了可能出现的情况(“如果”子句),并告诉计算机正确的反应是什么(“那么”指令)。机器学习的新之处在于,我们没有给出如何对给定情况做出反应的详细说明,而是给计算机提供某些目标和数据集。然后,我们让计算机盲目地工作,让它筛选所有材料,以找到有趣的模式。出于纯粹的分析目的,模式和相关性本身很有趣。除了发现模式外,我们还采用人工智能来处理这些信息并调整其控制下的各种变量,以便以最佳方式达到给定的目标。这种方法让计算机在国际象棋和围棋等游戏中击败人类,以远远超出我们掌握的动作窃取头条新闻并让专业人士和业余爱好者敬畏(Campbell 等人,2002 年;乔尔德 2016;谷歌 2018;库兹韦尔 2015 年,第 148 页)。
理论上是盲目的,人性被认为对好的科学来说既不必要,又是障碍;大数据分析师“不像小说家、牧师、心理学家......提出直观的叙述来解释事情发生的原因的因果链“(Brooks 2013)。通过大数据获得洞察力既不需要“先验知识,也不需要解释学的敏感性”,人类只不过是“数据保管人和策展人”(Baruh 和 Popescu 2017,第 583 页)。因此,这是一个“没有远见的知识”的时代,“没有创新者的创新,清除了普通人类努力的草率、偏见和不完整”(Cohen 2013,第 2921 页)。科恩指出,具有讽刺意味的是,虽然我们如此重视创新,但我们同时也在“寻求一种完全超越个人代理的创新方式”(Cohen 2013,1922)。Chen等人(2012)讨论了大数据将影响各个领域的各种方式,在科学和技术方面,他们将“科技创新”和“知识发现”列为大数据的两种应用,大数据应用的影响将是科学的进步(Chen等人,2012年,第1173页)。然而,作者更关注大数据如何让科学家更有效地分析更多数据,而不是大数据改变科学。
当人类只不过是“数据保管人和策展人”时,很容易想象一个科学家的教育包括教授不同学科的学生编程、数据分析和高级统计学的未来。对于希望有吸引力的学生,建议很明确:学习处理和分析数据,学习“数据库、机器学习、计量经济学、统计学、可视化等”(Chen 等人,2012 年,第 1165-6 页)。最成功的后起之秀“不再为安然、雷曼兄弟或美国国际集团工作;现在他们为 Goole 或 Target 或 Acxiom 工作,追求比他们自己更了解客户的圣杯“(Cohen 2013,第 1923 页)。然而,对统计学及其潜力的迷恋并不新鲜。1897 年,小奥利弗·温德尔·霍尔门 (Oliver Wendell Holmen Jr.) 表示,“未来的人是统计学的人”(Cohen 2013,第 1928 页)。一些人还指出,大数据与以往的科学定量运动之间存在相似之处。其中之一是大约 45 年前地理学的定量革命,这导致了许多与大数据兴起相关的讨论(Barnes 2013)。这些数量转变的一个中心点是,当理论创造不再是人类的生意时,我们的角色就仅限于制造科学系统并让它们发挥作用。我将回到显而易见的观点,即选择在哪里以及如何使用这些系统仍然是大数据的一个非常人性化的方面。
意识形态和研究议程
根据Cohen(2013)的说法,大数据有三个基本问题。首先,研究议程往往是隐藏的,“观察家们已经开始指出,由于数据集和方法的披露不足,出现了'可信度危机'”(Cohen 2013,第1924页)。这与Gandomi和Haider(2014)的观点有关,即大数据绕过了学术分析。大数据的大部分工作都是由大公司完成的,这些公司不在学术渠道上发表文章,也不遵守透明和披露的学术标准。企业采用各种方法实现自己的目标而不披露这些目标当然不是什么新鲜现象。然而,大数据已经变得如此强大,而且其中大部分由公司控制,这一事实使其成为一个更紧迫的问题——尤其是与权力动态、个人自由和自我形成有关的问题(Cohen 2013)。与这个问题相关的一个问题是,基于大数据的机器学习有时会失败。由于大数据分析的复杂性,人类很难理解机器学习的结果。这是很自然的,因为这些计算机系统在许多领域都超过了人类的能力。对大数据分析有时如何以及为什么失败的彻底研究超出了本文的范围,但一些例子表明了这个问题的重要性。首先,大数据通过“用其新颖的方法逃避当前的隐私保护”(Crawford and Schultz 2014),“边缘化了监管模式”。作者指出,这是一个问题,因为今天大数据配置文件的预测性使用在许多重要方面影响了人们的生活和机会,但这些配置文件可能存在严重问题(Crawford and Schultz 2014)。它们可能只是不准确,在这种情况下,效果各不相同且难以评估,但它们也可能在几个方面具有歧视性。首先,纯粹基于历史数据的分析将包含许多历史歧视做法的痕迹,这些痕迹无法通过简单地去除性别和种族等变量来纠正。此外,公司可以通过为他们被禁止选择的变量寻找代理来积极规避反歧视政策(Crawford 和 Schultz 2014,第 100 页)。即使你从数据集中删除性别,也有无数种方法可以通过查看大量其他变量和可用数据来识别女性,从而掩盖歧视性做法。Hirsch(2014)是关于大数据如何导致有意和无意的歧视行为的更多信息的另一个很好的来源。
其次,大数据中存在一种内在的潜在意识形态,因为它“是一种理性模式的最终表达,这种模式将信息等同于真相,将更多信息等同于更多真相,并且否认了仅仅设计用于识别'模式'的信息处理可能被系统地注入特定意识形态的可能性”(Cohen 2013, 第1924页)。大数据不是,也不可能是中立的,预测理性的概念是这一现象的基础。预测理性最常用于管理文献中,有时用作理性选择理论的同义词(Flowers 等人,2017 年)。根据Sarasvathy(2001年)的说法,它涉及a)目标,b)目标的替代手段或原因,c)对手段的约束,以及d)在手段之间进行选择的标准(Sarasvathy 2001年,第249页)。然而,问题在于它所支持的意识形态和价值观是隐藏的,并且经常被假装消失(Cohen 2013,第 1925 页)。这个论点有几个方面:首先,我们有一个事实,即人类构建了解释大数据的系统,他们参与了这些系统的调整,它们的应用位置,最后解释了它们的工作原理。这种人类的参与有时是隐蔽的,或者是假装的,但很难说在任何(或所有)这些阶段都不能引入任何意识形态。第二部分,也是至关重要的部分,是Anderson(2008)的观点,即“只要有足够的数据,数字就不言自明”,这就是Barnes(2013年,第300页)所说的“复仇的数据决定论”。数据可以被认为是中立的观点受到许多人的攻击,但在这种情况下,它足以将Sayer(2010)对这一立场的重要批评联系起来。他指出,“人们越来越认识到理论会影响观察本身,因此后者被称为'充满理论'”(Sayer 2010,第 46 页)。巴恩斯(2013 年,第 300 页)很好地总结了塞耶对不加批判地使用量化和观察的批评的要点,因为“数字从来都不是无辜的,不言自明,但总是以先验的理论化为标志:它们充满理论”,并且“只来自由权力、政治议程和既得利益动员的特定社会机构、安排和组织”。仅基于经验和观察的知识“然后至少变得非常模糊”(Sayer 2010,第 46 页)。最后,我们有一个事实,即大数据作为一门纯粹的描述性科学,“本质上是保守的”(Barnes 2013)。作为一门描述性科学,大数据必须假设未来将与过去相似,或者至少过去的趋势将在未来以类似的方式发展。当我的预测、建议和理解完全基于过去的数据时,这必然会导致保持现状。虽然这本身并不是一件坏事,但必须理解它,有些人会想要“不仅仅是描述世界,即简单地符合数据,而是改变了世界,以及随之而来的数字本身”(Barnes 2013,第 300 页)。
第三个问题是,大数据导致了一个社会,在这个社会中,主观性是“为强大的经济行为者的自利议程服务的”(Cohen 2013,第1925页)。这是一个非常重要的问题,但在本论文中无法更详细地研究这个问题。主观性本身会受到影响,当“大数据技术使个人对其偏好做出预测性判断,而调制过程也塑造并产生这些偏好”时,问题就出现了(Cohen 2013,第 1925 页)。简而言之:几乎没有透明度和控制力,有一种经常被忽视的潜在意识形态,所采用的技术对个人和社会产生了真正的影响。
Baruh 和 Popescu (2017) 提到了 Cohen (2013) 和她的建议,即“大数据的意识形态影响是否认意识形态和偏见的存在”(Baruh 和 Popescu 2017,第 583 页)。Boyd 和 Crawford (2012) 写了一篇文章,对大数据提出了 6 个挑战,而前两个挑战是大数据“改变了知识的定义”,并且其“客观性具有误导性”(Boyd and Crawford 2012,第 662 页)。
当大数据的支持者认为他们的方法是中立的,并且已经超越了客观科学的传统障碍时,这只能被视为缺乏对科学和方法如何运作的理解。用科恩(2013)的话来说,“否认意识形态本身就是一种意识形态立场”(科恩2013年,第1924页)。
实用的哲学和方法论选择(或必需品)
现在是时候总结上述一些内容,并将大数据与科学和方法论中使用的一些核心概念联系起来。就科学哲学而言,大数据无疑可以被描述为一种实证主义的方案。实证主义在教科书中是关于研究方法的教科书,其特点是现象主义、演绎主义、归纳主义、客观性和科学,是一种积极/描述性的努力,而不是规范性的努力(Bryman 2008,第 13 页)。我将回到归纳主义的观点,并且只会指出,提到演绎和归纳的原因来自这样一个事实,即我们确实从我们收集的数据中创建了理论,并且我们也收集了我们所做的数据,因为我们在某种程度上受到理论的指导(Bryman 2008,第 13 页)。
它显然是经验主义的,因为唯一公认的知识来源是可观察的事实,由理性和逻辑调解。可观察的事实是我们以各种方式收集的数据,而机器学习和人工智能则用于提供从数据中创建知识所需的推理和逻辑。与此相关的是大数据的聚合逻辑,这与科恩将这种方法描述为“将信息等同于真相,将更多信息等同于更多真相”(Cohen 2013,第 1924 页)。通过大数据和机器学习,更多的信息既加强了由此产生的理论,又通过改进的学习机会提高了我们计算机的能力。然而,如果观察是充满理论的,那么很难接受一种认为它是真理基础而不需要调解的立场(Sayer 2010)。
因此,关于相关性和因果关系的理论可以通过智能计算机形成,这些计算机能够发现模式并分析变量是如何连接的,以及哪些变量会导致其他变量的变化。在这个过程中不需要人类活动,因为当我们为机器提供统计学知识以及以数据集形式提供的经验时,人类所需的部分已经发挥出来,并且能够通过这些数据集在没有我们帮助的情况下学习。因此,大数据是一项归纳科学事业,收集和处理它以找到模式并建立关于依赖关系和因果关系的理论。然而,如果我们看一下大数据科学,其中计算机参与解释发现并理解计算机提出的许多可能的假设,我们的科学类似于“一种推理,它从检查数据开始,在仔细检查这些数据后,对观察到的数据进行所有可能的解释, 然后形成假设来确认或不确认,直到研究人员对观察到的数据做出最合理的解释“(Charmaz 2006,第 186 页)。这是Charmaz(2006)对演绎科学的定义,Kitchin(2014,第5页)指出,大数据科学是相当务实的,并且对“演绎,归纳和演绎方法的混合组合”持开放态度,以促进对现象的理解。
大数据的本质肯定是定量的,“大数据的意识形态将定量数据的算法分析自然化为真理的首要表达”(Baruh 和 Popescu 2017,第 583 页)。大数据的支持者可能会争辩说,你也可以通过大数据的方法分析文本、音乐和照片等定性材料,但这意味着缺乏对计算机如何实际分析材料的理解。是的,如果由人类社会科学家采用解释学或其他类似方法进行解释,上述形式的数据可以被认为是定性的,但这不是计算机所做的。当计算机接收到一张图片时,它被转换为代码——0 和 1。这就是它所分析的。在处理全文时,它还采用计数单词、比较结构等定性方法,而不是解释方法。此外,如前所述,大多数数据都是由人类编码的,本身不能被认为是客观或中立的(Sayer 2010)。有些人可能会争辩说,人类的认知涉及以类似的方式解码所有印象,我们只是相信我们感知到整体和真正的定性材料。格式塔心理学在这方面是一个有趣的理论方向,我假设人类确实认为整体“不同于其各部分的总和”(Rock and Palmer 1990)。
我还认为,大数据主要关注行为,而不是认知。我的观点基于这样一个事实,即虽然人们肯定可以在调查中使用大数据,询问人们的评价或主观体验,但目标主要不是了解人们内心的想法,而是了解这些答案如何转化为行为。我们可能会明白,对市政当局的护理水平不满意与搬迁的愿望有关,但大数据无法帮助我们解释这种相关性的过程。
缺乏对过程的理解并不意味着大数据没有与过程理论相结合来指导行为。一个典型的例子是公司如何使用来自社交媒体的个人数据,并将其与动机和行动的心理学理论相结合,以影响投票行为等。 剑桥分析公司在2018年涉及Facebook的丑闻中就是一个例子(Greenfield 2018)。这种应用大数据的方法依赖于类似于Sunstein和Thaler(2003)的助推理论的方法。
所有这些结合在一起形成了一幅图景,其中大部分传统的社会科学方法论不适合,而自然科学方法论、数学、计量经济学等则非常适合。客观性似乎是遵循大数据方法的科学风格的主要论据之一。我们可以谈论本体论的、机械的和透视的客观性,最后两个在这里可能特别有趣(Daston 1992)。透视客观性涉及“消除个人(或偶尔是群体,如民族风格或拟人化)特质”,而机械客观性“是关于压制人类普遍的判断和审美化倾向”(Daston 1992,第599页)。当我们把人类科学家从等式中剔除时,人类的倾向和人类的观点都被克服了,对吧?有人可能会争辩说,两者都内置于我们的计算机、我们的分析方法和数据本身中,但就我们目前的目的而言,我们将满足于说大数据的支持者声称在这些客观性层面上取得了高分。
我预计有些人会争辩说,我现在正在将一个相对幼稚的现象硬塞进一个相对幼稚的现象,充满了变化,理论上不是很发达,被硬塞进了陈旧的和不合适的类别。这种反对意见很难被驳回,因为肯定有很多人以与我刚才描述的方式不一致的方式使用大数据。这在一定程度上是因为许多基于大数据的研究似乎相当务实。Gandomi 和 Haider (2014) 讨论了这种现象,以及大数据在哲学上不发达的事实。大数据的迅速崛起导致研究人员“跳到书籍和其他电子媒体上,以便立即和广泛地传播他们的工作”,而不是在常规的学术渠道中开发这种方法(Gandomi 和 Haider 2014,第 137 页)。尽管大数据应用的哲学方法有些折衷主义,但我坚持我的论点,即这些是最能描述大数据努力的基本哲学假设。有关大数据哲学的更详细讨论,请参阅Melanie Swan专门针对该主题的文章(Swan 2015)。
人类科学家的角色
在研究了大数据的科学哲学之后,现在是人类仍然在未来科学中发挥作用的时候了。在第一部分中,我引用了古典科学哲学家的一些论点,这些论点共同构成了一种印象,即科学是一种艺术形式——不仅仅是技术性的,而且需要激情和创造力。我知道,如果走得太远,这种推理就有可能使科学变得神秘。虽然把它放在计算机无法触及的地方,但有些人会说我只是用一个更大的问题代替了一个问题。我并不是说科学是一门神秘的艺术,永远超出了计算机的范围,但我确实认为,科学需要某些形式的创造力和偶然的人类聪明才智,而这些目前是计算机所不具备的。然后,我在本节的最后一部分讲述了一些关于科学客观性和规范性的想法。
作为艺术家的科学家
对于迈克尔·波兰尼(Michael Polanyi)来说,科学发现“揭示了新知识”,但随之而来的愿景对他来说不是知识;“[i]t 比知识少,因为它是一种猜测;但它不仅仅是知识,因为它是对未知事物的预知,目前也许是不可想象的“(Polanyi 1962,第135页)。更进一步,他声称任何“不受智力激情指导的探究过程将不可避免地蔓延到琐碎的沙漠中”(Polanyi 1962,第135页)。
智力激情是核心,因为它们可以“唤起对特定发现的暗示,并维持他们的不懈追求”(Polanyi 1962,第 151 页)。他称之为科学激情的“启发式功能”,即对科学的欣赏融入了“发现科学的能力;即使艺术家的感性融入了他的创造力“(Polanyi 1962,第 151 页)。他说,有一种“创造性的科学家”忙于“试图猜对”,这项工作之所以具有创造性,既是因为发现新知识的过程,也是因为它不可逆转地改变了我们的社会(Polanyi 1962,第151页)。当发现新事物时,需要新的解释框架,因为旧的解释框架不再帮助我们理解我们现在所知道的。因此,以发现的形式出现的科学是创造性的,因为“它不是通过勤奋地执行任何先前已知和可指定的程序来实现的”(Polanyi 1962,第 151 页)。
卡尔·波普尔(Karl Popper)在某种程度上以类似的方式将科学家与艺术家进行了比较(波普尔1989)。他的主要观点之一是真正的艺术家和科学家追求创造性工作的方式(就应用而言)有点无私——“无论是普朗克还是爱因斯坦,卢瑟福还是玻尔,都没有想到原子理论的可能应用”(波普尔 1989 年,第 38 页)。他们“为了寻找而寻找”,对科学的追求源于“诗歌和宗教神话”,与仅仅收集事实以寻找新的应用关系不大(波普尔 1989 年,第 39 页)。对于波普尔来说,科学的目的是寻求真理,而让我们到达那里的过程是一个艺术的过程(波普尔 1989 年,第 40 页)。他没有说仅靠信息就能把我们带到那里。波普尔描绘的图景与筛选大量数据的机器可以取代人类科学家的想法相当不相符。除非我们赋予计算机创造力和有目的的行动的天赋,否则就是这样。在本文中,我将假设计算机尚未以这种方式实现自主。这当然是一个非常有趣的话题,如果计算机到达那里,它肯定会对人类在科学方面的需求产生影响。
如今,在青年圈子里,有一种普遍的观念,认为科学已经成为一个计算问题,在实验室或统计文件中制造,就像“在工厂里”一样,计算只涉及冷静,而不是一个人的“心灵和灵魂”(韦伯 1958 年,第 113 页)
韦伯在他的《科学作为一种职业》中讨论了某些学科向计算和统计学的转变,并强调指出,某人的头脑中必须存在一些想法,才能使计算努力有价值,并且“这种直觉不能被强迫”(韦伯 1958 年,第 113 页)。仅靠计算和信息并不能让我们走得太远。这些想法都是善变的,不可能心甘情愿地产生,我们再一次被带入了相当神秘的领域,直觉和灵感使科学更类似于艺术,而不是纯粹的技术过程。韦伯指出,“灵感在科学中的作用不亚于它在艺术领域中的作用”,虽然画家和科学家的过程可能有些不同,但“心理过程并没有什么不同。两者都是狂热(在柏拉图的'狂热'的意义上)和'灵感'“(韦伯 1958 年,第 113 页)。
如果科学是一门艺术,那么,也许人工智能还不能完全取代人类科学家。根据 Boden 的说法,“[c]reativity 是人类智能的基本特征,也是 AI 不可避免的挑战”(Boden 1998,第 347 页)。她写道,创造力有三种类型,因为它要么包括 a) 以未知的方式组合已知概念,b) 探索现有结构星座的调整,要么 c) 改变已知结构存在的空间(Boden 1998,第 348 页)。尽管许多哲学家声称,人类的创造力不会产生真正新的想法,但我们最好不要得出结论,这意味着机器具有同样的创造力潜力。比方说,创造力的组合模式是我们感兴趣的。计算机可能会为现有概念和现象创造大量新的可能星座,但创新的真正任务是确定哪些有潜力,哪些没有。在这里,我们回到人类受过教育的直觉。对于具有Polanyi所描述的智力热情的科学家来说,一些新的星座将脱颖而出,并被认为是非常有趣的。科学家甚至可能不明白为什么他会有这种感觉,但从教育中获得的有价值信息的直观识别是科学,很难编程到计算机中。Boden讨论了为计算机提供正确评估它提出的新想法所需的工具的问题:
确定我们在评估中使用的标准已经够难的了。证明,甚至(因果地)解释我们对这些标准的依赖更加困难。例如,我们为什么喜欢或不喜欢某事,往往与动机和情感因素有很大关系——这些因素现在的艾尔几乎无话可说(Boden 1998,第 347 页)。
Boden (1998) 写道,人工智能既能发现新的想法,又能让我们相信它的价值,这将是“人工智能的最终证明”,但最后指出“我们离那还有很长的路要走”(Boden 1998,第 355 页)。在最近的一篇文章中,Lake等人(2017)讨论了基于“深度神经网络”的新人工智能系统如何受到人类生物学的启发。尽管取得了进展,但“这些系统在关键方面与人类智能不同”,作者特别提出了人工智能系统,“构建支持解释和理解的世界因果模型,而不仅仅是解决模式识别问题”(Lake et al. 2017)。正如我们所看到的,计算机工程师面临的问题之一是,一些“人类的认知能力仍然难以通过计算来理解,包括创造力、常识和通用能力”(Lake 等人,2017 年,第 3 页)。他们指出,“[c]reativity通常被认为是人类智能的巅峰之作”,并且“我们距离开发能够处理这些类型任务的人工智能系统还很遥远”,尽管作者希望取得一些进展(Lake 等人,2017 年,第 24 页)。
即使我们希望赋予计算机判断(从而创造)真正受启发的艺术作品的可能性,也必须对计算机科学家提出最后的反对意见:科学在某种程度上是一项社会和民主的努力,受制于有关社会的规范性评估。我们所重视和渴望的东西会随着时间的推移和文化而改变。科学在社会发展和反映社会价值观方面的作用怎么估计都不为过,我倾向于认为,科学的这一方面意味着必须有人类参与科学工作,才能使其被视为合法和有价值。
我们已经看到,Brooks(2013)将大数据分析师描述为“不像小说家,牧师,心理学家......提出直观的叙述来解释事情发生的原因的因果链“(Brooks 2013)。如果是这样的话,大数据分析师也许正在做一些超越科学的事情,正如波兰尼、波普尔和韦伯所讨论的那样?
客观的科学家和科学作为规范性的努力
Cohen(2013)提出了大数据的一些问题。首先,一个人做出的方法论选择对一个人能得到什么样的答案有重要的影响。其次,也许也是最重要的一点,没有一种方法是中立的。大数据技术“本身无法决定要调查哪些问题,无法指导我们如何将数据流和模式置于更大的概念或规范角度,也无法告诉我们是否以及何时限制数据处理以服务于其他价值”(Cohen 2013,第 1922 页)。人类仍然参与构建、调整、评估、应用和解释大数据中使用的计算机系统的结果,这使得关于人类过时的说法似乎为时过早。Cohen (2013) 认为,大数据永远无法“取代人类驱动的建模或先前关于方向和范围的决定,这些决定为特定调查计划设定了实质性和道德参数”(Cohen 2013,第 1923 页)。虽然它不能取代它,但它肯定可以取代它(Cohen 2013,第 1926 页)。预测理性可能对重要的社会价值观构成威胁,因为它可以“排挤其他类型的激励因素——利他主义、同理心等——这些激励因素可能会刺激不同方向的创新,甚至可以取代替代的”人类繁荣议程“(Cohen 2013,第 1926-7 页)。正如我们所看到的,大数据的描述性特征意味着基于它的预测和研究倾向于保护现状(Barnes 2013,第 300 页)。
科恩的所有观点都把我们带回到了我的观点,即科学既是一项社会事业,也是一项民主事业。默顿(1973)写道,科学与社会联系的各种方式,并且它依赖于“特定类型的社会结构”(默顿,1973年,第267页)。科学家是“社会的一个组成部分”,具有随之而来的义务和利益,科学不是一个“在社会中但不属于社会的自我验证事业”(Merton 1973,第 267-8 页)。在这种情况下,他描述了科学的精神,其中包含“被认为对科学人具有约束力的价值观和规范”——通过“规定、禁令、偏好和许可”颁布的规范(默顿 1973 年,第 268-9 页)。虽然有人可能会争辩说这种精神是技术性的,并且可能在自主计算机中实现,但默顿指出,这些是道德习俗,由于被认为是“正确和善良”而具有约束力的(默顿 1973 年,第 270 页)。到目前为止,据我所知,很少有人愿意将具有完全意义上道德的计算机视为道德,而不仅仅是道德是按照既定规则的行为。
当我称科学为一项民主事业时,我更关心的是科学的方面,它涉及通过科学活动影响自己社会的力量,或者对这种活动的批判。我并不是说科学是民主制度的一种现象,默顿(1973年,第269页)也提出了这一点。然而,我认为,赋予科学合法性的部分原因是默顿的科学的四个“制度要求”中固有的民主品质:普遍主义、共产主义、无私和有组织的怀疑主义(默顿 1973 年,第 270 页)。
科恩提出的另一个观点是,大数据带来了一些与研究伦理相关的挑战。这是因为私人商业实体负责收集和分析我们所理解的大部分大数据,并且这“代表了人类受试者研究事实上的私有化,没有传统上所需的程序和道德保障”(Cohen 2013,第 1925 页)。这显然是当今大数据使用方式的一个大问题,但它不是大数据的一个组成部分。大数据和我在本文中讨论的基本哲学也可以遵循研究伦理的常规标准,包括默顿(1973,第273页)所讨论的社区主义。
结论
在这篇论文中,我们已经看到某些形式的科学正在被大数据殖民。这也是有充分理由的,当涉及到一些科学时。我并不是说大数据在科学中没有地位,而只是说除了大数据和计算机作为科学家的出现之外,还有空间。
有些人可能会声称,一些依赖于定量方法和自然科学方法的科学非常适合基于大数据的科学。在这里,他们使用量化、尽可能多的信息和先进的统计方法,所以他们可能会说,使用计算机会更好。更进一步,真正客观性的最后一个障碍,即人类,甚至可能被计算机所取代。我已经表明,虽然第一种说法很可能是真的,但我们离能够接受第三种说法还很遥远。
此外,如果我们看一下不受聚合逻辑支配的学科,计算机的贡献就更少了。我将大数据科学与行为主义(甚至是激进的行为主义)进行了比较,主要观点是,虽然这种方法对某些目的有好处,但有些事情是它做不到的。虽然大数据分析师可能会解释行为和其他易于观察和编码的现象,但我们中的一些人仍然会对导致行为的内部过程感兴趣。我们不是从数据中得到的,而是从处理人类动机、认知、哲学和道德等现象的软科学中得到的。这意味着我们仍然需要不符合大数据和实证主义理想的科学。当我们需要解释而不是统计分析时,人类会做计算机做不到的事情。当真正的定性现象要作为一个整体进行分析时,计算机必须辞职。当我的思想,而不是我的行为,是解释的目标时,我必须求助于人类,当需要过程和因果解释时,我需要的不仅仅是可观察的行为和事实——这是计算机唯一接受的东西。
人类科学家仍然是必要的,原因有两个。首先,正如波兰尼、韦伯和波普尔所描述的那样,科学在许多方面与艺术相似。到目前为止,计算机几乎可以执行所有可以想象到的行为,但是在发展理论和指导其应用的过程中所涉及的创造力,直觉和本能仍然是计算机无法企及的。如果我们要避免波兰尼所说的“琐碎的沙漠”,我们需要人类的智力激情。我们有充分的理由将我们的新计算机工具应用于科学问题,但我们也有充分的理由拒绝这样的说法:理论已经死了,科学现在是中立的,除了创建和运行计算机程序之外,不再需要人类担任其他角色。
第二个原因是,如果没有人类的参与,科学努力的方式、内容和原因还是不可能的,特别是如果我们要保持合法性和对科学的民主基础的尊重,作为社会公共利益的一部分。其中一个方面是,当一些人假装人类不参与大数据科学时,他们只是掩盖了一些人和组织在数据系统的创建、应用和解释以及由此产生的科学方面的影响。科学当然不是由大众控制或政治指导的,但它肯定是与整个社会共生的。科学不仅仅是一项技术练习。这也是一项道德事业,要求它由道德存在来指导和控制。就目前而言,这意味着人类在所有科学的未来中仍然发挥着至关重要的作用。
引用
· 安德森,C.(2008 年)。理论的终结:数据泛滥使科学方法过时。连线杂志,16(7),16-07。
· 巴恩斯,TJ(2013 年)。大数据,小历史。人文地理对话,3(3),297-302。
· Baruh,L.和Popescu,M.(2017)。大数据分析和隐私自我管理的局限性。新媒体与社会,19(4),579-596。
· Bello-Orgaz,G.,Jung,JJ和Camacho,D.(2016)。社会大数据:近期取得的成就和新的挑战。信息融合,28,45-59。
· 马萨诸塞州博登(1998 年)。创造力和人工智能。人工智能, 103(1–2), 347–356.
· 博伊德,D.和克劳福德,K.(2012)。大数据的关键问题:对文化、技术和学术现象的挑衅。信息,通信与社会,15(5),662-679。
· Brooks D (2013) 接下来你要做什么。《纽约时报》。取自http://www.nyti/龘/mes.com/2013/04/16/opinion/brooks-what-you'll-do-next.html
· 布莱曼,A.(2008 年)。社会研究方法。牛津:牛津大学出版社。
· 伯特,C.(1962 年)。意识的概念。英国心理学杂志,53(3),229-242。
· Campbell,M.,Hoane Jr., AJ, & Hsu, FH (2002)。深蓝色。人工智能, 134(1–2), 57–83.
· 查马兹,K.(2006 年)。构建扎根理论:通过定性分析的实用指南。伦敦:鼠尾草。
· Chen, H.,Chiang, R. H., & Storey, V. C. (2012)。商业智能和分析:从大数据到大影响。MIS 季刊,1165-1188 年。
· Chouard,T.(2016 年)。围棋文件:人工智能计算机以 4-1 战胜人类冠军。自然新闻。
· 科恩,JE(2013 年)。隐私是干什么用的。《哈佛法律评论》,126(7),1904-1933。
· 克劳福德,K.和舒尔茨,J.(2014)。大数据和正当程序:建立一个框架来纠正预测性隐私危害。BCL修订版,55,93。
· 达斯顿,L.(1992 年)。客观性和对视角的逃避。科学社会研究,22(4),597-618。
· Flowers,S.,Meyer,M.和Kuusisto,J.(2017)。抓住创新机会空间:利用新的创新形式创造商业模式。爱德华·埃尔加出版社。
· Gandomi,A.和Haider,M.(2014)。超越炒作:大数据概念、方法和分析。国际信息管理杂志,35(2),137-144。
· 谷歌。(2018). 解决智能问题.用它来让世界变得更美好。取自 https://deepmind.com/about/
· 格林菲尔德,P.(2018年3月26日)。Cambridge Analytica文件:到目前为止的故事。《卫报》。取自 https://www.theguardian.com/news/2018/mar/26/the-cambridge-analytica-files-the-story-so-far
· 赫希,DD(2014 年)。这是不公平的——或者说是:大数据、歧视和联邦贸易委员会的不公平权威。Ky. LJ, 103, 345.
· 基钦,R.(2014 年)。大数据、新认识论和范式转变。大数据与社会,1(1),2053951714528481。
· Koestler,A.(1967 年)。机器中的幽灵。纽约:麦克米伦公司。
· 库兹韦尔,R.(2015 年)。超级智能和奇点。在 S. Schneider (Ed.) 中,科幻小说和哲学:从时间旅行到超级智能(第146-170 页)。奇切斯特:威利-布莱克威尔。
· Lake,BM,Ullman,TD,Tenenbaum,JB和Gershman,SJ(2017)。构建像人一样学习和思考的机器。行为与脑科学,40。
· 莱尼,D.(2001 年)。3D 数据管理:控制数据量、速度和多样性。META集团研究笔记,6(70)。
· 马尔,B.(2015 年)。每个人都应该阅读的大数据简史。在世界经济论坛博客中。取自 https://www.weforum.org/agenda/2015/02/a-brief-history-of-big-data-everyone-should-read/
· 默顿,RK(1973 年)。科学社会学:理论和实证研究。芝加哥:芝加哥大学出版社。
· 波兰尼,M.(1962 年)。个人知识:走向后批判哲学。伦敦:劳特利奇。
· 波普尔,K.(1989 年)。在科学和艺术中进行创造性的自我批评。第欧根尼,37(145),36-45。
· Rock,I.和Palmer,S.(1990)。格式塔心理学的遗产。《科学美国人》,263(6),84-91。
· 宾夕法尼亚州萨缪尔森(1948 年)。消费理论在揭示偏好方面。经济学,15(60),243-253。
· Sarasvathy,S.D.(2001年)。因果关系和影响:从经济必然性到创业偶然性的理论转变。管理学院评论,26(2),243-263。
· Sayer,A.(2010 年)。社会科学方法:现实主义方法。伦敦:劳特利奇。
· Sivarajah,U.,Kamal,MM,Irani,Z.和Weerakkody,V.(2016)。对大数据挑战和分析方法的批判性分析。商业研究杂志,70,263-286。
· Sunstein,CR和Thaler,RH(2003)。自由意志主义的家长式作风并不矛盾。《芝加哥大学法律评论》,第1159-1202页。
· Swan, M.(2015 年 3 月)。大数据哲学:通过大数据科学服务扩展人与数据的关系。在大数据计算服务与应用(BigDataService)中,2015年IEEE第一届国际会议(第468-477页)。IEEE的。
· 韦伯,M.(1958 年)。科学是一种职业。代达罗斯,87(1),111-134。
· 杨,K.(2017 年)。“超轻推”:大数据作为一种设计调节模式。信息,通信与社会,20(1),118-136。
作者信息
作者和单位
1. 商业、语言和社会科学学院,东福尔德大学学院,雷门,1757 年,挪威哈尔登亨里克·斯考格·塞特拉
通讯作者
与Henrik Skaug Sætra的通信。
道德宣言
伦理认可
本文不包含任何作者对人类参与者或动物进行的任何研究。
权利和权限
开放获取本文根据知识共享署名 4.0 国际许可协议 (http://creativecommons.org/licenses/by/4.0/) 的条款进行分发,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是您适当注明原作者和来源,提供知识共享许可的链接,并注明是否进行了更改。