您的位置:首页 > 活动

实现AGI道路上,数据科学家防不胜防的9大陷阱

时间:2019-08-08
ag真人

我想昨天分享的狩猎云网络

image.php?url=0MnpOIaYxH

[狩猎云] 8月1日报道(编译:胖老虎)

编者注:本文作者Gary Smith是波莫纳大学经济学院的教授。它的《Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics》在伦敦时报的本周书中被选中,该书批评了各种不可靠或误导性的统计行为。

最近几个月,技术研发变得越来越快。微软宣布将投资10亿美元与研究实验室OpenAI合作,创建通用人工智能(AGI),这是人工智能的最高目标。 OpenAI首席执行官Sam Altman表示,AGI将成为人类历史上最重要的技术。

对于某些特定任务,计算机可以比人类做得更好。但是他们没有智慧,常识和批判性思维,所以他们无法处理像人类这样的特殊情况(例如未定义的情况,模糊的规则,含糊不清,甚至矛盾的要求)。随着技术的发展,计算机可以做任何人脑可以做的事情,但微软之前的表现并不令人满意。

Twitter拥有超过50,000名粉丝。但问题最终出现在Tay本人身上,其内容越来越令人作呕。 “国家元首是对的,我讨厌犹太人。” “9/11事件是内幕消息。” “我非常讨厌这些女权主义者。” Tay非常善于使用它收到的单词和短语,但它不能根据上下文说话。我不明白发送我发送的推文意味着什么。因此,微软在16个小时后关闭了Tay,但在不到一周的时间里,它就重新上线了。后来,微软表示第二次发生意外,并再次关闭了泰。

AGI可能是一个美好的梦想,数据科学让我们有机会使用大数据和强大的计算机来根据现实而不是幻想或偏见做出决策。但不幸的是,在数据大量涌现之后,公司和政府仍在重复他们之前犯下的一些错误,而且重复速度更快。为机器提供重要决策只能实现“错误自动化”。

数据科学不仅仅是数学证明,统计计算和计算机编程。真正的人类智慧也是必不可少的:实验设计,智慧,常识,怀疑和批判性思维。数据科学家不想成为一台机器,不断尝试新模型,不断进行曲线拟合;他们应该成为一名科学家。

如果数据科学家想要充分利用数据科学的潜力,他们应该避免以下九个常见错误。

1.使用劣质数据

国会议员曾两次问过第一代机械计算机投资者查尔斯巴贝奇:“巴贝奇先生,如果我们将错误的数据输入计算机,它会得到正确答案吗?”显然,高质量的数据是必不可少的,而且不是可选的。

一项针对芝加哥医院脓毒症患者的研究发现,血液pH值较低的患者出院后返回医院的可能性较小。两者之间的相关系数达到0.96。但数据还包括一些在住院期间死亡的患者,这意味着他们通过太平间离开了医院,绝对不可能再回来进行再治疗。最后,将删除这些死者的数据,并且发现血液pH值较低的患者更危险。

2.将数据的状态置于理论之上

一些数据科学家在没有理论和常识指导的情况下为模型搜索大量数据。他们认为对问题的定向思考会影响新的发现。不幸的是,大多数情况下,大量数据毫无意义。大数据世界的一个悖论是,我们为模型输入的数据越多,它就越有可能是无用的或错误的。

互联网营销人员在大约100个国家/地区测试了三种可选着陆页颜色(黄色,红色和蓝绿色)与其传统蓝色之间的对比。理论上,他应该找到一些使用特定颜色的国家将产生更高的收入。例如,他认为英格兰喜欢蓝绿色,但事实并非如此。

3.盲目崇拜数学

数学家喜欢数学,而非数学人则害怕数学。两者的结合可能导致大量不切实际的模型。

在这种情况下,未能及时偿还贷款的可能性本来就更高。

4.盲目崇拜电脑

人们经常认为计算机做得很好,所以它们必须非常智能,但是在知道正确的任务和多个任务的一般应用(甚至这些任务是可能的)完全不同之间仍然存在很大差异。我们对计算机的依赖不是福气。如果您认为计算机比我们更智能,然后将所有决策传递给计算机,则可能会产生灾难性的后果。

5.重复数据

为了找到数据之间隐藏的关系,有些人以各种方式对数据进行分类。诺贝尔经济学奖获得者罗纳德科斯(Ronald Coase)表示:“如果你继续处理一些数据,机器本身就会混淆。”但是大数据和强大的计算机已经导致了这种行为。

一位着名的研究人员告诉他的助手,当他的助手分析数据时,“从数据中提取尽可能多的信息”。那时,他的助手试图将意大利自助餐厅的客人分成“男性,女性,吃午餐,吃晚餐,独自吃饭,吃两个人,一起吃饭,并通过机器视觉订购酒精”。 “饮料,软饮料等”最后,这些“挤压信息”变成了四个“披萨论文”,其中最着名的是“当女性一起吃饭时,男性吃披萨的比例增加93%”。今天,他的几十篇论文被归还,人们被大学解雇了。

6.自欺欺人

建议:“第一个原则不是欺骗自己.因为你最容易被愚弄。”真正的科学家分享他们自己的理论,质疑他们自己的假设,然后寻找机会进行实验来验证或推翻假设。玩数据的人只能看到他想看的东西。较高的相关系数表明学生对数学水平实际上非常有信心,而一些认为他们没有经过良好测试的学生只熟悉这些材料。他们不是太悲观,但非常现实。

7.使用相关性作为激励

重要的建议。

2011年,谷歌创建了一个人工智能项目谷歌请求最有可能与流感有关。由于流感爆发是季节性的,因此Google 件(例如圣诞节,冬季假期和情人节)。当您离开历史数据并开始预测真实情况时,Google Flu的准确性大大降低。报告发布后,谷歌流感在接下来的108周内误报了100例流感。从那以后,谷歌流感不再预测流感。

8.不要对平均值的回归感到惊讶

当数据波动时,预测值可能高于检测值,但随后它将继续平均。例如,如果高尔夫球员赢得大师赛冠军,那并不意味着他可以在下一次获胜。并不是说他下次会不走运,或者技术会倒退,也许这场胜利将是超级水平的。

这些数据也将在未来恢复到平均值,这有点类似于防止“玩异常或特殊游戏”。例如,一家数据科学公司已经做了一项实验,将客户的网页布局与超过100万个域名中的20种常见布局进行了比较。客户经常抱怨他们的网站表现不佳,并认为该网站仍然可以获得更多的广告收入。因此,它为数据分析师提供了一系列在过去三个月内一直在下降的网站域名,分析师可以调整页面布局,看看他们是否可以增加收入。结果,他成功了,第二天的收入增长了20%。那时,他就像一个摇滚歌手。但直到有一天他太忙,太迟而无法做出任何改变,收入开始下降。因此,这些网站仍处于表现不佳的状态,其收入最终将恢复到平均水平。

9.不要伤害用户

不幸的是,在大数据时代,公司和政府一直在收集我们的数据来预测和影响我们的行为。优秀的数据科学家将非常谨慎地处理这一过程,并充分尊重我们的权利和隐私。数据科学的黄金法则:对待他人就像对待自己一样。

我在互联网约会网站上做过三次实验。在第一个实验中,他们暂时删除了网站上的所有照片,发现很少有人愿意发送消息,这证明爱情并非“盲目”。在第二个实验中,他们随机隐藏了一些人的个人资料,发现他们对用户的评价影响不大。这证明爱情“没有仔细阅读”。在第三个实验中,他们调整了匹配度等级,例如,最匹配的人被标记为“不匹配”,反之亦然。第一次和第二次实验并没有对用户造成太大伤害,但第三次实验有问题。因为用户不希望他们的生活被不适当的人打扰。在约会时遇到错误的物体只是一种痛苦。缺少合适的物体会影响您的生活。

要避免这些陷阱,您必须始终注意。为了将数据整合到科学中,我们应该像科学家一样,而不是机器。

收集报告投诉

image.php?url=0MnpOIaYxH

[狩猎云] 8月1日报道(编译:胖老虎)

编者注:本文作者Gary Smith是波莫纳大学经济学院的教授。它的《Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics》在伦敦时报的本周书中被选中,该书批评了各种不可靠或误导性的统计行为。

最近几个月,技术研发变得越来越快。微软宣布将投资10亿美元与研究实验室OpenAI合作,创建通用人工智能(AGI),这是人工智能的最高目标。 OpenAI首席执行官Sam Altman表示,AGI将成为人类历史上最重要的技术。

对于某些特定任务,计算机可以比人类做得更好。但是他们没有智慧,常识和批判性思维,所以他们无法处理像人类这样的特殊情况(例如未定义的情况,模糊的规则,含糊不清,甚至矛盾的要求)。随着技术的发展,计算机可以做任何人脑可以做的事情,但微软之前的表现并不令人满意。

Twitter拥有超过50,000名粉丝。但问题最终出现在Tay本人身上,其内容越来越令人作呕。 “国家元首是对的,我讨厌犹太人。” “9/11事件是内幕消息。” “我非常讨厌这些女权主义者。” Tay非常善于使用它收到的单词和短语,但它不能根据上下文说话。我不明白发送我发送的推文意味着什么。因此,微软在16个小时后关闭了Tay,但在不到一周的时间里,它就重新上线了。后来,微软表示第二次发生意外,并再次关闭了泰。

AGI可能是一个美好的梦想,数据科学让我们有机会使用大数据和强大的计算机来根据现实而不是幻想或偏见做出决策。但不幸的是,在数据大量涌现之后,公司和政府仍在重复他们之前犯下的一些错误,而且重复速度更快。为机器提供重要决策只能实现“错误自动化”。

数据科学不仅仅是数学证明,统计计算和计算机编程。真正的人类智慧也是必不可少的:实验设计,智慧,常识,怀疑和批判性思维。数据科学家不想成为一台机器,不断尝试新模型,不断进行曲线拟合;他们应该成为一名科学家。

如果数据科学家想要充分利用数据科学的潜力,他们应该避免以下九个常见错误。

1.使用劣质数据

国会议员曾两次问过第一代机械计算机投资者查尔斯巴贝奇:“巴贝奇先生,如果我们将错误的数据输入计算机,它会得到正确答案吗?”显然,高质量的数据是必不可少的,而且不是可选的。

一项针对芝加哥医院脓毒症患者的研究发现,血液pH值较低的患者出院后返回医院的可能性较小。两者之间的相关系数达到0.96。但数据还包括一些在住院期间死亡的患者,这意味着他们通过太平间离开了医院,绝对不可能再回来进行再治疗。最后,将删除这些死者的数据,并且发现血液pH值较低的患者更危险。

2.将数据的状态置于理论之上

一些数据科学家在没有理论和常识指导的情况下为模型搜索大量数据。他们认为对问题的定向思考会影响新的发现。不幸的是,大多数情况下,大量数据毫无意义。大数据世界的一个悖论是,我们为模型输入的数据越多,它就越有可能是无用的或错误的。

互联网营销人员在大约100个国家/地区测试了三种可选着陆页颜色(黄色,红色和蓝绿色)与其传统蓝色之间的对比。理论上,他应该找到一些使用特定颜色的国家将产生更高的收入。例如,他认为英格兰喜欢蓝绿色,但事实并非如此。

3.盲目崇拜数学

数学家喜欢数学,而非数学人则害怕数学。两者的结合可能导致大量不切实际的模型。

在这种情况下,未能及时偿还贷款的可能性本来就更高。

4.盲目崇拜电脑

人们经常认为计算机做得很好,所以它们必须非常智能,但是在知道正确的任务和多个任务的一般应用(甚至这些任务是可能的)完全不同之间仍然存在很大差异。我们对计算机的依赖不是福气。如果您认为计算机比我们更智能,然后将所有决策传递给计算机,则可能会产生灾难性的后果。

5.重复数据

为了找到数据之间隐藏的关系,有些人以各种方式对数据进行分类。诺贝尔经济学奖获得者罗纳德科斯(Ronald Coase)表示:“如果你继续处理一些数据,机器本身就会混淆。”但是大数据和强大的计算机已经导致了这种行为。

一位着名的研究人员告诉他的助手,当他的助手分析数据时,“从数据中提取尽可能多的信息”。那时,他的助手试图将意大利自助餐厅的客人分成“男性,女性,吃午餐,吃晚餐,独自吃饭,吃两个人,一起吃饭,并通过机器视觉订购酒精”。 “饮料,软饮料等”最后,这些“挤压信息”变成了四个“披萨论文”,其中最着名的是“当女性一起吃饭时,男性吃披萨的比例增加93%”。今天,他的几十篇论文被归还,人们被大学解雇了。

6.自欺欺人

建议:“第一个原则不是欺骗自己.因为你最容易被愚弄。”真正的科学家分享他们自己的理论,质疑他们自己的假设,然后寻找机会进行实验来验证或推翻假设。玩数据的人只能看到他想看的东西。较高的相关系数表明学生对数学水平实际上非常有信心,而一些认为他们没有经过良好测试的学生只熟悉这些材料。他们不是太悲观,但非常现实。

7.使用相关性作为激励

重要的建议。

2011年,谷歌创建了一个人工智能项目谷歌请求最有可能与流感有关。由于流感爆发是季节性的,因此Google 件(例如圣诞节,冬季假期和情人节)。当您离开历史数据并开始预测真实情况时,Google Flu的准确性大大降低。报告发布后,谷歌流感在接下来的108周内误报了100例流感。从那以后,谷歌流感不再预测流感。

8.不要对平均值的回归感到惊讶

当数据波动时,预测值可能高于检测值,但随后它将继续平均。例如,如果高尔夫球员赢得大师赛冠军,那并不意味着他可以在下一次获胜。并不是说他下次会不走运,或者技术会倒退,也许这场胜利将是超级水平的。

这些数据也将在未来恢复到平均值,这有点类似于防止“玩异常或特殊游戏”。例如,一家数据科学公司已经做了一项实验,将客户的网页布局与超过100万个域名中的20种常见布局进行了比较。客户经常抱怨他们的网站表现不佳,并认为该网站仍然可以获得更多的广告收入。因此,它为数据分析师提供了一系列在过去三个月内一直在下降的网站域名,分析师可以调整页面布局,看看他们是否可以增加收入。结果,他成功了,第二天的收入增长了20%。那时,他就像一个摇滚歌手。但直到有一天他太忙,太迟而无法做出任何改变,收入开始下降。因此,这些网站仍处于表现不佳的状态,其收入最终将恢复到平均水平。

9.不要伤害用户

不幸的是,在大数据时代,公司和政府一直在收集我们的数据来预测和影响我们的行为。优秀的数据科学家将非常谨慎地处理这一过程,并充分尊重我们的权利和隐私。数据科学的黄金法则:对待他人就像对待自己一样。

我在互联网约会网站上做过三次实验。在第一个实验中,他们暂时删除了网站上的所有照片,发现很少有人愿意发送消息,这证明爱情并非“盲目”。在第二个实验中,他们随机隐藏了一些人的个人资料,发现他们对用户的评价影响不大。这证明爱情“没有仔细阅读”。在第三个实验中,他们调整了匹配度等级,例如,最匹配的人被标记为“不匹配”,反之亦然。第一次和第二次实验并没有对用户造成太大伤害,但第三次实验有问题。因为用户不希望他们的生活被不适当的人打扰。在约会时遇到错误的物体只是一种痛苦。缺少合适的物体会影响您的生活。

要避免这些陷阱,您必须始终注意。为了将数据整合到科学中,我们应该像科学家一样,而不是机器。

  • 友情链接:
  • 澳门皇冠 | 美高梅娱乐网 | 龙8国际手机pt网页 | 188金博网app | 澳门新濠天地真人平台 | bt365备用网址

    ag真人平台 版权所有© www.formuladareconquistabr.com 技术支持:ag真人平台| 网站地图