如何对100万个星系进行分类?

                                          如何对100万个星系进行分类?


                                          大数据摘要 作者:Matthew J.Salganik Galaxy Zoo项目由2007年牛津大学天文学研究生Kevin Schwensky发起。简而言之,Xiao Wensky对星系很感兴趣,人们可以根据星系的形状(椭圆形或螺旋形)和颜色(蓝色或蓝色)对星系进行分类。红色)。当时,天文学家的传统观点是像银河系这样的螺旋星系是蓝色的(意思是年轻的),而椭圆星系是红色的(意思是老的)。 肖文斯基对这种传统观点持怀疑态度。他怀疑虽然上述规则通常是正确的,但可能存在大量的星系。通过研究这些不符合预期定律的不寻常星系,他可以理解星系的形成。 从志愿者到天文学家10分钟 因此,为了推翻传统观点,肖文斯基需要大量按形状分类的星系,即被分为螺旋星系或椭圆星系的星系。问题是现有的分类算法不足以进行科学研究。换句话说,在当时,对星系进行分类对于计算机来说是一项艰巨的任务。因此,肖文斯基需要大量的人工分类星系。随着研究生的热情,肖文斯基开始了分类工作。经过7天的12小时马拉松式战斗后,他将50,000个星系分类。尽管有50,000个星系可能听起来很多,但它们只占斯隆数字巡天所拍摄的近100万个星系的5%左右。肖温斯基意识到他需要采用更具可扩展性的方法。 幸运的是,对星系进行分类并不需要人们接受天文学的强化训练,你可以快速教会一个人如何对星系进行分类。换句话说,尽管星系分类对于计算机来说是一项艰巨的任务,但它对人们来说非常简单。因此,当肖文斯基和同学克里斯林特坐在牛津附近的一家小酒馆时,他们想到创建一个网站,然后让志愿者对银河系的图像进行排序。几个月后,银河动物园诞生了。 志愿者需要在Galaxy Zoo网站上进行几分钟的培训。例如,了解螺旋星系和椭圆星系之间的区别。完成训练后,每个志愿者必须通过一个相对简单的测试,正确地对15个星系中的11个星系进行分类,然后通过简单的基于网络的界面开始真正使用未知星系。分类。从志愿者到天文学家的过渡在不到10分钟的时间内完成,只需要在最低阈值——之间进行简单测试。 一家报纸报道了该项目后,银河动物园吸引了第一批志愿者,大约六个月后,该项目吸引了超过10万名公民科学家。人们参加是因为他们喜欢它。任务,并希望有助于推进天文学的发展。 10万名志愿者提供了超过4,000万份机密信息,其中大部分是由相对较少的核心参与者完成的(Lintott等人,2008年)。 聘请大学生进行研究助理经验的研究人员可能会立即怀疑数据的质量。虽然这种怀疑是合理的,但银河动物园项目表明,志愿者提供的数据可以在适当的清洁,消除偏见和整合后产生高质量的结果。公众创造专业质量数据的一项重要技能是重复它,即让许多不同的人执行相同的任务。在银河动物园项目中,志愿者为每个星系贡献了大约40个分类数据。雇用大学生作为研究助理的研究人员从未实现这种重复水平,因为他们需要更加关注每个人的分类数据的质量。志愿者使用重复的文件来弥补他们缺乏培训。 您需要对多个分类数据进行排序多少步骤? 虽然不同的志愿者对同一个星系有多个分类,但仍然难以将这些多个分类数据组合起来以达到一致的分类。在银河动物园项目中,研究人员通过三个步骤实现了一致的分类。 首先,研究人员通过删除错误分类来清理数据。例如,那些反复对同一个星系进行分类的人(如果有人试图操纵结果可能会这样做)将删除所有分类数据。通过这种类型的清洁和其他类似清洁删除的数据占总分类数据的约4%。 然后,研究人员需要消除清洁后的分类数据中的系统偏差。通过在原始项目中嵌入的一系列偏差检测研究,例如给一些志愿者提供黑白图像而不是彩色星系,研究人员发现了多种系统偏差,例如划分由于距离而模糊的螺旋星系。椭圆星系。调整这些系统偏差很重要,因为重复分类不会自动消除系统偏差,重复分类只能帮助消除随机错误。 最后,研究人员需要使用一种方法在消除偏差后组合各个分类数据,以达到一致的分类。组合每个星系的所有分类数据的最简单方法是选择最常见的分类数据。但这意味着每个志愿者的体重是相同的,研究人员认为,一些志愿者比其他志愿者更善于分类。因此,他们开发了一个更复杂的迭代加权程序,试图检测最佳的分类数据,并给予他们更多的权重。 因此,经过三步清洗,偏差消除和加权后,银河动物园的研究团队将4000万志愿者的分类数据转化为一套一致的形态分类。将这些形态分类与专业天文学家进行的小规模星系的前三个分类进行比较,包括肖文斯基的分类,它为银河动物园的诞生贡献了一些灵感,发现它们之间的匹配非常高。因此,志愿者贡献的整合也可以产生高质量的分类数据,其规模超出了研究人员的范围。事实上,通过人为地对如此大量的星系进行分类,肖文斯基,林托特和其他相关人员发现,只有大约80%的星系符合预期的规律,即螺旋星系是蓝色的,而椭圆星系则是椭圆形的。星系是红色的。 在这一点上,每个人都应该了解Galaxy Zoo如何遵循分解 - 使用 - 集成的策略,这也用于大多数人类计算项目。首先,将一个大问题分解为多个小问题。以银河动物园为例。对100万个星系进行分类的一个大问题被分解为100万个对星系进行分类的小问题。然后,使用人力资源来处理每个小问题。在银河动物园的情况下,志愿者将每个星系划分为螺旋形或椭圆形。最后,整合所有结果以获得一致的结果。以银河动物园为例。通过清理,偏差消除和加权,可以获得每个星系的一致分类。虽然大多数项目采用这种共同战略,但每个步骤都需要根据所解决的具体问题进行相应调整。例如,以下人类计算项目使用此策略,但应用程序和集成的两个步骤是完全不同的。 机器学习,使数据呈指数级增长 对于银河动物园的团队来说,这个项目才刚刚开始。不久他们意识到虽然他们可以对近100万个星系进行分类,但这个规模还不足以匹配可能需要大约100亿个星系的新数字天空调查。为了应对从100万增长到100亿的增长,增长10,000倍,他们需要招募的参与者数量大约是银河动物园的10,000倍。虽然互联网上有很多志愿者,但并不是无限制的。因此,研究人员意识到,如果他们想要处理不断增加的数据量,他们需要一种新的,更具可扩展性的方法。 因此,Manda Benagji,以及Shawsky,Lintot和Galaxy Zoo团队的其他成员,开始教授计算机来对星系进行分类。更具体地说,Banerjee使用由Galaxy Zoo创建的手动分类数据来创建机器学习模型,该模型基于图像特征预测星系的人工分类。如果模型的预测精度很高,那么银河动物园的研究人员基本上可以用它来对无限星系进行分类。 Banerjee及其同事的方法的核心实际上与社会研究中常用的技术非常相似,尽管乍一看这种相似性可能并不明显。首先,Banerjee及其同事将每个图像转换为一组数字特征,总结了它们的本质。例如,星系图像可以具有三个特征:图像中的蓝色像素的数量,像素亮度方差和非白色像素比率。选择正确的功能是这个问题的重要部分,通常需要专业领域的专业知识。在此步骤之后,Banerjee及其同事构建了一个数据矩阵,每个数据矩阵由一行和三列数据描述。基于数据矩阵和预期输出值(例如,通过手动分类将图像分类为椭圆星系),研究人员可以构建统计学或机器学习模型。最后,研究人员可以使用统计模型中的参数来预测新星系的分类。在机器学习中,这种创建可以使用标签示例标记新数据的模型的方法称为监督学习。 银河动物园是有多少人进化这个计算项目的一个很好的例子。首先,研究人员将自己或与一小组研究助理(例如Schwensky最初进行的分类)一起尝试项目。如果此方法不符合规模要求,研究人员将选择使用与许多参与者进行人工计算。但是,在数据量达到一定规模后,完全依靠人力来解决问题是不够的。此时,研究人员需要构建一个计算机辅助的基于人的计算系统,该系统使用手动分类数据来训练可以处理无限数据的机器学习模型。 本文由《计算社会学》组织 马修萨尔加尼奇 中信出版集团

                                          上一篇:欧洲政治面临巨大变化!默克尔贬值的风险猖獗,特朗普的愿望很难实现。

                                          下一篇:两位谷歌创始人突然出现在幕后。

                                          相关推荐:网易为了拯救玩家免受寒冷袭击?把蔡旭坤放进游戏中,让玩家戴绿帽子 | 只有太阳质量的10,000倍!天文学家确定附近星系中小黑洞的质量。 | 那些把枪砸在一起的受伤的同志,为什么他们退休后很少联系,原因是有点搭配

                                          评论

                                          您的邮箱地址不会被公布 *

                                          您可以使用这些html标签 <a href="#" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>