来自 科技 2019-12-26 16:41 的文章

训练一个模型要排放284吨二氧化碳?能源专家:

大数据文摘出品

来源:cleantechnica

编译:赵吉克、牛婉杨

雨林在燃烧,冰川在消融,甚至南极的企鹅都在经历着从未有过的炎热。

前阵子,BBC摄影师在南极拍摄时接受采访称“这里很热”,他们目睹了全球变暖对这里造成的影响,想到这些动物将要面临的未来,掉下了眼泪。

“全球变暖”的话题一直在被热议。近日,世界气象组织(WMO)发布了一篇报告,称2010-2019这10年可以说是“有记录以来最暖的10年”。

人工智能的发展如火如荼,模型训练时间越来越久,数据集越来越大,机器学习持续被指责——“已经成为了‘碳排放’的重要来源之一”。

今年6月的一篇论文指出,机器学习正带来巨量碳负债,模型训练二氧化碳排放的相关数据大得惊人。根据论文中的相关计算,完成一个被称为神经结构搜索的高级转换模型的训练和优化,需要排放大约284吨二氧化碳。

论文链接:

https://arxiv.org/pdf/1906.02243.pdf

284吨二氧化碳确实量很大,但人工智能真的应该为“全球变暖”背锅吗?

TFIE Strategy Inc.的首席战略官、清洁能源专家Michael Barnard对这篇论文的碳排放计算数据进行了新的评估,并提出了新的结论。他认为,我们当然不该忽视机器学习带来的碳负债,但考虑到模型的复用价值,机器学习的碳负债远没有论文中估计的那么糟糕。

Michael文章合集:

https://cleantechnica.com/author/mikebarnard/

提出相反意见前,让我们先来回顾一下6月份这篇研究,以及基于它所做出的假设。这篇论文于今年6月由Strubell、Ganesh和McCallum发表在马萨诸塞大学阿姆赫斯特分校,文中研究了NLP中深度学习相关的能源和政策问题,接下来,被多家科技媒体作为头条报道,文摘菌也曾进行了报道。

虽然这篇论文能够让产业界反思人工智能的碳排放,但是却忽略了一个重要事实,神经网络模型训练得少,使用的多。

以特斯拉的机器学习模型为例,尽管训练模型需要一定的消耗,但是一旦完成,目前有超过50万辆搭载这一神经网络芯片的汽车使用这一模型。

所以,在考虑训练神经网络产生的“碳债务“时,必须要考虑到实际执行的次数以及最终目标。如果我们把每辆特斯拉汽车都与一台油车比较,搭载神经网络芯片必然会提高汽车的运行效率,那么这类机器学习应用就很值得。

产生碳负债的模型能减少碳排放吗?

Michael Barnard认为,好的机器学习模型能从根本改变碳排放。之前,Michael Barnard写过一篇文章探讨机器学习模型CoastalDEM,用于判断海平面上升风险。

文章链接:

https://cleantechnica.com/2019/11/04/southern-florida-among-spots-at-greater-risk-due-to-sea-level-rise-finds-new-machine-learning-study/

在CoastalDEM之前,一直以来,判断海平面上升情况的传统方法是通过美国航空航天局(NASA)和国防部国家测绘局(NIMA)联合测量的SRTM数据,这种方法得出的海拔数据的正垂直偏差会大大低估沿海洪水的风险和暴露程度。

今年10月,Scott A. Kulp和Benjamin H. Strauss在自然科学期刊《nature communications》发表了一篇论文,题目为《CoastalDEM:使用神经网络从SRTM改进得到的全球沿海数字高程模型》。在预测海平面上升风险时,虽然CoastalDEM会带来相对高一些的碳负债,但是其得到的预测结果要比SRTM准确得多。

到2050年,传统模型预测的佛罗里达州南部海平面上升风险图示

使用CoastalDEM更新后的海平面上升风险图示

在这个案例中,CoastalDEM获取了北美卫星雷达沿海高程数据,并用来自激光雷达的地面实况对其进行了训练,同时使用澳大利亚激光雷达进行了验证,然后将应用范围扩张到全世界。

该模型仅执行了几次,但最终得到的是调整后的沿海海拔静态数据集,该数据集已在全球范围内用于政策和气候行动计划。在这种情况下,Michael认为CoastalDEM对气候变化的精准预测以及可供多次利用的结果,带来的价值超过了碳负债本身。

当然也有不少没什么用的模型。

Michael的另一篇文章评估了初创企业Heliogen聚光太阳能发电(CSP)的改进。

文章链接:

https://cleantechnica.com/2019/11/22/heliogen-is-bill-gates-latest-venture-that-is-only-good-for-oil-gas-part-1/

据外媒CNET报道,世界各地的城市不断需要建造更多的建筑物,但是水泥和钢铁等材料的创建是造成碳排放的巨大因素。Bill Gates支持的初创企业Heliogen认为,解决这个问题的办法在于将太阳能与人工智能相结合。

Heliogen使用一种“先进的计算机视觉软件”来校准“大阵列”镜子,以将阳光反射到单个目标上。该公司补充说,它最终将能够产生1500摄氏度的太阳能,从而可以制造出完全清洁的氢气。

Michael发现虽然机器学习的部分很有趣并且可以在其他领域重用,但最终结果产生的价值不大。而且,机器学习提高了CSP加热效果的案例并未经证实。

机器学习的碳负债并没有该论文描述的那么严重

接下来,让我们从计算数据入手,详细看看开头提到的这项研究所做的假设。(以下部分内容涉及大量数据讨论,不感兴趣的读者可以酌情跳过。)

该论文假设模型训练的假设值为CO2e = 0.954pt(每千瓦时0.954磅二氧化碳当量)。这是美国的平均水平,而当Michael看到的时侯,他认为这个值可能被夸大了。

为此,Michael首先将当前每千瓦时二氧化碳量的数据汇总在一起。

从图中可以看出,美国的平均值掩盖了计算能力方面的巨大差异。一个在Washington被训练的模型,如果使用直接的电网供电,它的碳负债只有在Wyoming接受培训的模型的十分之一。

Michael的假设是,论文中的许多模型都以加州为基地,而来自加州电网的每千瓦时0.47磅二氧化碳当量仅为美国平均水平的50%。

在确定了这一点之后,Michael又深入了一步。他在论文中查看了每一个主要的碳负债计算模型,以了解它们实际上在哪里进行训练,假设至少有一两个会在谷歌数据中心接受培训,谷歌有100%的可再生承诺和补偿。而结果大大出乎Michael的预料。

不同论文中提到的模型及其相关训练产生的碳负债

当深入研究所用的计算资源时可以发现,除一种情况外,它们都是用谷歌或微软Azure训练的。第3至第6列是本文估计与可能的精确值之间的方差计算。需要明确的是,NAS Evolved Transformer模型仍然可以看到10吨的CO2e,这是相当可观的,但仅占研究结论的一小部分。

今年早些时候,Michael根据公开数据进行了粗略评估,哪些云计算厂商有碳债务,分别是多少?评估发现,在最大的云提供商中,谷歌和微软Azure的碳债务是迄今为止最低的,它们致力于实现100%碳中和电力,还购买了高品质的碳补偿产品。

这类企业的运作完全基于风能、太阳能和水电,这使每千瓦时的二氧化碳排放量降低至0.033磅左右。AWS的可再生资源率其实还不够好,但在2018年,其数据中心的可再生能源占比仍然达到了50%,这意味着其运营排放远远低于美国的平均水平。

该论文作者则使用了另一种方法来评估数据中心负载——2017年绿色和平组织关于该主题的报告数据。尽管来源可靠,但报告本身使用的数据是实际购买的电力来源的组合百分比。这样的数据会导致所有主要的云提供商购买的低碳电力比电网的平均水平要高得多,但同时他们仍必须购买由煤炭和天然气生成的电力。

无需质疑绿色和平组织的调查方法,但Michael发现,谷歌和微软大量购买可再生电力的事实与声称其数据中心大量使用天然气和煤炭发电的说法之间存在很大差异。

Michael及其团队认为,谷歌和微软正在从可再生能源中购买足够的电力供其开展业务,但绿色和平组织并未在报告中明确指出。

但论文假设的最大问题并不在此。这个假设是,由于亚马逊的AWS是最受欢迎的云计算平台,并且其由绿色和平组织计算的细分能源消耗与美国的总体细分大致相同,因此美国的平均值是合适的。但从上表的评估结果可以看出,评估的模型中并没有使用Amazon的云计算平台,所以之一结果的可靠性存疑。

当然,Michael最后也指出,尽管应该重新考虑相关数据,但是我们仍然应该重视这项研究提出的问题。

全球变暖造成的危害,我们能看到的仅仅是冰山一角。尽管科技的进步无人能够组织,但科技发展与环境保护必须并重。

注:Michael称已经联系了该研究的主要作者进行评论。如果得到他们的回复,文章将会更新,文摘菌也将持续跟进。