如果一名科学家想要预测洋流,以了解石油泄漏后污染是如何传播的,她可以使用一种常见的方法,即观察10到200公里之间的洋流。或者,她也可以选择一种电流更短的新型号。这可能更准确,但也可能需要学习新的软件或进行新的计算实验。如何知道使用新方法是否值得花费时间、成本和精力呢?
麻省理工学院研究人员开发的一种新方法可以帮助数据科学家回答这个问题,无论他们是在研究洋流、暴力犯罪、儿童阅读能力还是任何其他类型的数据集。
该团队创建了一种新的测量方法,称为“c值”,可以帮助用户根据新方法对特定数据集更准确的几率在技术之间进行选择。这一测量方法回答了一个问题:“对于这些数据,新方法是否可能比常规方法更准确?”
传统上,统计学家通过在所有可能的数据集上平均一种方法的准确性来比较方法。但是,仅仅因为一种新方法对所有数据集的平均效果更好,并不意味着它实际上会对一个特定的数据集提供更好的估计。平均值不是特定于应用程序的。
因此,来自麻省理工学院和其他地方的研究人员创建了c值,这是一个特定于数据集的工具。高c值意味着在特定数据问题上,新方法不太可能比原始方法更准确。
在他们的概念证明论文中,研究人员使用现实世界的数据分析问题描述和评估c值:模拟洋流,估计社区的暴力犯罪,以及近似学校学生的阅读能力。他们展示了c值如何帮助统计学家和数据分析师通过指示何时使用他们可能会忽略的替代估计方法来获得更准确的结果。
“我们在这项特殊工作中试图做的是提出一些特定于数据的东西。对于开发新方法的人来说,经典的风险概念是很自然的。这个人希望他们的方法平均对所有用户都有效。但是一个方法的使用者想要的是能够解决他们个人问题的方法。我们已经证明了c值是这个方向上非常实用的概念证明。”资深作者Tamara Broderick说,他是电气工程和计算机科学系(EECS)的副教授,也是信息与决策系统实验室和数据、系统与社会研究所的成员。
她的论文由布莱恩·特里普博士22号加入,他曾是布罗德里克小组的研究生,现在是哥伦比亚大学的博士后;以及13岁的萨米尔·德什潘德(Sameer Deshpande),他是布罗德里克团队的前博士后,现在是威斯康星大学麦迪逊分校的助理教授。该论文的一个被接受的版本发表在《美国统计协会杂志》的网络版上。
评价估计量
c值旨在帮助解决数据问题,研究人员试图使用数据集估计未知参数,例如从评估结果和学生调查反馈的数据集估计学生的平均阅读能力。研究人员有两种估计方法,必须决定使用哪种方法来解决这个特定的问题。
更好的估计方法是产生更少“损失”的方法,这意味着估计将更接近实际情况。再考虑一下洋流的预测:也许每小时误差几米并没有那么糟糕,但每小时误差很多公里就会使预测变得毫无用处。然而,根本的真相是未知的;科学家正试图估计它。因此,对于他们的特定数据,人们永远无法实际计算出估计的损失。这就是比较估算具有挑战性的地方。c值帮助科学家应对这一挑战。
c值方程使用特定的数据集来计算每种方法的估计值,然后再一次计算方法之间的c值。如果c值很大,则替代方法不太可能比原始方法更差,产生的估计不太可能比原始方法更准确。
“在我们的案例中,我们假设您保守地想要使用默认的估计器,并且只有当您对它非常有信心时才想使用新的估计器。由于c值较高,新的估计可能更准确。如果你得到一个低c值,你不能说任何结论性的东西。你可能实际上做得更好,但你不知道。”Broderick解释道。
探索理论
研究人员通过评估三个真实世界的数据分析问题来验证这一理论。
首先,他们使用c值来帮助确定哪种方法最适合模拟洋流,这是特里普一直在解决的问题。准确的模型对于预测污染物的扩散很重要,比如石油泄漏的污染。研究小组发现,使用多个尺度(一个大尺度和一个小尺度)估算洋流,可能比仅使用大尺度测量产生更高的精度。
布罗德里克说:“海洋研究人员正在研究这一点,c值可以提供一些统计学上的‘魅力’,以支持更小尺度的建模。”
在另一个例子中,研究人员试图预测费城人口普查区的暴力犯罪,这是Deshpande一直在研究的应用。他们发现,使用c值,通过将人口普查区级别的非暴力犯罪信息纳入分析,可以更好地估计暴力犯罪率。他们还使用c值来表明,在分析中额外利用邻近人口普查区的暴力犯罪数据不太可能提供进一步的准确性提高。
“这并不意味着没有改善,这只是意味着我们没有信心说你会得到它。”她说。
现在,他们已经从理论上证明了c值,并展示了如何将其用于解决现实世界的数据问题,研究人员希望将测量扩展到更多类型的数据和更广泛的模型类集。
最终目标是创建一个足够通用的测量方法来解决更多的数据分析问题,尽管要实现这一目标还有很多工作要做,但Broderick说这是朝着正确方向迈出的重要而令人兴奋的第一步。
这项研究部分得到了高级研究计划局能源拨款、国家科学基金会职业奖、海军研究办公室和威斯康星校友研究基金会的支持。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。