欧洲核子研究组织从CompactMuon螺线管发布用于机器学习的开放数据
CMS还提供了对2010年质子-质子碰撞记录的100%研究数据的开放访问。CERN的CMS合作已向公众发布了第四批开放数据。在此版本中,这带来了开放的数据超过2体积 PB(两百万GB),CMS已经提供了开放访问其在2010年记录在质子-质子碰撞的研究数据的100%,符合该协作的数据发布政策。该版本还包括几个新的数据和模拟示例。新版本建立在CMS开放数据在研究和教育中成功使用的基础上,并扩大了其范围。
在此版本中,CMS开放数据解决了机器学习(ML)不断增长的应用,以应对高能物理中的挑战。根据最近的一篇论文,与数据科学和ML社区的合作被认为是优先事项,以帮助推进最新算法在粒子物理学中的应用。因此,CMS还提供了可帮助促进这种合作的样本。
麻省理工学院副教授杰西·塔勒(Jesse Thaler)说:“现代机器学习对撞机物理学产生了变革性的影响,从事件重建和检测器仿真到寻找新物理学,”他正在与两名博士生一起使用CMS开放数据进行机器学习。帕特里克·科米斯克(Patrick Komiske)和埃里克·梅托迪耶夫(Eric Metodiev)。“但是,机器学习技术的性能与基础训练数据的质量直接相关。借助CMS最新数据发布中提供的额外信息,外部用户现在可以在完全真实的样本上研究新颖的策略,这可能会导致对撞机数据分析取得令人兴奋的进步。”
在ML的数据集,源自数百万的CMS仿真事件之前和未来的大型强子对撞机的运行,重点解决了一些有代表性的挑战粒子识别,跟踪和发生在质子束的每个交叉多次碰撞之间的区分。所有数据集都包含有关其包含的内容,如何使用它们以及如何使用修改后的内容进行复制的大量文档。
在其数据保存和开放访问政策中,CMS承诺在收集数据后的十年内释放其100%的可分析数据。在2010年第7个TeV质量中心收集的大约一半质子-质子碰撞数据在2014年的第一个CMS版本中发布,其余数据包含在此新版本中。此外,还发布了LHC的运行1(2010年至2012年)的一小部分未经处理的原始数据。这些样本将帮助测试使用旧版软件环境处理CMS数据的链。
还提供了CMS在2010年使用的CASTOR量热计的重构数据和模拟,代表了CMS最前沿地区的首次数据发布。最后,CMS发布了有关如何生成模拟事件以及如何在孤立的“容器”中分析数据的说明和示例,在其中可以访问特定数据集所需的CMS软件环境。搜索模拟数据并发现数据集的来源也更加容易。
与以前一样,通过CERN开放数据门户网站,在知识共享CC0豁免下,数据将被发布到公共领域。该门户网站公开开发由欧洲核子研究中心信息技术部与谁发布关于它的开放数据实验的合作合作。