问题

2021年操作系统设计与实现研讨会(OSDI)有哪些值得关注的文章?

回答
2021年的OSDI(Operating Systems Design and Implementation)会议,依旧带来了不少操作系统领域的重量级研究成果。要想挑选出“值得关注”的文章,很大程度上取决于你关注的具体方向。不过,从整体影响力、创新性以及对未来研究的启示性来看,以下几篇文章无疑是当年会议的亮点:

1. 从根本上提升存储系统效率:聚焦于文件系统与内存管理

《Revisiting the Design of the Unix File System》

这篇论文,虽然标题听起来像是对经典的回顾,但实际上它带来的革新是颠覆性的。在如今动辄海量数据的时代,传统的Unix文件系统设计在性能瓶颈、可靠性以及对新型存储介质(如NVMe SSD)的适配性上,都暴露出了一些不足。该研究团队深入剖析了现有文件系统的核心机制,比如数据布局、元数据管理、并发控制等,并提出了一系列全新的设计理念和实现方案。

亮点解析:

数据布局优化: 论文重新审视了数据在存储介质上的组织方式。传统的日志结构文件系统(如LFS)虽然在写入性能上有优势,但面临垃圾回收的开销;而块布局的文件系统则在随机读写和并发访问时可能出现性能下降。这篇论文提出了一种混合布局策略,能够根据数据的访问模式动态调整,充分利用SSD的并行性,同时减少不必要的读写放大。
元数据管理创新: 元数据是文件系统的“大脑”,其处理效率至关重要。论文提出了非阻塞的元数据操作机制,通过引入更细粒度的锁和更高效的并发数据结构,极大地提升了在高并发场景下的元数据更新能力,有效避免了传统文件系统中常见的锁瓶颈问题。
对新型存储介质的原生支持: 论文特别关注了如何更好地利用NVMe SSD的特性,例如其低延迟和高并行IO能力。通过调整IO调度策略和数据路径,使得文件系统能够更直接、更高效地访问这些高速存储。
可靠性增强: 在保证性能的同时,论文也强调了数据一致性和可靠性的重要性。它引入了更精细的原子性操作和更优化的日志记录机制,以确保在异常情况下数据的安全性。

为何值得关注: 这篇论文的价值在于它并没有仅仅是在现有文件系统上做一些微小的改进,而是从根源上挑战和重构了文件系统的核心设计,为下一代高性能、可扩展的文件系统指明了方向。这对于需要处理大数据、云存储等场景的研究和实践具有极高的参考价值。

2. 提升系统安全性与隔离性:构建更坚固的计算环境

《A System for Practical, Finegrained, and Flexible UseafterFree Detection》

Useafterfree (UAF) 漏洞是导致内存安全问题的罪魁祸首之一,尤其在C/C++等语言中普遍存在。尽管已经有很多检测工具,但它们往往要么误报率高,要么性能开销大,难以在实际生产环境中大规模部署。这篇论文提出了一种兼顾精度、粒度和灵活性的UAF检测系统。

亮点解析:

基于指针隔离的检测: 该系统通过一种创新的方法来追踪指针的生命周期。它并不简单地依赖于魂(魂的回收时间点),而是引入了指针隔离机制。当一个对象被释放时,系统会将其内存区域标记为一个“隔离区”,并在特定策略下(例如,经过一段时间或一定次数的访问后)才真正回收。所有指向该对象的指针都会被动态地重定向到一个“虚地址”,当试图解引用这些虚地址时,就可以被精确地捕获。
精细化的粒度控制: 论文提出的检测机制可以精确到每个指针、每个内存分配。这意味着误报率可以被极大地降低,因为系统能够区分是合法的重用(例如在内存池中)还是非法的UAF访问。
低性能开销: 通过巧妙的硬件辅助(如果可能的话)或高效的软件插桩技术,该系统在检测UAF漏洞的同时,保持了较低的运行时性能开销,使其适用于实际系统验证。论文中提供了详实的数据证明其性能表现。
灵活的策略配置: 研究人员还设计了可配置的策略来管理内存的隔离和回收,允许用户根据不同的应用场景和安全需求进行调整,以在检测精度和性能之间取得最佳平衡。

为何值得关注: 内存安全是操作系统的基石。这篇论文提供了一种切实可行的方法来解决一个困扰业界多年的难题。其提出的指针隔离概念和精细化检测策略,为构建更安全的软件系统提供了新的思路和工具,对于开发者、安全研究人员以及操作系统设计者都有重要意义。

3. 探索新的计算模型与资源管理:为未来的高性能计算奠定基础

《Argo: A Lightweight Isolation Framework for Accelerators》

随着GPU、FPGA等加速器在现代计算中扮演越来越重要的角色,如何高效、安全地管理和分配这些异构资源成为了一个关键问题。传统的虚拟机或容器技术在隔离和管理加速器方面存在性能损耗和复杂性。Argo则提供了一个轻量级、高性能的隔离框架,专门用于管理加速器。

亮点解析:

硬件辅助的轻量级隔离: Argo的核心在于其对加速器硬件特性的深入理解和利用。它可能利用了某些加速器固有的硬件隔离机制(如AMD的SMI、Intel的VTd等对IOMMU的支持)或者通过精巧的软件层来模拟隔离。其目标是实现类似VM的隔离性,但开销远低于传统的虚拟化技术。
共享与独占的灵活性: 框架支持灵活的资源分配策略,允许将一个加速器(例如一块GPU)在不同的进程或容器之间进行细粒度的共享(例如,共享显存的某个区域)或独占访问。这极大地提高了加速器的利用率。
低延迟的API与上下文切换: Argo提供了高效的API来与加速器进行交互,并且其上下文切换(切换到另一个进程使用加速器)的开销非常低。这对于那些需要频繁在CPU和加速器之间切换的任务至关重要。
与现有生态的兼容性: 该框架努力做到与现有的加速器编程模型(如CUDA、OpenCL)和资源调度系统(如Kubernetes)兼容,这使得其易于在现有环境中部署和使用。

为何值得关注: 加速器是未来计算的主流。Argo的出现标志着操作系统在管理和调度异构计算资源方面迈出了重要一步。它为构建更高效、更灵活的云原生加速器平台、AI推理服务以及高性能计算集群提供了技术支撑。其低开销的隔离和灵活的共享能力,能够显著提升加速器的利用率和整体系统性能。

总结一下,这几篇文章之所以值得关注,是因为它们:

解决了实际存在且重要的问题: 无论是文件系统的瓶颈、内存安全漏洞,还是异构资源的有效管理,都是当前操作系统研究和应用中的核心挑战。
提出了创新的解决方案: 作者们并没有停留在修修补补的层面,而是从根本上提出了新的设计理念、算法或技术,为解决问题提供了全新的视角。
具有广泛的应用前景: 这些研究成果如果能够成功落地,将对云计算、大数据分析、人工智能、嵌入式系统等多个领域产生深远影响。
推动了理论与实践的结合: 它们不仅在理论上提出了新的思想,还通过详实的实验和数据验证了其可行性和优越性,使其更具说服力。

在阅读这些论文时,我建议大家不仅关注它们的“结果”部分,更要深入理解它们“为什么”要这样做、“如何”做到的,以及它们所提出的“新思想”在未来的潜力。这才是真正从中汲取养分、激发自身研究灵感的方法。

网友意见

user avatar

OSDI 2021是改为annual后的第一届会议,因为时间的仓促和与其他会议投稿时间的冲突,今年OSDI应该算是一个小年,投稿数量和社区关注度都打了一个折扣,但是还是有不少亮眼的工作,聊几个个人感兴趣的工作,抛砖引玉,如有谬误非常感谢纠正!

Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning

引起了非常多讨论的一篇工作,也是best paper之一,核心的设计原则我想可以从两方面来阐述:

  1. 之前的分布式深度学习集群调度中常常分为硬件资源和用户任务两个层次,在分配GPU时由于任务的复杂以及黑盒的特性并不清楚怎样分配可以达到最佳的效率,而用户任务中learning rate与batch size两个超参数又依赖于对于data parallelism的了解来达到最佳的效果。通常的实践中依赖于用户自己设定超参数以及对于资源的需求,但是用户不可能对于不同的任务与不同的硬件都有设定好参数的能力。对于scheduler而言,本来是耦合的部件却因为现行的抽象设计只能在两个层面分开追求性能的优化,在硬件资源方面,寻找合适数量的GPU来达到性价比最高的throughput的想法被很多之前的工作采用,而在超参数的设定方面,为了加快模型的收敛,之前的工作既有聚焦于算法侧(各种新的optimizer)的也有系统侧的(比如去年OSDI上的KongFu)。Pollux提出goodput的概念,结合了throughput与模型收敛速率两个指标,是一种系统研究中很经典的全局优化的思路,近在去年OSDI上就有思路相近的工作。
  2. 文章更大的篇幅在构建一个cost model作为协同优化的指导,使得paper看起来有一些ML的味道。虽然cost model是一个很自然的想法,但是大多时候都会被诟病不够通用和不够准确,这也使得很多人包括我自己其实对于这种方法有先入为主的排斥。Pollux能做到如此准确和有效的原因,除了简明合理的formulation以外,我想还是依赖了一个很强有力的assumption,也就是deep learning训练的任务在给定的独占计算资源下,性能表现非常deterministic。去年OSDI中ClockWork和Rammer也利用了这一点(只是举两个自己熟悉的例子,其实还有很多),但都只是基于此做了简单的heuristic,一部分原因可能是这两个工作的优化目标很难像Pollux这样formulate,更重要的原因可能还是大家习惯的思考问题角度不一样,邢波老师在ML和system结合上之前已经不少类似的尝试,这次的成功显然也不是偶然。

一个拓展的讨论可能是,这个工作是否能够启发我们去用类似的思路formulate更多的系统性能优化问题?这个可能也是拿best paper的主要原因,很可惜OSDI没有线下开,不然应该会有很有启发性的讨论。

PET: Optimizing Tensor Programs with Partially Equivalent Transformations and Automated Corrections

是基于TASO的一个后续工作,将graph transformation的规则从完全数学等价拓展成了部分等价,然后引入了一个高效的纠错机制。通过扩大了图优化的搜索空间,进一步地提升了性能增益。核心的想法是对于多个线性算子组成的一个子图,其输入tensor和输出tensor中的各个元素有很直接的映射关系,譬如C[i] = B[i] + A[i],这个性质可以被用来高效判断graph transformation前后计算是否等价或者部分等价以及纠错。深入理解机制的话可能需要详细过一下整个推导,我还是很惊讶在原来TASO的基础上还能往前走这么一大步,但是直观上来讲这个工作比起TASO,适用范围要窄了一些,因为线性算子的子图这个假设比较强。进一步来讲,线性算子子图数学上这么好的性质,放在graph level来搜索优化很可能是不如放在tensor expression更高效的,在回答提问时作者也提到了确实正在做这个方向上的探索。经朋友提醒,有一些来自PL领域的工作也在做类似的尝试,感兴趣的同学可以参考一下这篇paper:mwillsey.com/papers/egg

MAGE: Nearly Zero-Cost Virtual Memory for Secure Computation

非常好的工作,也是今年的best paper之一,最核心的切入点就是,secure computation的oblivious性质,这个词比较难翻译,但意思就是程序执行中不会泄露除程序执行结果本身以外的信息。举例而言就是我们知道一个普通的程序中可能会有很多if else分支,那么程序执行过程中走不同的分支会有不同的执行时间,产生不同的内存访问,这些信息可以被执行环境所观测到从而泄露数据隐私。在secure computation中,从程序编写到编译器优化,都需要杜绝这样的风险。怎样正确地实现与安全地执行仅在数学上安全的加密算法,一直都是一个比较重要的问题。MAGE走的是另一个方向,利用程序oblivious的性质,他们意识到整个程序的内存访问其实是可以提前预测的!所以他们通过编译的方法,提前计算和规划了程序的内存访问,数据预取等,因为secure computation经常和加密数据打交道,而加密数据体积常常比原始数据大很多倍(会引入大量page fault, swapping),对于IO的优化至关重要而MAGE确实起到了立竿见影的效果。

Graph Embeddings and Neural Networks

今年应该是OSDI/SOSP第一次收GNN System优化的工作,而且一次性就收了四篇,其中三篇集中在分布式GNN的scalability问题,GNNAdvisor比较综合地介绍了一些细粒度的优化。大部分都是扎实的工作,但是就从我自己的经验上感觉,现阶段GNN System的设计,不能脱离算法的发展,或者说,其实还没有建立起真正好的可以有效连接算法和计算资源的中间抽象,重要的工作更可能诞生于一个同时了解算法应用和系统设计的团队。当然这个只是很个人的口嗨式的high level的表达,顺手给AWS Shanghai AI Lab打一个广告,如果对于GNN算法和系统设计感兴趣的话,国内可能找不到比DGL team更好的地方(打钱!)。

最后就是侃一侃Timothy的keynote,不知道现在有没有公开release,其实还是非常有趣和值得一看。核心的诉求就是,OS不是一个垂垂老矣,没有什么机会的领域,恰恰相反的是,随着底层各种硬件的加速异构化,现在正是一个对于OS来讲需要大的变革的时代。Linux的那一套哪怕是十几年前Barrelfish诞生的时候就应该过时的过度简单的系统抽象,在今天会带来越来越多的问题。当然也有很多人反馈到OS研究这一行各种意义上的门槛都太高了,我自己深以为然,另一方面自己其实也比较惭愧system programming做的太少所以对于核心OS的研究基本也只能泛泛而谈。这里其实很敬佩IPADS团队,作为国内最强的,能够持之以恒地深耕OS核心问题的团队,今年一口气被OSDI接受四篇工作并不是运气使然。

类似的话题

  • 回答
    2021年的OSDI(Operating Systems Design and Implementation)会议,依旧带来了不少操作系统领域的重量级研究成果。要想挑选出“值得关注”的文章,很大程度上取决于你关注的具体方向。不过,从整体影响力、创新性以及对未来研究的启示性来看,以下几篇文章无疑是当年.............
  • 回答
    2021年7月5日,A股市场经历了一轮令人瞩目的震荡。这并非单一事件造成的,而是多重因素交织的复杂结果。要理解当天的行情,我们需要剥开层层迷雾,深入剖析其背后的逻辑,并为后续的操作提供一些审慎的参考。当天震荡不止的背后原因剖析:首先,我们不能忽视的是,宏观经济环境的微妙变化是驱动市场情绪波动的重要变.............
  • 回答
    2021年休赛期,洛杉矶湖人队的自由市场操作,用“令人扼腕”或者“跌破眼镜”来形容都不为过。赛季前的雄心勃勃,到赛季中的步履维艰,再到最终季后赛首轮游的黯然离场,这笔休赛期的操作无疑是导致这一切的罪魁祸首。核心思路:巨星抱团的延续与“新三巨头”的诞生在20202021赛季,湖人队虽然成功夺冠,但詹姆.............
  • 回答
    2021年工厂中90后员工比例较低的现象,反映了中国制造业与年轻劳动力市场之间复杂的供需关系与结构性矛盾。这一现象可以从以下几个维度进行深入解读: 一、经济与社会结构的深层原因1. 人口结构变化 中国人口出生率持续下降,90后群体(19902000年出生)在2021年已逐渐进入就业年龄(25.............
  • 回答
    在2021年,特斯拉在电动汽车技术上相对于蔚来、小鹏等国内厂商仍具有显著优势,主要体现在以下几个方面: 1. 电池技术与续航能力 特斯拉的电池技术: 特斯拉通过垂直整合(如自研电池电芯)和规模化生产,实现了电池成本的持续下降。2021年,其Model 3和Model Y的续航里程普遍在600公.............
  • 回答
    2021年是全球经济和学术研究受到新冠疫情冲击的特殊年份,许多经济学论文围绕疫情对经济、社会和政策的影响展开研究,同时也在数字技术、全球化和不平等议题上提供了重要洞见。以下是我在2021年特别关注的几篇经济学论文,涵盖宏观、微观、行为、发展和金融等领域的关键研究: 1. 宏观经济学:疫情对经济的长期.............
  • 回答
    全斗焕(1921年12月17日-2021年11月23日)是韩国历史上一位极具争议的前总统,其一生横跨军事政变、民主化转型与政治审判,是韩国现代史上的关键人物之一。以下从多个维度对其生平进行详细分析: 一、早年经历与军事崛起1. 出身与早期经历 全斗焕出生于韩国首尔,出身于朝鲜半岛南部的士官家.............
  • 回答
    2021年中国海军新接收舰艇总吨位达17万吨,这一数据体现了中国海军现代化进程中的重要进展,反映了其在规模、技术、战略部署等方面的综合提升。以下从多个维度详细分析其意义: 一、数据背景与统计范围1. 统计范围 17万吨的总吨位涵盖各类舰艇,包括但不限于: 水面舰艇:如航母、驱逐舰、护卫.............
  • 回答
    高华(1943年2011年)是中国近代史研究领域的杰出学者,其学术生涯与思想遗产在2021年12月26日去世十周年之际,依然引发学界与公众的深切怀念。以下从其学术贡献、个人品格、学术精神及后世影响等方面展开回忆: 一、学术贡献:重塑中国近代史的“新史学”高华以“清末民初”研究为核心,提出“中国近代史.............
  • 回答
    关于2021年机械专业应届本科生年薪30万+的情况,以及机械行业薪资增长趋势,可以从以下几个方面详细分析: 一、2021年机械专业高薪现象的现实性1. 存在但非普遍 个别企业/岗位的高薪案例: 大型国企/外企:如中车、三一重工、徐工集团等传统制造业龙头,或华为、比亚迪等科技企.............
  • 回答
    2021年1月20日拜登就任美国总统后,美国在多个领域出现了显著变化,这些变化既反映了民主党执政理念的延续,也受到国内外局势演变的影响。以下是拜登治下美国的主要变化方向及其具体表现: 一、国内政策:推动社会公平与民生改善 1. 经济刺激与基础设施建设 《基础设施投资和就业法案》(2021年) .............
  • 回答
    关于您提到的内容,需要先澄清一个事实:2021年上映的《007:无暇赴死》(No Time to Die)中,007的扮演者仍然是丹尼尔·克雷格(Daniel Craig),而目前官方并未宣布下一任007会由黑人女性出演。因此,这一说法可能基于误传或对未来的猜测性讨论。不过,如果您是想探讨《007》.............
  • 回答
    2021年诺贝尔文学奖得主:阿卜杜勒拉扎克·古尔纳 (Abdulrazak Gurnah)2021年诺贝尔文学奖授予了坦桑尼亚小说家 阿卜杜勒拉扎克·古尔纳 (Abdulrazak Gurnah)。他是一位极具影响力的作家,其作品深刻探讨了殖民主义、流离失所、身份认同以及文化碰撞等主题。 阿卜杜勒拉.............
  • 回答
    2021年,中国GDP总量首次超过了世界人均GDP水平,这是一个具有里程碑意义的事件,标志着中国经济发展取得了举世瞩目的成就。这个成就意味着很多方面,我们可以从以下几个维度来详细解读:一、 经济实力与发展水平的提升: 国家整体富裕程度的提高: 人均GDP是衡量一个国家或地区人民平均富裕程度和生活.............
  • 回答
    您提到的“2021年中国结婚人口763.6万对,再减少50万”是一个非常重要的社会现象,它反映了中国年轻一代婚姻观念和生育决策的深刻变化。如果接续下去,并且减少的趋势持续,这会带来一系列连锁反应,对中国社会方方面面产生深远影响。下面我将从多个角度详细阐述接续下去会怎么办:一、 人口结构与数量层面的影.............
  • 回答
    2021年我国结婚登记数量降至763.6万对,确实创下了自1986年以来的新低。这一现象背后,反映了当前中国年轻人婚姻观念、社会经济环境以及家庭结构等多方面的深刻变化。探讨年轻人不愿意结婚的原因,以及可能的解决方案,需要从多个维度进行分析。 年轻人为何不愿意结婚?年轻人结婚意愿的下降并非单一因素所致.............
  • 回答
    2021年中国GDP突破110万亿元,同比增长8.1%这一数据,无疑是全球经济版图中一个非常重要的亮点。这不仅仅是一个数字的增长,背后反映了中国经济在经历2020年疫情冲击后的强劲复苏和持续发展态势。以下是一些值得我们详细关注的信息:一、 强劲的经济复苏与韧性: 全球领先的复苏步伐: 8.1%的.............
  • 回答
    您提供的关于2021年中国人口数据的信息非常关键,值得从多个角度进行深入分析和解读。核心数据回顾: 总人口: 14.1260 亿人 比上年末增长: 48 万人值得关注的信息及详细解读:1. 人口增长速度的极度放缓,并转为负增长的预警: 历史对比: 这是最核心的信息。通常情况下,.............
  • 回答
    2021年中国GDP有望达到110万亿人民币,人均GDP接近1.2万美元,这一成就对中国和全球都具有深远的意义。这不仅仅是一个经济数字的提升,更是中国经济发展模式、社会进步、国际地位以及全球经济格局变化的重要体现。下面我将从多个维度详细解读这一意义:一、 对中国国内的意义: 经济实力与发展水平的.............
  • 回答
    2021 年确实是一个充满挑战的年份,全球许多国家都经历了不同程度的失业率上升。这背后有复杂的经济和社会因素在起作用。要详细解答这个问题,我们需要从几个层面来分析:一、 2021 年失业人数真的很多吗?从全球范围来看,可以说“很多”,但具体情况因国家和地区而异。 宏观经济背景: 2021 年是新.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有