百科问答小站 logo
百科问答小站 font logo



为什么 Python 的 GIL 问题一直让人诟病,Python 社区却不解决? 第1页

  

user avatar   ppwwyyxx 网友的相关建议: 
      

介绍下最近公开的 Multithreaded Python without the GIL (下简称 nogil 项目). 这项工作由 FacebookAI 的 Sam Gross 投入了两年多时间开发,从公开后的反馈来看有希望在未来几年里真正进入 CPython. 这里基于公开资料以及和 Sam 的交流介绍下这个工作.

为什么 Facebook 会做这件事

Python 的 GIL 大家诟病已久就不多说了,但 Facebook 做这件事的原因其实跟 pytorch 有关. pytorch 由于主打 python-first, eager-first, 在性能上本来就吃亏, GIL的存在更是带来更多并行问题. 最明显的两点: (1) GIL 的存在导致 nn.DataParallel 性能垃圾 (2) GIL 导致多线程的 dataloader 没有太大意义.

这两个问题,目前 pytorch 都是用 multiprocessing 解决的, 但是随之而来的就是内存占用, context switch, IPC, 和 fork-safety 相关的无数的坑. 毕竟 fork is evil.

如何解决 GIL

从 Python 里拿掉 GIL 主要有两个大难题:

  1. 性能:

PyPy在这里 Frequently Asked Questions - PyPy documentation 提到两点原因: 第一是由于 python 主要基于 refcount 做 GC, 在如此动态的语言里做并行 refcount, 每个 object 都要 atomic refcount. 第二是 python 需要在用户写出 concurrency bug 的情况下保证解释器自己不崩,那么 mutable object 就几乎全都需要上锁. 这两点加起来导致每个 object 都会新增不少 overhead.

曾经的在 CPython 上移除 GIL 的尝试,包括 python-safethread, Gilectomy, 都因为性能太差失败了.

2. 兼容性:如果重写解释器,重新设计 GC 和 object model, 没有 GIL 不是不可能 (例如 Jython, pypy-stm). 但是 Python 语言最大的优势可以说就是它的生态,而 CPython 又是 Python 的事实标准,这些另起炉灶的项目目前没有一个流行起来.

而这次的 nogil 项目,首先是在 CPython 基础上尽量保持了兼容性: python 程序完全不受影响, 少量的 C API 有微小改动. 即使是 numpy 这种量级的项目也只需要改几行代码就能兼容.

在性能上, nogil 主要的亮点在于结合了多种 refcount 的方式降低 atomic 的 overhead: biased refcount, deferred refcount, immortalization; 把 allocator 换成了 thread-safe 并且能提供一部分 GC tracking 功能的 mimalloc.

在此基础上,把整个 CPython 解释器的所有部分都变得 thread-safe 也是很大的工作量.

目前的结果是,nogil 的单线程性能大约会丢失 10%. 为此,nogil 自带了一些独立无关的性能优化把单线程性能补救了一下,算是一个小 bonus. CPython 的单线程性能本来就还有很大优化空间,python 之父 Guido 在微软的团队甚至有一个 4 年 5 倍加速的宏伟计划, 因此 10% 的损失应该不算大.

至于多线程性能,nogil 在迷你 benchmark 上是能够线性提升的. 世界上目前还不存在可以用来 benchmark 的大型 Python 多线程应用,但是可以想象性能应该也是不错的.

nogil 项目的未来

这个项目大约一个月前公开,目前是受到 Python 之父和其他核心开发者的认可的. 这个工作量不可能很快并入上游,可能还会花一年甚至更多的时间,但是 CPython 维护者们已经表现出了积极合作的态度.

虽然在 API 上 nogil 尽量保持了兼容,但是删除 GIL 这个 semantics 的改变是不可能兼容的. 用户的 Python code 和 C extension 可能在失去了 GIL 的保护后会出 bug. 因此这个转变的过程会是缓慢且 opt-in 的, 几年内不太可能看到 CPython 会 nogil by default. 不过,未来的 CPython 只要提供一个 optional nogil mode, 应该就已经能革新整个 Python 社区了. 值得关注.


user avatar   hylarucoder 网友的相关建议: 
      

从大学到现在,我使用Java已经将近20年,日常也带实习生,还在公司内部做training,所以可以分享下我的经验,希望对你有用。

因为是在工作中培训,就必然有两个约束:实用、时间紧,因此就不能像大学那样,把所有的知识点都面面俱到的讲到。而只能挑基础的,实用的,难理解的讲。至于其他边边角角的知识,就一笔带过。一则没有时间,二则不常用,再则既使讲了,学生印象也不深刻。总之一句话:“好钢用在刀刃上”。

下面,就根据我的实践,具体谈下学习过程:

1.基础知识

我学习java的时候,先是通读了《Java编程思想》,然后是《Java核心技术》。当时这两本书还不像现在这么厚,而刚才我把案头的《Java核心技术》第9版翻了翻,上下两册已经1700多页了,可想而知,如果要把它通读一遍,且不说把所有的代码都调通,就是当小说读,估计也需要些时间。

但我现在教学依然首推《Java核心技术》,主要是体系完整,实例多,可操作性强。但对初学者,我一般是只讲前6章,也就是下面的内容:

  1. Java程序设计概述
  2. Java程序设计环境
  3. Java的基础程序设计结构
  4. 对象与类
  5. 继承
  6. 接口与内部类

就《Java核心技术》第9版来说,也就是到250页为止,加把劲,1个月拿下完全没问题。

因为你是自学,所以建议你一定要把其中的代码都调通,课后的作业尽量去做。除此之外,还有两点特别重要:

#.学习笔记

因为你是自学,不像在企业中学了就能够实践,印象自然特别深刻。而自学因为没有实践的及时反馈,所以记笔记就显得特别重要。因为记笔记就像写作一样,是整理思路的绝佳方法。同时学习笔记也是你以后开发,面试的绝好资料。

学习编程,人跟人是不一样的,别人觉得难理解的东西,对你却不一定;而你觉得难理解的东西,别人可能又会觉得特简单。而学习笔记就是自己专有的“难点手册”,有点像高考时的“错题本”,以后无论是在面试前,还是在日常工作中,随时都可以翻出来看看,自是获益匪浅。

#.分门别类保存demo

学习笔记是很好的文字资料,但编程界有句话说的特别好,所谓“no code, no text”,意思就是说:千言万语都没有一段代码来的实在。

以我的经验,在你在学习的过程中,就某个知识点,无论当时理解的多透彻,调试的多棒,只要时间一长,等到了实用的时候,肯定会碰到各种各样的问题,一些看似简单的东西,此时死活就是调不通,正所谓人到事中迷。这个时候,如果你手头恰有运行良好的demo,打开参考一下(甚至直接拷贝过来),问题自然迎刃而解。而且因为这些demo都是你亲手调试出来,印象自然特别深刻,一碰到问题,在脑子中自会立刻涌现。

所以说,在学习的过程,一定要善待你调通的demo,千万不要用完了就扔,等后来碰到困难,想要用时却找不到,追愧莫及。正确的做法就是把所有调通的demo,分门别类的保存起来,到时候查起来自是得心应手。

人都说“书到用时方恨少”,其实代码也是这样,所谓“demo用时方恨少”。

2.Spring

目前在Java EE开发中,Spring已经成为和Java核心库一样的基础设施,所以说如果想成为一个合格的Java程序员,Spring肯定绕不开。另一方面,如果掌握了Spring体系,Java基本上就算入门了,就有能力进行一些实用级的开发了。

但Spring本身也是日渐复杂,衍生项目越来越多,但最最核心的概念依旧是IOC和AOP,掌握了这两个概念,再把Spring MVC学会,再学习其他的衍生项目就会平滑很多。

同时,因为Spring本身就应用了许多优雅的设计理念,所以学习Spring的过程,也是加强Java基础知识学习的过程。因此等你掌握了Spring,原来很多你理解不透彻的Java特性,此时就会恍然大悟,包括接口、抽象类等。

我学习Spring,读的第一本书是《Spring实战》,坦率的说,书很一般,但市面上比它好的书,我却没有遇到过。还有一本《Spring源码深度解析》也不错,对Spring的设计理念讲的尤其透彻,虽然整本书读起来有些艰涩,但前几章却生动有趣,也是整本书的精华。所以建议你在学习Spring之前,先把该书的前几章通读一下,然后再回过头来学习《Spring实战》会顺利很多。

以我经验,要学透Spring,终极的方法还是阅读源码(我当时就是这么干的),待把Spring的核心源码通读了,人就真的自由了(所谓无真相不自由),不仅是对Spring,而是对整个Java体系。以后再遇到其他框架,大概一眼就能看出其中的脉络,所谓到了“看山不是山”的境界。但这都是后话,可以作为以后你努力的方向。

和学习Java基础知识一样,学习Spring也一定要记笔记,一定要分门别类保存demo。

老实说,Spring对初学者不算简单,因此最好能有个好老师带一下,不用太长时间,2个课时即可,然后就是在你遇到大的困难时,能及时的点拨下。

以我的经验,要初步掌握Spring,大概需要1到1个半月的时间。

3.其他知识

Spring是Java编程的基础设施,但真要进入到实际项目的开发,还有些东西绕不过,包括 MySql,Mybatis,Redis,Servlet等,但如果你经过Spring的洗礼,这些东西相对就简单多了,以我的经验,1个月的时间足够了。

4.实践

学习Java,光学不练肯定是不行的。但因为是自学,所以就没有实际的产品让你练手,但也没有关系,谁大学还没有做过毕业设计呢?以我的经验,大家最爱的“学生管理系统”依旧是个很好的练手系统。

别看“学生管理系统”逻辑简单,但麻雀虽小五脏俱全,其中数据库设计、Mybatis,Spring、SpringMVC,Servlet、Tomcat一个都不缺,绝对的练手好伴侣。

还有,虽然你的学习重点在Java,因为要做一个完整的demo,前端的配合肯定少不了。因此就免少不了要学一些简单的JS、HTML知识,但因为前端本就是个很大的topic,所以一定要控制好边界,千万不要顾此失彼。就“学生管理系统”来说,在前端上,只要实现一个包含table、textbox、button,能发送REST请求到server,能实现学生的“增删改查”的简单页面即可。

作为一个练手项目,目标就是把Java的主要技能点串起来,所以自不求尽善尽美(也不可能),所以1个月时间足够了。

.最后

按照上面的过程,4个月的时间刚刚好。当然Java的体系是很庞大的,还有很多更高级的技能需要掌握,但不要着急,这些完全可以放到以后工作中边用别学。

学习编程就是一个由混沌到有序的过程,所以你在学习过程中,如果一时碰到理解不了的知识点,大可不必沮丧,更不要气馁,这都是正常的不能再正常的事情了,不过是“人同此心,心同此理”的暂时而已。

在日常的教学中,我常把下面这句话送给学员们,今天也把它送给你:

道路是曲折的,前途是光明的!”

祝你好运!

--- 上面是原答案 ---

我把上面的内容作了下整理,画了学习路线图,内容也有些升级,供参考。

因为有朋友,通过留言或私信方式问我:Java中有哪些知识已经过时,不需要再学习了

回答的多了,就感觉这是一个普遍的问题,因此统一整理了下,作为这篇文章的补充,希望对你有用。




  

相关话题

  编程书籍教程等有哪些常见的错误或者不准确的地方? 
  python中的模块、库、包有什么区别? 
  语法糖dsl之类是否破坏代码风格? 
  有什么好的自学 Python 的书籍推荐? 
  为什么有些编程语言的数组要从零开始算? 
  Python/Pandas如何处理百亿行,数十列的数据? 
  专攻哪门编程语言好? 
  C 语言执行 a=a++; 后,a 的值应该加一还是不变? 
  在大型项目上,Python 是个烂语言吗? 
  为什么著名的轮子很少有用 Lisp 写的? 

前一个讨论
如何看待何恺明最新一作论文Masked Autoencoders?
下一个讨论
如何评价论文「Stochastic Training is Not Necessary ...」?





© 2024-11-22 - tinynew.org. All Rights Reserved.
© 2024-11-22 - tinynew.org. 保留所有权利