我早年还在做科研的时候,整个组里一半的数据处理要经我的手。倒不是因为我多牛逼,只是因为位阶比较低,这种费力不讨好的活儿自然落到我头上。
可能我还算有点儿天分,逐渐把数据处理给自动化。所以本着能者多劳的原则,越来越多的数据就开始经我的手。
然后重点来了,十几个参数,无数的阈值,还有十几个步骤。同一个数据,只要微微一调整就会有完全不同的结果。而整个组里,除了我,没有一个人对这些处理数据的步骤和方法都熟悉。或者这么说,在整个世界,整个领域里对这套方法理解很深刻的人不超过10个,而这10个人当中大部分都毕业去了工业届,几乎没人留在科研届。
原因就在于,搞这个领域的数据处理很难发文章。
好了,到了最后,随着我手越来越熟。我可以这么说,无论你给我什么数据,我都能处理出你想要的结果。而且,除非我提到的那十个人愿意花很大的精力来跟我死磕,否则,没有人能看出任何猫腻。
这件事成了我离开科研圈的一个重要原因。这是数据处理环节,后来我参与一些实验,其实也类似。实验环境的一点点微调就可以让结果千差万别,有的是无意的,有的是人为的。整个科研,从样品制备,实验设备调试,实验进行,数据筛选,数据处理,图像处理……每一步都有很大的操作空间。很多微操如果按照严格的理想化的标准来看都算是造假,但要真按照这个标准,一半的科研机构都躲不过造假的指控。
开始我觉得这个问题是个别的,后来才发现这是结构性的。
这么说吧,人类科研领域越来越难取得成果,低垂果实都已经被前人给摘了。所以想要取得真正的成果需要天量的投入。但是科研部门评判标准却是论文的数量,这套标准让科学家无法不顾一切地投入,在机制中寻找真理。科学家必须在经费和产出间权衡。而能够微操的空间有那么大,所以造假或者不严谨的处理变得非常普遍。另外,检测造假的成本非常高,前一段时间沸沸扬扬的韩春雨造假事件。我其实一直在挺他,但最后事实证明他就是在造假。但这个鉴别造假的过程,足足让整个世界相关超过十个课题组,用了半年时间才得到结论。其人力物力的成本少说也是千万量级。因此,如果不是重大的成果,学界根本不会花费那么多时间来鉴别数据的真伪。
总结一下:
后来我去了工业界,发现工业界就好得多。工业界里搞的探究不是为了发文章,而是为了提高产品性能,所以数据灌水毫无意义。因此,工业界发表的文章可能并不多,也许档次也不见得高,但至少数据和实验大都可信。
总之,学术领域是需要大力改革的,里面的问题非常多。以前我们只是单纯学欧美,现在也需要在这个基础上进行相应的创新了。
编肯定要编啊,不编怎么毕业,做实验是不可能做的,这辈子都不可能做的,idea又想不出,代码也不会改,只有靠造数据才能维持的了生活这样子。
在下前排985 著名水货 拥有三年编数据经验,有问题的可以私聊。
讲点料,控制工程转cv方向,没有资源没有idea没有人带,问就是自己钻研发1区易如反掌探囊取物,我探你个鬼,看paper顶会看了一年,好不容易找到一个可能的方向,费尽心思环境搭建起来,跑一跑,发现顶会的论文结果竟然不是论文里写的那样。震惊了对不对,深度学习调参工程师的职业理想瞬间崩塌。另一面老板天天催,偶尔带夹枪带棒暗示没有1区,毕业是不可能毕业的,这辈子都不可能毕业的,我去你妈的,那就别怪我心狠手辣。
Python大法直接画pr曲线,随心所欲,想要什么样就有什么样,甚至乱系秀技术写了个全能画图脚本,可根据数据自然抖动,并进行适当平滑,那曲线出来性感的就像三十岁少妇的臀部。
不敢说所有985都这个逼样,但至少3年硕士教育,没有底蕴没有指导就妄想出顶会论文的,有一个算一个论文查一下都她妈得取消学位,制度就是这样,论文评价体系,哎。
不说了,我要接着造,不但要造,还要造它个虎虎生风,造它个一日千里,造它个恍如隔世。