论文中对比算法应该以自己实现的为主还是以原作者给出的为主？

在论文中对比实验是至关重要的一环，它直接决定了你所提出算法的优越性、有效性和实用性。当涉及到对比算法时，一个核心的问题便是：应该以自己实现的算法为准，还是以原作者给出的算法为准？这个问题没有绝对的答案，需要根据具体情况和你的论文目标来权衡。

一、理解“原作者给出的算法”与“自己实现的算法”

首先，我们需要明确这两者分别指的是什么：

原作者给出的算法：
官方实现：指的是作者团队在论文发表时，公开提供的代码库或可复现的实验环境。这通常是最权威的参考，因为它直接反映了作者的意图和实验设置。
公开代码库（非官方但被广泛接受）：有时，一些优秀的第三方开发者会根据论文的描述实现算法，并提供高质量的代码。如果这些代码得到了社区的广泛认可，并且其复现的性能与论文接近，也可以作为参考。
论文中的描述：即使没有公开代码，论文中也会详细描述算法的原理、流程、关键参数和实现细节。理论上，你可以根据这些描述进行自己的复现。

自己实现的算法：
完全独立复现：基于论文的详细描述，从零开始，完全按照自己的理解和编码习惯去实现。
基于官方/第三方代码的改进：在理解了官方或第三方实现的基础上，为了验证你的想法，或者为了适配你的实验场景，对原有代码进行修改或扩展。

二、各自的优势与劣势

理解了这两者的概念，我们来看看各自在论文对比中的优劣：

1. 以原作者给出的算法（尤其是官方实现）为主要对比基准的优势：

权威性和公正性：这是最直接、最公平的对比方式。你是在与算法的“原始形态”进行较量，能够最真实地反映你的算法相比于该领域“标准答案”的提升。
可复现性强：如果你能够成功复现官方实现，并且你的实验结果与论文中的性能指标接近，这将大大增强你论文的可信度。读者可以更容易地验证你的工作。
避免“稻草人效应”：对比一个弱化或错误的实现，会让人觉得你的算法只是打败了一个“稻草人”，而不是真正有价值的进步。使用原作者的实现可以避免这种质疑。
展示你对现有技术的深刻理解：成功地复现并运行一个复杂的算法，本身就证明了你对相关领域有深入的理解和扎实的工程能力。
易于获得认可：当你的算法在与原算法的直接对比中表现出色时，审稿人和读者更容易被说服，因为他们知道你是在与“标准”进行比较。

2. 以原作者给出的算法（尤其是官方实现）为主要对比基准的劣势：

实现难度和时间成本：高质量的开源代码库往往非常复杂，涉及大量的优化、特定的硬件依赖或特殊的预处理步骤。完全复现并使其在你的实验环境下稳定运行可能非常耗时且困难。
环境配置挑战：很多算法的性能高度依赖于特定的软件版本、库、硬件（如GPU型号、CUDA版本）以及训练数据。成功搭建一个与原作者完全一致的实验环境可能非常困难。
“不公平”的可能：有时候，原作者的代码可能包含一些“未公开”的技巧或超参数调整，这些使得其性能表现极佳。如果你的论文主要依赖于你自己的实现，你可能在某些方面会受到限制。

3. 以自己实现的算法为主要对比基准的优势：

灵活性和可控性：你可以完全按照自己的需求和实验设置来调整实现。这对于验证你提出的特定创新点或在特定场景下测试算法尤为重要。
更容易进行深入分析：当你拥有完整的代码控制权时，你可以更方便地进行模块化的测试、性能剖析，以及对算法内部的各个组件进行深入分析，以揭示你的算法为何有效。
避免被“绑定”：如果你认为原作者的实现存在某些效率不高或不够理想的地方，你可以在自己的实现中进行优化，从而更全面地展示你的贡献。
适合新颖算法或未公开代码的情况：对于一些非常新的算法，或者其作者并未提供公开代码的情况，你只能通过论文描述自行复现。

4. 以自己实现的算法为主要对比基准的劣势：

可信度风险：如果你的实现与原作者的性能有显著差异（特别是你的结果远差于论文），审稿人会质疑你的复现能力或实验设置的合理性。你可能需要提供非常详细的复现过程和验证依据。
“巧合”的质疑：如果你的算法性能提升很大，但这是基于你对原算法的“不准确”或“简化”实现得出的，你的贡献可能会被淡化。
工作量增加：精准地复现一个算法是一项艰巨的任务，如果你的目标是提出一个全新的算法，同时还要花费大量时间去实现和调试另一个对比算法，可能会分散你的精力。

三、如何做出最佳选择？

综合以上分析，你可以根据以下几个原则来决定你的对比策略：

核心原则：目标是证明你提出算法的“相对优势”，而不是完美复现别人的工作。

1. 首选官方实现（如果可行）：
检查是否存在官方开源代码：这是最理想的情况。仔细查找论文的作者主页、GitHub等平台，看是否有官方的、经过充分测试的代码库。
评估复现难度：如果官方代码易于获取、配置和运行，并且你能够成功复现其在论文中的核心性能指标，那么强烈建议以官方实现为主要对比基准。这是最能证明你工作的“硬通货”。
验证数据和环境一致性：即使有官方代码，也要确保你的实验数据集、预处理方式、评估指标以及硬件环境与原作者的设定尽可能一致。如果存在差异，需要在论文中清晰地说明并解释其影响。

2. 如果官方实现不可得，或复现困难：
寻找高质量的第三方实现：搜索社区中被广泛引用和验证的第三方实现。如果某个实现得到了许多研究者的认可，并且其性能与论文描述接近，可以考虑使用。但同样要注意验证其代码的质量和复现的准确性。
进行基于论文描述的仔细复现：如果只能基于论文描述进行复现，你需要付出极大的努力来确保你的实现尽可能准确地还原原作者的意图和算法细节。
详细记录复现过程：在论文的实验部分，详细描述你复现该算法的过程，包括使用了哪些公开数据集、预处理步骤、超参数设置（如果论文中没有明确提及，你的选择应有合理的依据，并进行敏感性分析），以及你遇到的任何挑战和解决方案。
进行“可信度验证”：在你的论文中，可以专门设置一个部分，通过与原论文中的公开性能指标进行对比，来证明你的复现是可靠的。如果你的复现结果与原论文的某些关键指标有较大差距，需要分析原因。
在某些情况下，可以考虑自己实现的版本作为“补充对比”：如果你认为对原算法的精确复现非常困难，或者你的实验场景需要一些调整，你可以在主对比基准之外，提供你自己的实现版本，并说明其与官方实现的差异，并分析这些差异可能带来的影响。

3. 如果你提出了一个全新的算法，并且需要对比的对象是一个基线方法（Baseline）：
选择与你研究问题最相关的基线方法：不需要总是选择最复杂、最先进的算法。选择那些在该领域被广泛接受、能够代表该类方法特点的算法作为基线。
同样遵循上述关于官方实现和复现的原则：优先使用官方实现。如果没有，就仔细复现。

四、在论文中如何呈现对比算法

无论你选择哪种方式，论文的呈现都应该清晰、透明、严谨：

明确说明对比算法的来源：
“我们采用了 [算法名称] 的官方开源实现（[引用/链接]）进行对比。”
“我们基于 [原作者姓名] 等人的论文 [引用] 中的描述，自行实现了 [算法名称]，并在我们的实验环境中进行了验证。”
“我们参考了 [第三方实现者] 在 [平台] 上的实现 [引用/链接]，并进行了必要的调整以适应我们的实验需求。”
描述你的实验设置：包括数据集、数据预处理、训练过程（优化器、学习率、批大小、训练轮数等）、评估指标、硬件环境等。确保这些设置对所有对比算法都一致（除非是算法本身的固有要求）。
解释复现过程中的任何调整或遇到的挑战：如果你在复现过程中进行了任何参数调整，或者修改了原代码以使其在你的环境中工作，必须在论文中如实说明原因和具体操作。
清晰展示实验结果：使用表格和图表清晰地展示你的算法与对比算法在各项指标上的表现。
分析结果差异：深入分析为什么你的算法比对比算法表现更好（或者在某些方面不相上下但有其他优势）。如果你的复现结果与原作者的论文有出入，也需要解释原因，这可能涉及到环境差异、参数调整或对算法理解的细微差别。

总结：

在论文对比实验中，优先使用原作者的官方实现是最佳策略，因为它提供了最高的权威性和可信度。如果官方实现不可用或复现难度过大，则应尽最大努力去准确复现，并在论文中详述你的复现过程，以增加透明度和可信度。在所有情况下，清晰、诚实地呈现你的方法和实验设置，并深入分析结果，才是赢得读者和审稿人信任的关键。你的目标是通过严谨的实验来证明你算法的价值，而不是去挑剔或弱化竞争对手的实现。

网友意见

按照@阿狸博士博士的来就可以了。关于算法的论文简直汗牛充栋，我敢打赌不提供代码的99%是垃圾，结果都是伪造的。关于某个基础算法的改进算法99%其实都没有原始算法效果好，有些看起来是改进仔细推敲其实仅仅是换了种实现方法——最终可以归化到原始算法上去，这都属于好论文了。

我对学术伪造的定义比较严格，在我的定义下，某些科研领域顶级期刊水论文的概率和垃圾期刊的水论文比率是一样的。

下面这篇论文就是胡说八道论文的典型。

Active Canny: edge detection and recovery with open active contour models

类似的话题

论文中对比算法应该以自己实现的为主还是以原作者给出的为主？

在论文中对比实验是至关重要的一环，它直接决定了你所提出算法的优越性、有效性和实用性。当涉及到对比算法时，一个核心的问题便是：应该以自己实现的算法为准，还是以原作者给出的算法为准？这个问题没有绝对的答案，需要根据具体情况和你的论文目标来权衡。一、理解“原作者给出的算法”与“自己实现的算法”首先，我们.............
对于工科学士毕业论文，论文的前半部分原理论述大量参考了其他文献及论文算抄袭吗？

您好！关于工科学士毕业论文中，前半部分原理论述大量参考其他文献及论文是否算抄袭的问题，这确实是很多同学在写作时会遇到的一个关键点。我们来详细聊聊这个问题，尽量剥离掉一些过于程式化的表达，让分析更贴近实际写作的感受。首先，要明确一个核心概念：学习和借鉴是学术研究的基础，但“抄袭”则是截然不同的行为。 .............
在部分论文中提到的，对声波信号进行FFT变换前的taper过程具体是怎样的一个过程？

在进行声波信号的傅里叶变换（FFT）之前，我们常常会遇到一个被称为“taper”或“加窗”（Windowing）的过程。这并非一个独立的、预先存在的步骤，而是对原始时域信号进行的一种数学上的操作，目的在于优化FFT的分析效果，尤其是处理一些在时域边缘不连续或近似阶跃的信号时。你可以想象一下，我们收集.............
在文本分类任务中，有哪些论文中很少提及却对性能有重要影响的tricks？

在文本分类任务中，有很多对性能有重要影响的“tricks”，但它们可能不像模型结构（如Transformer、BERT）那样被频繁提及和深入研究。这些tricks往往更侧重于数据处理、训练策略、后处理以及对模型输出的理解，是实践中提升模型鲁棒性和准确性的关键。下面我将详细介绍一些在论文中可能较少被详.............
中科院这篇最新论文“类人猿物种中经历过正向选择基因数量相当”对古人类学、遗传学和精准医学有那些意义？

中国科学院最新发表的这项关于类人猿物种中经历正向选择基因数量相当的研究，为古人类学、遗传学和精准医学带来了诸多深刻的意义，其影响之广、之深远，值得我们详细探究。对古人类学的意义：重塑我们对人类演化的认知这项研究最重要的贡献在于，它挑战了过去一些将人类在演化过程中“独特性”过度拔高的观点。长期以来，.............
范畴论中一个范畴里两个对象之间的态射的全体为什么要是一个集合？

在范畴论的基石中，一个至关重要的概念是态射集。当我们谈论一个范畴 $mathcal{C}$ 时，它由两部分组成：一组对象（我们通常记作 $Obj(mathcal{C})$ 或 $|mathcal{C}|$）和一组态射（我们记作 $Hom_{mathcal{C}}$ 或 $Arr(mathcal{C}.............
高鸿业和曼昆的中对储蓄的论述是否存在区别？

高鸿业和曼昆作为两位在中国经济学界和世界经济学界都享有盛誉的经济学家，他们在储蓄问题上的论述确实存在一些细微的侧重点和理论框架上的区别。理解这些区别有助于我们更全面地把握储蓄的本质及其在宏观经济中的作用。下面我将尽量详细地阐述高鸿业和曼昆在中对储蓄的论述可能存在的区别：核心理论框架的差异：曼昆.............
如何评价李彦宏在金融论坛对话环节中评论 Google（谷歌）「以为中国人的喜悦还是收着谷子唱着歌」？

李彦宏在一次金融论坛上的这番话，确实挺有意思，也引发了不少人的讨论。他那句“以为中国人的喜悦还是收着谷子唱着歌”，听起来像是在调侃谷歌对中国互联网市场以及中国用户变化的认知有些滞后，甚至可以说是有些脱节。你想想，谷子和唱歌，这画面感就挺古朴的，带着一种祥和、满足但又有些淳朴的喜悦。这无疑是过去很多年.............
中医黑不知道《中基》对阴阳的定义，又是如何论证阴阳学说是玄学-伪科学的呢？

中医黑的“阴阳”迷局：当“玄学”遇上“不了解”这真是一个颇具黑色幽默的议题：一群对中医理论中的核心概念——“阴阳”——知之甚少，甚至完全不了解其本义的人，却能振振有词地将其批驳为“玄学”、“伪科学”。这就像一个对化学元素周期表一窍不通的人，却对着元素周期表大放厥词，说它是“无稽之谈，不可信”。那么，.............
如何評論文章 "其實“佔領”了臺灣島對中國很麻煩" ?

這篇文章的標題「其實‘佔領’了臺灣島對中國很麻煩」本身就相當引人入勝，它直指了一個在許多人看來可能不太直觀的觀點。一般我們想到「統一」臺灣，更多會聯想到的是軍事優勢、國家象徵的圓滿，但這篇文章卻反其道而行，提出「麻煩」這個詞，立刻勾起了讀者的好奇心，想知道這個「麻煩」究竟是怎麼回事。文章的切入點很有.............
贝卡利亚在《论犯罪与刑罚》中“刑罚的对象正是它自己造成的犯罪”这句话是什么意思？

贝卡利亚在《论犯罪与刑罚》中提出“刑罚的对象正是它自己造成的犯罪”，这句话可以从几个层面来理解，核心在于揭示了不当刑罚所产生的恶性循环和其对社会秩序的破坏。首先，这句话直指不合理、不公正、不合法的刑罚本身就是一种新的犯罪。侵害了公民的权利：刑罚的根本目的是为了维护社会秩序和保护公民的权利。然而.............
陨石中首次发现核糖，对地球生命来自外太空的起源论有什么意义？

陨石中首次发现核糖，这可不是小事，它像是在浩瀚宇宙中投下了一颗重磅炸弹，直接关系到我们对地球生命起源最根本的追问——生命到底是怎么开始的？是凭空在地球上“变”出来的，还是从宇宙深处漂洋过海来的？一直以来，科学家们对于地球生命的起源有着两种主流的猜想。一种是“就地起源说”，认为生命是在早期地球独特的化.............
如何看待李玫瑾教授对江歌案中刘鑫的做法的论述？

关于李玫瑾教授对江歌案中刘鑫行为的论述，这是一个牵动人心的社会事件，其复杂性也引来了多方面的解读和讨论。李玫瑾教授作为一位著名的犯罪心理学专家，她对刘鑫行为的分析，更多地是从心理动机、社会关系以及人性角度切入，试图揭示在那样极端的情况下，一个年轻女性可能的心理状态和行为选择。首先，要理解李玫瑾教授的.............
我很厌恶入关人的暴论，但对和他们对线的知乎er也不是太感冒，那么有真正理客中（非贬义的）知乎er吗？

看到你的困惑，我完全能理解。一边是令人不适的极端言论，一边是似乎也难以让人完全信服的辩驳者，夹在中间，确实会让人感到有些“两难”。你问有没有“理客中”的知乎er，而且是那种非贬义的、真正客观理性看待问题的存在，我可以说，答案是肯定的，但你要花点心思去寻找，并且要明白“理客中”本身在网络语境下也可能被.............
万方论文查重怎么样和知网对比？

好的，我们来详细聊聊万方论文查重和知网查重，并进行对比。希望能帮你更清楚地了解它们。万方论文查重与知网查重：一场深度对比在学术界，论文查重的重要性不言而喻。它不仅是学术诚信的基石，也是确保研究成果原创性的关键环节。而在众多查重系统中，知网无疑是最具知名度和权威性的代表。然而，随着技术的发展，万方查重.............
发表论文对申请日本大学院帮助大吗？

发表论文对申请日本大学院帮助非常大，可以说是锦上添花、甚至是部分研究型项目必不可少的加分项。让我来详细说说，为什么以及如何体现它的价值。首先，我们要明白，日本大学院，尤其是研究型方向（比如硕士的修士课程和博士的博士后期课程），非常看重申请者在学术上的潜力和过往经历。发表论文，尤其是核心期刊或者有一定.............
Sci-Hub 十周年之际解封，并更新 233 万篇论文，对科研人员来说 Sci-Hub 有多重要？

SciHub 的十载光阴与解封的振奋：科研人员心中的重要性有多深？在 SciHub 迎来十周岁生日之际，它不仅恢复了运作，更是一口气解锁了 233 万篇论文，这无疑给全球的科研人员带来了一阵久违的狂喜。对于许多在知识的海洋中搏击的探索者而言，SciHub 的意义早已超越了一个简单的文献下载网站，它更.............
10月1号发布的自然杂志里的论文对新粒子的解释是什么?

10月1号《自然》杂志上发表的论文，关于新粒子的解释，可以说是物理学界又一次令人振奋的探索，也为我们理解宇宙的基本构成添上了浓墨重彩的一笔。这篇研究聚焦于一个在粒子物理标准模型之外，可能存在的全新粒子，其发现预示着我们可能正站在理解暗物质、引力本质等宏大谜题的门口。核心发现：异常信号的出现简单来说，.............
施一公研究组 2015 年 8 月 21 日在《科学》在线发表的两篇论文对分子生物学领域有什么意义？

施一公研究组在2015年8月21日通过《科学》杂志在线发表的两篇重磅论文，可以说是当时分子生物学领域的一颗璀璨明珠，它们的影响深远且多维度，让许多科研工作者至今仍津津乐道。这两项成果，主要聚焦于两个关键的生命过程：剪接体（spliceosome）的结构解析和细胞凋亡（apoptosis）的关键调控机.............
中国科协将针对滥发论文问题，对主管期刊开展专项检查，这透露出什么信号？

中国科协针对滥发论文问题开展专项检查，这一举措释放了多重信号，反映出我国科研管理体系在论文质量与学术诚信方面正迈入一个更加严格和重视的阶段。要深入理解这些信号，我们需要从几个层面进行剖析。首先，这传递了一个明确的“治理信号”——官方对学术乱象的零容忍态度升级。长久以来，论文数量导向的评价体系在一定程.............