用人工智能辅助法官判案可行么？第1页

zibuyu9 网友的相关建议:

看到法律专业人士 @王瑞恩对此做了非常专业的判断和分级，很兴奋。也许通过仔细论证，未来可以对法律智能形成类似自动驾驶分级共识。我们实验室从2018年开始涉猎法律智能，恰好做了一系列自动判决预测的相关任务。为此，我们组一直维护法律智能的论文列表，可以通过该列表了解相关技术动态。

这里从技术发展角度，探讨人工智能辅助判案的可性能和主要难点。自己对法律专业完全是门外汉，如果说了外行的话，还请专业人士多指正。我们之所以从2018年开展相关研究工作，驱动之一是中国最高法近年来建成发布了中国裁判文书网，提供了数千万份高质量的裁判文书。

基于这些裁判文书，我们将法官裁判结果作为标准答案，将文书案情描述作为训练样例，就有望以数据驱动的方法学习自动判决预测。

刑事案件判决预测。由于刑事案件判决结果形式比较简单，主要是适用法条、罪名与刑期，我们将案情描述作为待分类/回归的文本，那么判决预测任务可以看做有监督的文本分类（法条预测、罪名预测）或回归（刑期预测）问题。与普通文本分类相比，我们需要在判决预测中更好引入法律领域的专业知识。例如研究工作[1]邀请法律专业人士为每个罪名标记了相关属性（如是否有暴力情节、是否跨国犯罪、是否引发死亡等），能够有效提升罪名预测的效果。研究工作[2]则探讨了法条预测、罪名预测、刑期预测三个子任务的依赖关系对性能的影响。

民事案件判决预测。在我看来，民事案件比刑事案件的判决预测更加困难，主要原因在于案情更多样复杂，而原告提出的诉讼请求更加多样，导致判决结果无法简单地用分类或回归建模。不过，对于某些诉讼请求比较确定的案件如离婚案等，可以尝试采用机器阅读理解的技术进行建模[3]。

实际上，如果预测目标是简单的类别或数值，现有自然语言处理和机器学习技术已经可以得到相对不错的预测效果，如对多层次的案由预测[4]。

2018年，在中华人民共和国最高人民法院信息中心和中国中文信息学会的指导下，我们（包括中国法研院等）组织了第一届“中国法研杯”司法人工智能挑战赛（CAIL 2018），就选择罪名预测、法条推荐、刑期预测作为任务。

经过269个单位的1144名参赛队员组成的601支参赛队伍的努力，在标准评测数据集上罪名预测从最初79.2%提升到90.6%，法条推荐从76.1%提升到87.9%，刑期预测从31.9%提升到78.2%，众人拾柴火焰高，可见已有深度学习技术能够在这些预测任务上取得显著效果。

预测数值有很大的提升，并非代表这些判决预测技术的成熟。实际上，基于深度学习的判决预测方案，最大的问题是模型的可解释性很差：只知道预测结果，但无法给出预测依据。这将是未来法律智能技术需要着重解决的问题和挑战。我想，目前可以简单地将选择注意力机制用于建立案情描述与判决结果之间的关联，能够为法律人提供一定的具有可解释的辅助依据；而未来，将自动判决的所有可能的因果推理路径全部显式构建出来，然后再用深度学习技术学习这些推理路径的权重和参数，也许是一种比较可行的方案。我们最近也尝试采用交互式问答的形式，在人机交互过程中，一定程度上实现预测的可解释性[5]。

由于CAIL 2018的成功，2019年我们联合了更多机构（包括中国中文信息学会社会媒体处理专委会、计算语言学专委会、语言与知识计算专委会、哈尔滨工业大学SCIR、北京大学计算机所、中科院自动化所、中科院软件所、科大讯飞、国双科技、幂律智能等）开展了第二届“中国法研杯”司法人工智能挑战赛（CAIL 2019）。

这次，我们设置了法律阅读理解、法律要素识别、相似案例匹配三个赛道，共吸引了900多个单位的1800多名参赛队员组成的1300多支参赛队伍参赛。实际上，这些赛道的设置，一方面希望将更复杂的自然语言处理技术引入法律智能领域，探索其有效性和缺点；另一方面，则希望通过定义某些任务（如法律要素识别），来更好地解决法律智能的可解释性问题。

进入2020年，虽然由于疫情的影响有所推迟，我们最近开始了第三届“中国法研杯”司法人工智能挑战赛（CAIL 2020），除了去年的几家单位外，新加入了复旦大学、华宇信息、擎盾数据等单位，评测队伍进一步壮大。

我们今年设置了阅读理解、司法摘要、司法考试、论辩挖掘四个赛道：

阅读理解：要求选手们在不联网的情况下对于给定的问题推理得出答案。在CAIL2019年的基础上，今年将文书种类扩展为民事、刑事、行政，将问题类型由单步预测扩展为多步推理，将回答限定为Span、YES/NO、Unknown中的一种并且给出所有参与推理的句子编号。（哈工大、科大讯飞）
司法摘要：要求选手们的模型对裁判文书原文进行分析，输出对应的司法摘要文本。本项任务以10000篇民事一审裁判文书及对应的司法摘要为技术测评的训练集、验证集和测试集，采用ROUGE评价标准。（中科院自动化所、北京大学、擎盾科技）
司法考试：要求选手们的模型对司法考试的客观题进行答案预测，当且仅当给定的答案与标准答案完全一致时才认为是准确的。本项任务的训练集与验证集为26000道司法考试题目和专业人士新出的司法考试题[6]，最终的测试集为2020年的司法考试题。（清华大学、中科院软件所、幂律智能）
论辩挖掘：要求选手基于辩诉双方的陈述文本，输出存在逻辑交互关系的论点对（争议焦点）。本项任务以1000篇裁判文书以及4000对互动论点对为训练集、验证集和测试集，采用准确率进行评估。（复旦大学、华宇信息）

在我看来，不可能通过一次评测把这些任务完美解决，而是每年大家一起不断整理和发布新的法律智能任务，将法律智能需要解决的技术问题通过这些问题一一罗列出来，供学术界和产业界共同关注和探索。例如，今年的司法考试题目，是由我们与幂律智能合作提出来的，旨在基于前期整理的司法考试题目集合[6]，由参赛队伍训练问答模型，并在今年国家司法考试前提交模型，等司法考试结束后利用真题（只考虑选择题）进行实测。非常期待知道我们现有的自然语言处理技术在这场真人考试中表现几何。我猜测，自然语言处理模型的最终得分与人类平均得分差距不大，但距离最高得分仍有较大差距，这就是我们未来努力的方向。

今年我们实验室在ACL 2020发表了一篇综述论文[7]，就是介绍自然语言处理技术都能够在哪些方面可以为法律领域提供帮助，欢迎有兴趣的朋友查阅。最近钟皓曦同学也将在线做该主题的学术报告，欢迎关注：

我的总体判断与 @王瑞恩类似，相关技术初具雏形，从技术成熟度而言，短期内可以实现对法律人提供有限的辅助信息（L1层）；而要实现更高级辅助功能（L2、L3层），则需要解决复杂法律知识的表示、建模与应用，以及对复杂场景（如法外狂徒张三的某些复杂行为等）的理解等技术挑战，我感觉这与人工智能和自然语言处理整体的探索目标是等价的。

总之，我认为法律是人类社会和文明的基石，法律领域以人类语言作为主要工作工具，该领域包含大量复杂的专业知识，是进行人工智能和自然语言处理探索实践的绝佳场景，欢迎更多朋友关注和入坑，共同探索法律知识指导的自然语言处理技术，当然，可以从参加今年的CAIL 2020开始。:)

文献列表：

[1] Zikun Hu, Xiang Li, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Few-Shot Charge Prediction with Discriminative Legal Attributes. COLING 2018.

[2] Haoxi Zhong, Guo Zhipeng, Cunchao Tu, Chaojun Xiao, Zhiyuan Liu, Maosong Sun. Legal Judgment Prediction via Topological Learning. EMNLP 2018.

[3] Shangbang Long, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Automatic Judgment Prediction via Legal Reading Comprehension. CCL 2019.

[4] Zhiyuan Liu, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Legal Cause Prediction with Inner Descriptions and Outer Hierarchies. CCL 2019.

[5] Haoxi Zhong, Yuzhong Wang, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun. Iteratively Questioning and Answering for Interpretable Legal Judgment Prediction. AAAI 2020.

[6] Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun. JEC-QA: A Legal-Domain Question Answering Dataset. AAAI 2020.

[7] Haoxi Zhong, Chaojun Xiao, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun. How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence. ACL 2020.

wang-rui-en 网友的相关建议:

「辅助」当然可行，关键是辅助到什么程度。

信口胡诌一下，个人觉得可以把人工智能对司法审判的辅助程度分为几个层次：

L0 层：基于裁判文书数据库和法律法规数据库的数据可视化，其本质并非人工智能（只不过有时被宣传成人工智能），在十年前就已经很普遍了。

这一层，如 @立党所说，其实就是字符串搜索。例如，我想知道实践中围绕彩礼返还的争议，各地每年有多少返还彩礼的主张被支持，就跑一跑数据，然后把面板数据用比较友好的方式呈现出来，把每个省支持返还彩礼主张的百分比投在地图上，会点 hive sql，会点 python 就行。

L1 层：基于自然语言处理，对审判人员输入的案件事实进行处理，围绕案件争点对法律适用给出建议。目前已经具备了雏形。

这里开始摸着人工智能的门道了，但还离不开人工输入信息。举个例子：经过法庭质证，查明某信公司员工未经开户人同意，擅自向第三方提供了开户人 251 条银行流水信息。法官将这一事实输入系统，系统对自然语言进行处理，识别出这段事实种的争议点（是否构成「侵犯公民个人信息罪」？），然后基于相关法律法规、司法解释、指导性判例、其他裁判文书，对这个争点给出裁判建议。（例如，发现了关于何种行为构成「情节严重」的司法解释、发现了各级法院会如何解释「情节严重」，包含不同关键犯罪情节及其组合的案件量刑区间分别是什么等等。）

这一层需要进行大量的训练，而且我相信一开始召回的样本必然惨不忍睹，像是召回了「中信银行员工吃流水席时擅自曝光他人隐私」之类案件并从此一路跑偏的情况，初期肯定有，在很长一段时间内都需要基于不同的部门法、不同案由进行迭代。

L2 层：在上一层的基础上，摆脱对人工输入信息的依赖，能够在法官把控庭审进程的情况下，自行总结关键法律事实、归纳争点并给出适用法律的建议。目前仅仅被认为理论上有可能。

主要难点在于，什么是「法律事实」，是需要法官进行把关的问题。一些回答认为，只需要实现了语音输入，就能直接切到自然语言处理，进而变成一个 L1 层的问题了，对此我并不认同。

诉讼双方提供的一项证据，需要满足真实性、关联性、合法性才能被法庭采纳。对此，在必要时需要进行司法鉴定、需要结合案件全貌来判断一项证据是否和诉讼主张相关，对于一些当时并不显而易见的关联，可能需要法官继续对当事人发问获得补充说明，证据是否合法取得，有时有涉及到实体层面的问题。获取「法律事实」作为判案依据的过程，需要不断的反馈，高度依赖法官的经验。

L3 层：在上一层的基础上，由人工智能主导庭审流程，引导诉讼双方举证、对是否采纳某项证据作出判断，根据审理进程要求双方就指定的法律问题进行法庭辩论，而法官处于监督的地位。

基于以上所述的困难，到这一层，理论上是否可行都不好说，那就不继续往下说了。

个人脑洞而已，欢迎探讨。

gnadil 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

用人工智能辅助法官判案可行么？的其他答案点击这里

用人工智能辅助法官判案可行么？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

用人工智能辅助法官判案可行么？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

用人工智能辅助法官判案可行么？第1页