首页

K-means聚类算法中的K如何确定？第1页

1

huangzhe 网友的相关建议:

常用的方法是elbow method（手肘法则）^[1]。选不同的k值，例如从1-9，然后画出每一个k值的“距离之和”和k的关系图。

左轴可以是distortion

或者Inertia

distortion和inertia挺接近，都是衡量每个数据和最近中心点的距离之和，只是计算距离的方式不一样而已。

为什么要选个elbow点呢？毕竟在官方文档^[2]中，是这么说的

The K-means algorithm aims to choose centroids that minimise the inertia, or within-cluster sum-of-squares criterion:

难道不是error越小越好吗？

理论上是，但你想想什么时候error最小？就是n个数据点分成n个簇。这样做clustering失去了意义。

有时候会出现曲线转折不明显的情况，如下：

这时候除了用放大镜找Elbow，也可以用一些容易计算的方法来找最佳K值。

在文章《Understanding of Internal Clustering Validation Measures》^[3]，介绍了Clustering的11种选择最佳值的方法。例如下图方法4-11的optimal value不是min就是max，不用再选elbow。

参考

^Elbow Method for optimal value of k in KMeans https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/
^2.3. Clustering¶ https://scikit-learn.org/stable/modules/clustering.html
^Understanding of Internal Clustering Validation Measures http://datamining.rutgers.edu/publication/internalmeasures.pdf

K-means聚类算法中的K如何确定？的其他答案点击这里

1

相关话题

  Python中 __init__的通俗解释是什么？
  人工「神经网络」技术在信息处理上有何特点，工作原理是什么？
  学习机器学习应该看哪些书籍？
  推荐系统应该如何保障推荐的多样性？
  为什么交叉熵（cross-entropy）可以用于计算代价？
  在中小学阶段设置人工智能相关课程对于培养人工智能人才具有哪些意义？如何推进会比较有效？
  你见过最差的算法工程师能差到什么程度？
  如何看待MXNet获得amazon官方支持首位？
  工程师简历写着「在微软传播性病」，骗过了 90% 公司的机器筛选，机器筛选简历那么不靠谱吗？
  如何评价 DeepMind 在北京时间 19 年 1 月 25 日 2 点的《星际争霸 2》项目演示？

前一个讨论

机器学习小白来提问：关于联邦学习FedAVG和FedSGD的问题？

下一个讨论

写CUDA到底难在哪？

相关的话题

  算法岗位真的需要顶会才能入场吗？
  Linear least squares, Lasso,ridge regression有何本质区别？
  为何总感觉人工智能和神经科学（神经网络）被绑在一起？
  已有大量编程基础，如何速成python用于学习机器学习？
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面?
  三维重建怎么入门？
  精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？
  神经网络，人工智能这块怎么入门？
  机器学习如何才能避免「只是调参数」？
  金融学及金融从业者如何应对人工智能和大数据？
  未来20年，新技术将从哪些方面改变人的消费方式？
  如何评价 DeepMind 新提出的关系网络（Relation Network）？
  ICML2020有哪些值得关注的工作?
  为什么相比于计算机视觉(cv)，自然语言处理(nlp)领域的发展要缓慢？
  如何评价 NVIDIA 最新技术 5 秒训练 NERF？
  机器学习能否用于综合评价？具体怎么操作？
  人工智能和自动控制能在一起擦出什么样的火花？
  神经网络中如果一个重要特征C等于特征A+特征B（算数意义上的相加），选特征的时候还有必要选特征C吗?
  能否用具体的例子解释一下 (Model-based) Structural Estimation？
  如何用机器学习判断《溪岸图》是否董源真迹？
  主动学习(Active learning)算法的原理是什么，有哪些比较具体的应用？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  什么是反事实分析呀？
  深度学习工作站中使用AMD的CPU会有问题吗？
  K-means聚类算法中的K如何确定？
  医学生学习机器学习该如何入门？
  如何评价通信工程很多导师都研究机器学习人工智能而不是传统的天线电磁场等方向?
  如何评价深度学习之父Hinton发布的Capsule论文？
  如何看待Kaggle最新比赛Zillow禁止中国居民参加第二轮？

© 2025-06-05 - tinynew.org. All Rights Reserved.
© 2025-06-05 - tinynew.org. 保留所有权利