C/C++教程

K-Means, EM, DBScan(学习笔记)

本文主要是介绍K-Means, EM, DBScan(学习笔记)，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

K-Means

在这里插入图片描述

K-means算法的一些特性

在这里插入图片描述

K-Means++

在这里插入图片描述

Expectation Maximization（EM）

http://ai.stanford.edu/~chuongdo/papers/em_tutorial.pdf
https://zhuanlan.zhihu.com/p/57679630
在这里插入图片描述

E-step: Compute a distributionon the labels of the points, using current parameters
M-step:Update parameters using current guess of label distribution.

EM 与 Mixture of Gaussian

在这里插入图片描述

DBSCAN

在这里插入图片描述

总结优缺点

优点

1.相比K-Means，DBSCAN 不需要预先声明聚类数量。
2.DBSCAN 可以找出任何形状的聚类，甚至能找出一个聚类，它包围但不连接另一个聚类，另外，由于MinPts参数，single-link effect （不同聚类以一点或极弱的线相连而被当成一个聚类）能
有效地被避免。
3.DBSCAN 能分辨噪音（局外点）。
4.DBSCAN 只需两个参数，且对数据库内的点的次序几乎不敏感（两个聚类之间边缘的点有机会受次序的影响被分到不同的聚类，另外聚类的次序会受点的次序的影响）。
5.DBSCAN 被设计成能配合可加速范围访问的数据库结构。
6.如果对数据有足够的了解，可以选择适当的参数以获得最佳的分类。

缺点

DBSCAN 不是完全决定性的：在两个聚类交界边缘的点会视乎它在数据库的次序决定加入哪个聚类，幸运地，这种情况并不常见，而且对整体的聚类结果影响不大——DBSCAN 对核心点和噪音都是决定性的。
2.DBSCAN 聚类分析的质量受函数regionQuery(P ,ε) 里所使用的度量影响，最常用的度量是欧几里得距离，尤其在高维度资料中，由于受所谓“维数灾难”影响，很难找出一个合适的ε ，但事实上所有使用欧几里得距离的算法都受维数灾难影响。
3.如果数据库里的点有不同的密度，而该差异很大，DBSCAN 将不能提供一个好的聚类结果，因为不能选择一个适用于所有聚类的minPts-ε 参数组合。
4.如果没有对资料和比例的足够理解，将很难选择适合的ε 参数
== 参考贪心科技机器学习高阶班==

这篇关于K-Means, EM, DBScan(学习笔记)的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

您可能喜欢

栏目导航

前端开发

HTML5教程

CSS教程

Javascript

jQuery教程

AJAX教程

Node.js教程

XML教程

正则表达式

后端开发

Go教程

C/C++教程

消息队列MQ

Net Core教程

Asp.net教程

Java教程

PHP教程

移动端开发

微信公众号开发

小程序开发

Swift教程

IOS教程

Kotlin教程

Android开发

数据库

Redis教程

MongoDB教程

PostgreSQL教程

Oracle教程

MariaDB教程

SqLite教程

MySql教程

SqlServer教程

服务器运维

Kubernetes

Docker容器

linux shell

Nginx教程

网站安全

PowerShell教程

Linux教程

人工智能

TensorFlow教程

Python教程

机器学习

人工智能学习

区块链

区块链技术

游戏开发

游戏编程

Unity3D教程

网站运营

网站策划

网站优化

建站知识

大数据/云计算

云计算

Hadoop教程

软件工程

软件/开发工具使用

Git教程

资讯