用来记录一些机器学习相关
概念
- 机器学习是从数据中根据算法产生函数,而不是程序员直接编写函数的技术
- 机器学习分为监督学习、半监督学习、无监督学习和强化学习
步骤
- 定义好要解决的问题
- 收集数据和数据的预处理:收集数据、数据可视化、数据清洗、特征工程、构建特征集和标签集、拆分训练集测试集和验证集
- 选择算法并建立模型
- 训练模型
- 模型的评估和优化
算法
聚类算法(无监督学习)
- 聚类算法是把空间位置相近的特征数据归为同一组
- 随机选取质点,计算样本与该空间点的距离,不断移动质点,直到样本的与质点的距离达到最小值。
- 通过绘制去不同的质点个数带来的损失,得到比较好的质点选择个数
- 分别计算每一个维度的分类层级,然后汇总所有的分类,从而得到最后的分组