这篇笔记包括了基本的 SQL 语法,具体应用的 RDBMS 以 MySQL 为例,也会穿插一点点数据库的知识。最后讲了一下如何利用第三方库,结合 Python 使用 MySQL。
Python 有非常丰富的第三方绘图库,matplotlib 使用起来也许并不是很便捷,因为图上每个元素都需要自己来定制。但仔细体会 matplotlib 背后的设计思想是很有趣的事情。seaborn 之类的绘图库是基于 matplotlib 封装的,因而后期需要自己灵活定制图形时就大大受用了。本文的两幅思维导图是基于两种不同的思路绘制的,偶有内容交叉,日常使用可以选择自己熟悉的方式(网上的教程大多是基于过程的函数式编程,即 pyplot 方法)。建议配合最后附上出的参考资料学习。
Pandas 提供了数据结构——DataFrame,可以高效的处理一些数据分析任务。我们日常分析的数据,大多是存储在类似 excel 的数据表中,Pandas 可以灵活的按列或行处理数据,几乎是最常用的工具了。
NumPy 主要提供了矢量化数组运算的方法。通过将条件逻辑写成数组表达式,可以极大的简化代码(比如原先需要多个 if-else 分支循环才能实现的运算)。NumPy 的数据结构用于处理矩阵,是很多其他数值分析库的基础。
本文是我的「ML&DM 笔记」第六篇。应部分朋友的来信请求,先分享这部分与「分类」有关笔记。机器学习的这块知识体系非常庞大,部分知识可能深入不够,暂时仅供大家参考,我也还需要时间来更细致的学习。后续我会结合案例,单篇逐个进行讲解(可能需要的时间周期较长)。本文目前包括的理论包括决策树,规则分类器,最近邻方法,贝叶斯分类器,人工神经网络,支持向量机,集成学习以及不平衡类和多类问题。
本文是我的「ML&DM笔记」第五篇。本文将持续更新。