StonesLuo

Laziness is the Sin

进阶码农

2019-07-08 • ml-dl, logistic regression

Logistic Regression

1. 回归 & logistic回归

logistic回归：二值型输出分类器：

回归：用一条直线对一些数据点进行拟合的过程；
logistic回归：根据现有数据对分类边界线建立回归公式，从而进行分类。

“回归”（最佳拟合）–> 寻找最佳拟合参数集（使用最优化算法）；

2. 优缺点

优点：简单易实现，计算代价不高；
缺点：拟合能力不行（易欠拟合），分类精度可能不高；

适用数据类型：数值型 & 标称型数据；

3. logistic回归实现

在每个特征上乘以一个回归系数，然后相加；
将总和代入sigmoid函数中，得到一个0~1之间的数值；
大于0.5被归入1类，小于0.5被归于0类。

logistic回归可以被看成是一种概率估计。

4. loss取binary cross entropy

或从概率生成模型的角度看logistic回归，构造最大似然函数。

5. 梯度上升法

要找到某函数的最大值，最好的方式是沿着该函数的梯度的方向探寻；
梯度存在，函数在待计算的点上有定义，且可微；
一直迭代更新参数集，直至达到某个停止条件为止：
- 迭代次数达到某个指定的值；
- 算法达到某个可以被允许的误差范围内。
  
  梯度上升法：用来求最大值；
  
  梯度下降法：用来求最小值。

6. 随机梯度上升

一次只用一个样本来更新回归参数；
可以在新样本到来时对分类器进行增量式更新，是一种在线学习算法；

但具有一些小的周期性波动。

7. 使优化算法快速收敛 & 减小随机梯度上升时的来回波动

使lr随着迭代次数不断变小: lr = 4/(1.0 + epoch_id + step_id) + 0.01；
random sampling（随机取样）: 每次随机从列表中选出一个值，然后从列表中删掉该值，再进行下一次迭代。

8. 缺失值（Nan）处理

补均值：
- 可用特征的均值；
- 相似样本的均值;
用特殊值来标记：如-1；
扔掉样本；
用其它ML方法预测均值。

最近的文章

高效获得知识

可靠的信息源；搜索引擎；业内专业人员的交流；书本；视频：如何高效学习知识并持续进步？【李自然说 Vlog44】…

2019-11-05 • reading, methodology继续阅读

更早的文章

LC-array1-easy-1,26,27

1. two sumGiven an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the same element twice.Example:Given nums = [2, ...…

2019-07-08 • algor, array, leetcode继续阅读