• 第1章 机器学习实战-复习版(问题汇总)
    • 1.VSCode的安装使用
    • 2.GitHub的使用说明
    • 3.问题汇总
    • 4.复习的时间和资料
    • 5.直播方式
    • 6.机器学习QQ群

    第1章 机器学习实战-复习版(问题汇总)

    1.VSCode的安装使用

    参考文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=7373315

    2.GitHub的使用说明

    参考文档:https://github.com/apachecn/kaggle/blob/master/docs/github-quickstart.md

    注意: https://github.com/apachecn/MachineLearning (这是本项目的地址,记得修改链接。。)

    3.问题汇总

    1.样本数据的来源:

    1. 1. 日志文件
    2. 2. 数据库
    3. 3. HDFS
    4. 4. 数据流

    2.样本数据按照一定比例来划分:训练数据集 + 测试数据集

    1. 1. 根据业务场景来分析,得到对应的比例
    2. 2. 一般设置是按照 训练数据集:测试数据集 = 8:2

    3.训练数据集包括: 特征(也就是数据的纬度 or 属性) + 目标变量(分类结果 or 回归值)

    4.测试数据用来干嘛?

    如下图:用于评估模型的效果。(测试样本的预测类别 和 测试样本的实际类别 的diff,就是我们的错误率)

    机器学习训练过程图

    5.监督学习和无监督学习的区别:是否有目标变量(也就是:是否存在分类结果)

    6.电子书的下载位置:

    • 下载书籍: https://github.com/apachecn/MachineLearning/tree/python-2.7/books

    7.性能不好是什么意思?

    • 就是对比其他语言来说:资源的使用效率受限、处理速度慢。

    8.学习原理后,如果成为调包侠?调包侠是否很丑?

    1. 学习原理后,就看看 sklearn中文文档: http://sklearn.apachecn.org, 转型做调包侠
    2. 调包侠一点都不丑,为什么呢?
      • 便于分析业务,快速发现问题
      • 开发速度快,便于优化和维护

    9.python讲解的版本 2.7.X

    • 2.7.X版本测试比较稳定,没有Bug
    • 3.X 的朋友刚好可以上手去熟悉 API 并 锻炼自我解决问题的能力,算是自我学习的一个方式吧
    • 对于使用 3.X的朋友,可以提交 Pull Requests 到 3.X 分支,成为开源的贡献者,方便更多的人学习你的代码

    4.复习的时间和资料

    • 形式:直播+讨论组
    • 周期:周一 ~ 周五
    • 时间:20:30 ~ 21:30
    • 学习文档:https://github.com/apachecn/MachineLearning
    • 下载书籍: https://github.com/apachecn/MachineLearning/tree/python-2.7/books
    • 活动日期:2017-11-20 ~ 2017-12-08(共15天,1章1天)
    • 活动详情:http://www.apachecn.org/machinelearning/279.html

    5.直播方式

    • QQ:在讨论组共享屏幕(实时)
      • 视频会在 讨论组中进行分享
    • B站的直播地址(延迟)
      • 直播地址: http://live.bilibili.com/5427054

    6.机器学习QQ群

    • ApacheCN - 学习机器学习群【629470233】

    装逼不装逼,我们还是老地方见! | ApacheCN