本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
内容简介
内容简介这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的Z新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。*1部分(第 1~6 章) 观测数据的分析技术讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。*二部分(第7~9章)实验设计和分析技术从 A/B 实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。第三部分(*10~12章) 自助式数据科学平台SQLFlow针对性的讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。
目录
*1章:如何分析用户的选择 11.1选择行为的经济学理论 11.1.1 选择无处不在 11.1.2 选择行为的经济学理论 21.2 用户选择行为计量分析框架:DCM 41.2.1 从经济模型到计量模型 41.2.2 常用的DCM模型及应用场景 81.3 DCM模型的Python实践 111.3.1软件包&数据格式 111.3.2 使用Logistics Regression分析自驾选择问题 151.3.3 使用 Multinomial Logit Model 分析完整交通方式选择问题 211.3.4 使用 Nested Logit Model 分析完整交通方式选择问题 251.4 本章小节 27*二章:随时间可变的行为分析 272.1 从“如何给二手车定价”案例说起 272.1.1 二手车定价背景 272.1.2 为什么不选择一般回归模型? 282.1.3 为什么选择生存分析? 292.2 生存分析的理论框架 292.2.2 生存函数及风险函数刻画 342.2.3 生存函数回归及生存概率的预测 362.3 生存分析在二手车定价案例中的应用实践 382.3.1 软件包&数据格式&数据入读 402.3.2 生存分析基础操作:二手车销售生存曲线绘制及差异对比 42第三章 洞察消费者长期价值:基于神经网络的LTV建模 443.1 LTV的概念和商业应用 443.1.1 LTV——用户终生(长期)价值 453.1.2 用户生命周期和用户终生价值 453.1.3 LTV的特点 463.1.4 LTV分析能帮助我们回答的问题 463.1.5 LTV的计算方法 473.2 神经网络的基本原理 493.2.1 神经网络的历史 493.2.2 本章所涉及的神经网络结构 503.3 基于Keras的LTV模型实践 563.3.1 Keras介绍 563.3.2 数据的加载和预处理 563.3.3 输入数据的准备 593.3.4 模型搭建和训练 653.3.5 模型分析 683.4 本章总结 68第4章 使用体系化分析方法进行场景挖掘 694.1. 选择经验化分析还是体系化分析 694.1.1经验化分析的局限性 694.1.2体系化方法的手段和优势 704.2. 体系化分析常用工具 714.2.1黑盒模型与白盒模型 714.2.2可解释模型——决策树 714.2.3全局代理模型 764.2.4场景挖掘模型分析方法框架 774.3. 场景挖掘分析实践 784.3.1数据背景及数据处理 784.3.2经验化分析 804.3.3场景挖掘模型的Python实现与模型解读 804.4. 本章小结 86第5章 行为规律的发现与挖掘 86概述 865.1对包含有顺序关系数据的规律分析 875.1.1有序数据及SVD方法概述 875.1.2SVD原理及推导 885.1.3SVD聚类建模Python实战 935.2对无序稀疏数据的规律分析 985.2.1稀疏数据及NMF方法概述 985.2.2NMF原理及推导 995.2.3NMF聚类建模Python实战 100第6章 对观测到的事件进行因果推断 1046.1 使用全量评估分析已发生的事件 1046.1.1 为什么要进行全量评估 1046.1.2 全量评估应用 1056.2 全量评估主要方法 1056.2.1 回归分析 1056.2.2 DID方法 1146.2.3 合成控制 1166.2.4 Causal Impact 1196.3 全量评估方法的应用 1236.3.1 关于物流单量的全量评估应用(回归模型) 1236.3.2 恐怖主义对经济影响评估(DID) 1286.3.3 恐怖主义对经济影响评估(合成控制) 1306.3.4 天气情况的评估(Causal Impact) 1336.4 本章小结 147第7章 如何比较两个策略的效果 1477.1如何才能正确推断因果关系? 1477.1.1 什么是相关性谬误 1477.1.2 潜在结果和因果效果 1487.2运用A/B实验进行两策略比较 1497.2.1 什么是A/B实验 1497.2.2 为什么应用A/B实验 1507.2.3 A/B实验的基本原理 1507.3 A/B实验应用步骤(实验方法具体实施步骤) 1517.3.1 明确实验要素 1517.3.2 实验设计 1537.3.3实验过程监控 1557.4 A/B实验案例介绍 1567.4.1 实验场景介绍 1567.4.3实验效果评估 1587.5 本章小结 159第8章 如何提高实验效能 1608.1 控制实验指标方差的必要性和手段 1608.2 用随机区组设计控制实验指标方差 1618.2.1 利用随机区组实验实验设计降低方差 1618.2.2 随机区组实验的特征选择 1628.3 随机区组实验应用步骤 1638.3.1 明确实验目标及背景: 1638.3.2 实验设计: 1638.3.3 实验过程监控: 1638.3.4 实验评估中用到的方差分析的基本原理: 1638.4 随机区组实验案例介绍 1688.4.1 背景介绍: 1688.4.2 基本设计: 1698.4.3 随机区组实验相关的设计: 1698.4.4 效果评估 1708.5 随机区组实验常见问题 1728.5.1 方差分析的使用前提是什么 1728.5.2 随机区组的个数是越多越好吗? 1728.5.3 随机区组实验的回归方程的