Home Applied Analytics入门介绍
Post
Cancel

Applied Analytics入门介绍

课程介绍

Applied Analytics(应用分析)”是一门跨学科课程,主要教授如何利用数据分析来解决实际业务或社会问题。它结合了数据科学、统计学、商业分析和信息技术的内容,注重数据驱动决策的实际应用。

学科方向包含:

  • 数据分析基础
    • 数据收集、清洗与处理
    • 探索性数据分析(EDA)
    • 数据可视化工具(如 Tableau、Power BI)
  • 统计与建模
    • 描述性统计与推断统计
    • 回归分析、聚类分析
    • 机器学习入门(如预测模型、分类模型)
  • 数据工具与编程
    • Python 或 R 编程
    • SQL 数据库操作
    • Excel 高级分析
  • 商业与战略分析
    • KPI 与绩效分析
    • 市场细分与客户分析
    • 数据驱动的战略决策
  • 项目实践(Capstone Project)
    • 使用真实数据进行商业案例分析
    • 撰写数据报告并提出决策建议

课程目标课程目标(Course Goals)

  • 在预测分析(Predictive Analytics)的开发流程中获得实践经验。
  • 深入了解医学信息学(Medical Informatics)领域的挑战。
  • 理解以下基本概念:
    • 数据准备(Data Preparation)
    • 描述性与预测性建模(Descriptive & Predictive Modeling)
    • 模型评估(Model Evaluation)
  • 将所学技能应用于实际问题。
  • 能够对预测模型进行批判性评估(Critical Assessment of Predictive Models)。

用途?预测分析(Predictive Analytics)

  • 根据历史数据中的模式来预测未来结果。
  • 利用统计方法与机器学习算法来建模这些数据模式。
  • 在医学信息学中,预测分析被用于提升决策质量与运行效率。
  • 在医疗场景中,预测分析可用于:
    • 预测患者的再入院风险;
    • 提前发现疾病迹象(如糖尿病、心脏病风险模型);
    • 优化医院资源分配(如病床或急诊调度);
    • 个性化治疗建议(根据历史病例与病人特征)。

预测分析 vs 商业智能 vs 统计学

这些领域都使用相似的数据分析方法,但**目标与关注点不同:

角度 预测分析
Predictive Analytics
商业智能
Business Intelligence
统计学
Statistics
目标 预测未来 Prediction 描述现状 Description 验证理论 Inference
方法 统计 + 机器学习 可视化 + 数据汇总 数学建模 + 假设检验
模型驱动方式 数据驱动(Data-driven) 数据呈现(Data visualization–driven) 理论驱动(Theory-driven)
数据类型 历史数据 + 预测变量 历史 + 实时数据 实验或抽样数据
核心问题 “接下来会怎样?” “现在是什么情况?” “为什么会这样?”

执行步骤

阶段 关键问题 关键词  
1️⃣ Business Understanding 我们要解决什么问题? Objective  
2️⃣ Data Understanding 我们有哪些数据? Structure & Quality  
3️⃣ Data Preparation 数据是否干净、可用? Clean & Transform  
4️⃣ Modeling 应该用什么算法? Select & Train  
5️⃣ Evaluation 模型好用吗?达标吗? Assess & Compare  
6️⃣ Deployment 如何让模型真正落地? Integrate & Monitor  

1、商业理解

确定项目的目标!!!清晰的业务目标,是成功的预测分析项目的起点。

在任何数据分析或预测分析项目中,第一步是理解业务问题(Business Understanding)
只有明确项目的业务目标与应用场景,后续的数据建模与算法选择才有意义。

  • 理解项目的目标与背景
  • 对目标进行量化
  • 确定可用数据
  • 选择合适的建模方法
  • 评估模型与业务目标的匹配度
  • 考虑模型的落地与应用方式

2、理解数据

探索数据的结构与质量!没有良好的数据理解,就没有可靠的分析结果。

在进入建模前,必须先深入了解数据的基本特征与潜在问题。 这一阶段是整个数据分析流程中最重要的准备步骤之一。

  • 检查数据结构(Examine the structure of the data)
  • 检查变量的描述性统计(Inspect the descriptives of your variables)
  • 可视化数据以获得更深入的洞察(Visualize your data for further insights!)
  • 记录分析前需要解决的问题(Note problems that must be addressed before analysis)

3、数据准备

清洗、转换并选择用于分析的数据!将原始数据转化为“可建模的数据”。

在进入建模阶段前,必须确保数据干净、结构合理且符合模型假设。 数据准备阶段通常是整个分析流程中最耗时、但也是最关键的一步。

  • 变量清洗与离群值分析(Variable cleaning, outlier analysis)
  • 处理缺失值(Address missing values)
  • 数据转换(Data transformation)
  • 特征/维度缩减(Feature/dimension reduction)
  • 数据抽样计划(Plans for data sampling)
  • 时间与质量的权衡(Time ↔ Quality trade-off)

4、建模

选择、训练并调优模型!建模阶段不仅是“训练模型”,更是“科学实验”。

在完成数据准备后,进入预测分析的核心阶段:模型构建(Modeling)。 这一阶段的目标是选择合适的算法、训练模型,并通过反复优化提升性能。

  • 确定建模技术(Decide which modeling technique(s) you want to apply!)
  • 模型训练与测试(Model training and testing)
  • 迭代与调优(Iterate with fine-tuning)
  • 文档记录以确保可复现性(Document the process for reproducibility!)

5、模型评估

评估并比较模型表现!将模型结果与业务目标相结合!

不仅要判断模型“预测得好不好”, 还要评估它是否真正服务于项目的业务目标

  • 评估模型性能指标(Assess the performance criteria of your model)
  • 比较多个模型的表现(If multiple models were trained, compare their performance)
  • 解释模型结果(Interprete your model results for additional insights beyond predictions)
  • 评估模型的潜在业务影响(Assess potential business impact of your model)
  • 检查模型是否满足业务目标(Check if model meets the business objectives)

6、模型部署

将模型部署到真实世界的环境中!Deployment = 从“分析结果”走向“可持续应用”。

实例研究

数据分析让健康 App 推荐从“主观印象”变为“数据驱动的科学决策”。

  • 用户 → 找到真正有效、安全的 App;
  • 医生 → 基于客观数据做出推荐;
  • 开发者 → 了解用户需求,持续优化产品。

通过数据分析与机器学习方法,我们可以系统化地理解用户反馈,并构建透明、可信的健康 App 推荐体系。分析方法与改进作用:

  • 情感分析(Sentiment Analysis)
  • 文本挖掘(Text Mining)
  • 聚类分析(Clustering)
  • 预测建模(Predictive Models)
  • 推荐系统(Recommendation Systems)
  • 促进数据驱动与透明化决策(Data-driven & Transparent Recommendations)

数据集

  • Apple App Store :分类(Categories):“Health & Fitness(健康与健身)”“Medical(医学)”
  • 其他来源

现状与问题

数据访问受限,数字化创新受到阻碍。

机器学习的发展依赖大量训练数据,但隐私数据受各类限制。

解决方案之一:合成数据

合成数据(Synthetic Data)是指通过模拟真实数据分布保持统计特征不含真实个人信息的人工生成数据集。

方面 优势
🔒 隐私安全 不包含可识别个人的原始记录,规避法律风险。
🔁 可共享性强 多机构可共享,用于算法开发与教学研究。
🧩 可控性高 可在不同场景下生成平衡、无偏的数据样本。
🧠 模型测试 可在不暴露真实数据的前提下进行模型训练与验证。

接下来的学习计划

  • 数据分析核心方法(Data Analytics Core Methods)
  • 大型语言模型(LLMs, Large Language Models)
  • 经济分析(Economic Analysis)

提前准备工具:

  • Anaconda:Python 的数据科学发行版,核心作用:
    • 集成环境:包含 Python、R、Jupyter Notebook、Spyder 等
    • ⚙️ 包管理器 Conda:方便地安装、更新、卸载库
    • 🧩 虚拟环境管理:可为不同项目创建独立环境,防止版本冲突
    • 💡 稳定性高:适合教学、科研与生产环境使用
  • Python:数据分析与建模的核心语言,拥有大量数据分析与AI相关的库,如:
    • pandas(数据处理)
    • numpy(数值计算)
    • matplotlib / seaborn(可视化)
    • scikit-learn(机器学习)
    • tensorflow / pytorch(深度学习)
  • Spyder: 科学计算型 IDE(集成开发环境),可直接编写、运行 Python 代码并查看分析结果。
      • 🖥️ 左侧代码编辑区 + 右侧控制台 + 下方变量浏览器
    • 🔍 可实时查看变量值、数组、图像、数据表
    • ⚡ 适合交互式调试与数据探索
    • 📊 与 matplotlibpandas 等库无缝整合
This post is licensed under CC BY 4.0 by the author.