脱敏数据增强版数据信息
数据文件: 脱敏数据_增强版.xlsx
数据来源: 基于脱敏数据.xlsx进行增强处理
增强方案: 分析方案/脱敏数据增强方案.md
数据规模: 6671行,25列
📊 数据增强说明
增强操作
- 删除列(3列):客户综合级别、售前主产品名称、系统主产品名称
- 新增列(5列):测试阶段_测试中、测试阶段_待反馈、测试阶段_不接入、测试阶段_可接入、测试阶段_已接入
数据完整性
- 行数: 6671行(保持不变)
- 列数: 25列(原23列 - 3列删除 + 5列新增)
- 约束验证: ✅ 通过(每条记录的5个测试阶段列有且仅有一个为"是")
📋 数据基本信息
数据规模
- 数据行数: 6671
- 数据列数: 25
- 数据形状: (6671, 25)
列名列表
- 申请主键ID
- 申请时间
- 客户简称
- 客户类型
- 销售
- 部门名称
- 子产品名称
- 样本量
- 测试进度
- 反馈结果
- 指标
- 测试效果备注
- 接入意向
- 不接入原因
- 接入备注
- 测试返回时间
- 产品开通时间
- 首次调用时间
- 是否开通
- 是否调用
- 测试阶段_测试中(新增)
- 测试阶段_待反馈(新增)
- 测试阶段_不接入(新增)
- 测试阶段_可接入(新增)
- 测试阶段_已接入(新增)
📊 缺失值统计
| 列名 | 缺失数量 | 缺失比例(%) | 非缺失数量 |
|---|---|---|---|
| 样本量 | 447 | 6.70 | 6224 |
| 指标 | 4874 | 73.06 | 1797 |
| 测试效果备注 | 1432 | 21.47 | 5239 |
| 接入备注 | 5961 | 89.36 | 710 |
注意: 新增的5个测试阶段列无缺失值,每条记录有且仅有一个为"是",其他4个为"否"。
📈 数值型字段统计摘要
| 统计量 | 申请主键ID | 样本量 |
|---|---|---|
| count | 6671.00 | 6224.00 |
| mean | 1571.65 | 1196293.00 |
| std | 305.18 | 14139650.00 |
| min | 1103.00 | 3.00 |
| 25% | 1313.00 | 50000.00 |
| 50% | 1555.00 | 100328.00 |
| 75% | 1762.00 | 387693.00 |
| max | 2234.00 | 260000000.00 |
📊 分类型字段分布(主要字段)
- 客户类型: 11 个唯一值
- 部门名称: 7 个唯一值
- 值列表: ['上海部', '数据部', '一定部', '作为部', '那个部', '部分部', '只要部']
- 测试进度: 6 个唯一值
- 值列表: ['测试中', '待反馈', '可接入', '已反馈', '不接入', '已接入']
- 反馈结果: 7 个唯一值
- 值列表: ['-', '达标', '客户不使用', '未达标', '客户未提供', '客户未评估', '一般']
- 接入意向: 3 个唯一值
- 值列表: ['可以接入', '无法接入', '-']
- 是否开通: 2 个唯一值(是/否)
- 是否调用: 2 个唯一值(是/否)
新增测试阶段列分布
| 列名 | 为"是"的数量 | 占比(%) |
|---|---|---|
| 测试阶段_测试中 | 771 | 11.56 |
| 测试阶段_待反馈 | 1222 | 18.32 |
| 测试阶段_不接入 | 3556 | 53.31 |
| 测试阶段_可接入 | 1027 | 15.39 |
| 测试阶段_已接入 | 95 | 1.42 |
验证: 上述5个数量之和 = 6671(等于总记录数)✅
🔍 数据质量检查
- 完全重复的行数: 359
- 总记录数: 6671
- 总列数: 25
📌 关键字段说明
测试阶段列(新增)
- 测试阶段_测试中: 表示正在测试(是/否)
- 测试阶段_待反馈: 表示已经测试完毕等待客户反馈(是/否)
- 测试阶段_不接入: 表示客户没有接入意向(是/否)
- 测试阶段_可接入: 表示客户有接入意向(是/否)
- 测试阶段_已接入: 表示已经完成签约(意向状态)(是/否)
实际状态字段
- 是否开通: 签完合同后开通接口,客户可以随时调用(实际状态)
- 是否调用: 客户开始调用接口(此时才会产生收益,这是关键指标)(实际状态)
注意: "是否开通"和"是否调用"是实际状态,与"测试进度"和新增测试阶段列(意向状态)不重复。
本报告基于脱敏数据增强方案处理后的数据生成
增强方案位置: 分析方案/脱敏数据增强方案.md