简答题

    本作业以泰坦尼克号幸存者数据集为例,全面考察学生的数据分析与可视化能力,模型搭建能力,模型评估与参数优化能力。学生可应用课上所学知识,基于实际场景理解和分析数据,解决问题加固对所学知识的理解。泰坦尼克号的沉没是历史上最臭名昭著的海难之一。1912年4月15日,在她的一次航行中,泰坦尼克号与冰山相撞后沉没。不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡。虽然幸存有一些运气,但似乎有些人比其他人更有可能生存。在本节作业中,我们要求同学建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名,年龄,性别,社会经济舱等)。数据集字段说明:- PassengerId => 乘客ID- Survived => 是否存活(测试数据里面需要我们预测的)- Pclass => 乘客等级(1/2/3等舱位)- Name => 乘客姓名- Sex => 性别- Age => 年龄- SibSp => 堂兄弟/妹个数- Parch => 父母与小孩个数- Ticket => 船票信息- Fare => 票价- Cabin => 客舱- Embarked => 登船港口本次作业的最终结果是预测乘客是否生存,对于结果而言只有生存和没有生存两种结果,故是个二分类问题。针对二分类问题,可使用的算法有逻辑回归、朴素贝叶斯、支持向量机、决策树模型等。考虑到实验的完整性和实用性,本实验选用业界常用的逻辑回归模型和随机森林模型来做对比。考虑到样本极度不均衡,模型评价选用综合指标f1_score。涉及的技术要求及具体细节如下:1. 技术要求:Python、scikit-learn、numpy、pandas、matplotlib、seaborn等2. 数据分析以及特征工程:对原始数据集进行预处理,包括合并数据集、数据统计与分析、相关性分析、数值型与非数值型数据分布、非数值化特征处理、数据标准化等操作。


    火星搜题