游戏传奇首页
游戏我的天下首页
最好看的新闻,最实用的信息
05月03日 14.1°C-15.2°C
澳元 : 人民币=4.76
悉尼
今日澳洲app下载
登录 注册

超实用!5个“端到端数据科学”Python项目

2021-07-21 来源: 36氪 原文链接 评论0条

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:数据科学的应用日益广泛。研究数据科学,多做实践项目非常有必要,从项目中学习,积累实战经验。本文将为你介绍 5 个优秀的数据科学项目,既有适合初学者的项目,也有高级项目,它们都是运用Python实现的,通过这些项目你可以充分了解数据科学对于企业的价值所在。本文译自Medium,作者是 Frank Andrade,原标题为“5 Solved end-to-end Data Science Projects in Python”。

超实用!5个“端到端数据科学”Python项目 - 1

Photo by Austin Distel on Unsplash

要学好数据科学,必须学习数学、统计和编程这三门基础课程。但是只学好这三门课就够了吗?你知道如何更多地接触并实践应用数据科学吗?

项目学习是一种非常好的方式! 通过一个项目,可以实践你从数学、统计学和编程学习中获得的所有知识。你可能每个科目都学得很好了,但在你运用它们完成一个项目后,你将能更加深刻地领会每个学科概念背后的意义。

在这篇文章中,我列出了一些可以用Python实现的端到端数据科学项目。这些项目是按难度排列的,简单的在开头,高级项目在最后。

注意:要完成本文列举的大多数项目,都需要对Python具备相当的了解。你至少应该知道Pandas、Numpy和Scikit-learn等库的基础知识。我将附上每个项目的源代码,以及每个项目中使用的库的指南。如果你还是个Python初学者,我建议你先从初级项目开始。

强调一下——关于探索性数据分析的学习

“所谓探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。探索性数据分析在上世纪六十年代被提出,其方法由美国著名统计学家约翰·图基(John Tukey)命名。——出自《所谓探索性数据分析Exploratory Data Analysis更宜译作"试探性"》一文

你将来要解决的大多数现实世界的项目,包括本文中列出的这些,都需要进行EDA。这个步骤在每个数据科学项目中都是必不可少的,因为它可以帮助你理解数据,并通过可视化技术获得有用的洞察。

EDA还有助于发现数据中的意外结果和异常值。例如,直方图、箱形图和条形图等图形可以帮助识别异常值,这样就可以不受它们的干扰,更好地进行分析。

超实用!5个“端到端数据科学”Python项目 - 2

照片来源:Myriam Jessier on Unsplash

在本文中,我并没有把EDA当作一个项目,因为它通常不是项目的最终目标,而是人们为了更好地分析数据而必须做的事情。要学习EDA,请查看这份指南,它介绍了如何运用Python实现数据可视化。在该指南中,你将通过一个包含足球运动员统计资料的数据集进行深入学习。此外你还可以查看这份指南,以了解在 Python 中如何进行脏数据清理,它将向你展示如何使用在第一个指南中学到的可视化方法来识别和处理异常值。

1. 情感分析

我要介绍的第一个项目是建立机器学习模型来预测一部电影的评论所反映出的情绪。

情绪分析是一种NLP技术,用于确定数据是积极的、消极的还是中立的。它对企业有很实在的价值,因为有助于全面了解客户的意见。

在这个项目中,你将用到一个来自IMDB的数据集,其中包含5万条电影评论(分为评论和情绪2个字段)。我们的目标是建立完美的机器学习模型,用于预测电影评论中的情绪。为了方便初学者,你只需要预测一个电影评论是正面还是负面的就好。这被称为二进制文本分类,因为结果只有两种可能。

超实用!5个“端到端数据科学”Python项目 - 3

照片来源:AbsolutVision on Pixabay

应用的库(包括指南):Pandas, Scikit-learn

源代码:Sentiment Analysis in Python (Text Classification)

这个项目的特别之处在于,你可以学习如何使用scikit-learn库,并从头开始建立一个基本的机器学习模型。

检测项目

你可以用Python实现许多“检测”类型的项目。下面我将按照项目的难度来列举一些例子。

2. 虚假新闻检测

这可能是最适合初学者上手的项目。互联网上充斥着虚假新闻,在大众中传播混乱和恐慌。因此,识别信息的真实性很重要。幸运的是,我们可以使用Python来解决这个问题。

超实用!5个“端到端数据科学”Python项目 - 4

照片来源:Roman Kraft on Unsplash

应用的库(包括指南):Scikit learn (TfidfVectorizer and PassiveAggressiveClassifier),Pandas 和 Numpy

源代码:Detecting Fake News

这个项目的目标是区分真正的新闻与虚假新闻。为此,我们将使用机器学习框架sklearn的一些工具,如TfidfVectorizer和PassiveAggressiveClassifier。

3. 信用卡欺诈检测

如果你想要做更有挑战性的项目,可以试试信用卡欺诈检测。信用卡欺诈已经给消费者和公司双方造成了数十亿美元的损失,而欺诈者还在不断试图寻找新的方法来实施这种非法行为。因此建立并完善欺诈检测系统已经成为了银行最大限度减少损失的关键。

在这个项目中,你应该从包含交易历史的数据集中分析客户的消费行为。地点等变量将帮助你识别欺诈性交易。

超实用!5个“端到端数据科学”Python项目 - 5

照片来源:rupixen.com on Unsplash

应用的库(包括指南):Pandas, Matplolib, Scikit-learn, Machine Learning Algorithms (XGBoost, Random forest, KNN, Logistic regression, SVM, 和 Decision tree )

源代码:Credit Card Fraud Detection With Machine Learning in Python

4. 聊天机器人

聊天机器人就是一个通过语音或文本形式来模拟人类对话的程序。更为先进的聊天机器人是使用人工智能建立的,我们手机上大多数消息传递类型的应用程序都有用到。

要创建像Siri和Alexa这样的语音助手当然很复杂,但我们可以使用Python和深度学习创建一个基本的聊天机器人。在这个项目中,你将使用数据科学技术,通过数据集来训练聊天机器人。聊天机器人处理的互动越多,它们的智能和准确度也会随之提高。

超实用!5个“端到端数据科学”Python项目 - 6

照片来源:Omid Armin on Unsplash

软件包:Keras, NLTK, Numpy

源代码:How To Create A Chatbot with Python & Deep Learning In Less Than An Hour

通过建立一个简单的聊天机器人,你将可以接触到很多数据科学和编程的有用技能。

5. 客户流失预测

客户流失率是指客户停止与公司做生意的比率,通常用特定时间段内停止订阅(使用服务)的用户的百分比来表示。

这可是一个测试你的数据科学技能的好项目,我在黑客马拉松中还做过呢!

这个项目的目标是要能够区分出一个客户是否会流失。要做到这一点,你将使用一个数据集来建立预测模型,其中包含关于银行客户的财务数据,诸如信用评分、使用时长、使用的产品数量和估计薪酬等信息。

软件包: Pandas, Matplolib, Scikit-learn, Machine Learning Algorithms (XGBoost, Random forest, KNN, Logistic regression, SVM, and Decision tree)(XGBoost, Random forest, KNN, Logistic regression, SVM, and Decision Tree)

源代码:Bank Customer Churn Prediction

我介绍的五个项目就是这样啦。希望通过这些项目,你能更好地理解数据科学,祝学有所成。

译者:张茉茉

转载声明:本文为转载发布,仅代表原作者或原平台态度,不代表我方观点。今日澳洲仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络content@sydneytoday.com。
今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: info@sydneytoday.com 商业合作: business@sydneytoday.com网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:news@sydneytoday.com

友情链接: 华人找房 到家 今日支付Umall今日优选