Skip to content

tiansztiansz/python-data-science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python 数据科学

介绍

b站 AI日日新 不定期更新使用Python框架完成机器学习、深度学习、数据科学任务。配套视频见b站合集

python的windows环境

  1. 下载python3.10,注意选择Windows installer (64-bit),在安装指引中记得勾选将python添加到路径
  2. 安装目前最流行的编辑器 vs code,在安装指引中记得将vs code添加到path路径,并开启右键打开文件夹功能,按照安装提示完成安装后即可打开该软件,然后你需要安装 Chinese (Simplified) 【汉化插件】、python【微软官方python语言支持】、Ruff【格式化和语法】、Material Icon Theme【文件标签】、jupyter【notebook支持】
  3. 安装完以上两个工具就已经ok了,然后我们新建一个文件夹,然后在文件夹内右键选择vs code打开。接着选择左上角的查看 --> 终端可以在打开的窗口运行命令
  4. pip命令是python自带的包管理工具,我们需要替换pip源来提升下载速度,请运行如下命令更换源:pip config set global.index-url https://mirrors.aliyun.com/pypi/simple
  5. 然后请再安装uv,它是比pip更快更强大的包管理工具,运行如下命令:pip install uv。然后让我们创建一个虚拟环境:uv venv,并且你可以初始化项目:uv init,还有使用与pip兼容的安装命令uv pip install <your_package>,或者你可以使用uv add <your_package>安装。因为uv的镜像配置跟pip不一致,你可以参考我当前项目下的pyproject.toml为当前项目配置镜像源,还有更多功能请前往uv官网查看
  6. 你可以使用 uv sync 命令同步本项目的依赖

自然语言处理

任务 任务说明 notebook
文本分类 文本分类是将文本划分为不同的类别的任务,例如垃圾邮件过滤、新闻文章分类等 notebooks/文本分类.ipynb
实体识别 实体识别,也称为命名实体识别(Named Entity Recognition,简称NER),用于识别文本中具有特定意义的实体。这些实体可以包括人名、地名、机构名、专有名词等,并且还可能涵盖时间、数量和其他预定义类别 notebooks/实体识别.ipynb
端到端文本生成 端到端文本生成(Text-to-Text Generation) 是一种自然语言处理(NLP)任务,其核心目标是将一段输入文本自动转换为另一段输出文本。这种转换可以是对原文的改写、总结、翻译、问答、复述等多种形式 notebooks/端到端文本生成.ipynb
完形填空 完形填空任务被用来作为预训练模型的一个下游任务,通过这样的任务来微调模型,使其更好地适应特定的语言理解需求 notebooks/完型填空.ipynb
文本表征 文本表征是一种将文本数据转化为计算机可以理解和处理的形式的技术,这通常涉及到将文本转换为数值向量,以便于进行进一步的分析和处理。例如在构建检索系统时,文本表征可以帮助从语义层面找到与用户查询相关的文档片段 notebooks/文本表征.ipynb
文本聚类 文本聚类作为一种无监督学习技术,在多个领域有着广泛的应用。例如将大量新闻文本按照主题或类别进行自动分类,有助于用户更方便地获取感兴趣的信息 notebooks/文本聚类.ipynb

计算机视觉

任务 任务说明 notebook
图像分类 图像分类被用来开发图像识别应用程序,这些程序可以识别动物、植物、汽车车型、水果、蔬菜等,并且像iPhone这样的智能手机也利用这项技术实现照片的自动分类功能 notebooks/图像分类.ipynb
视频分类 视频分类能够帮助在线视频平台自动识别上传视频的内容类型,如体育、音乐、电影等,从而实现高效的视频管理和快速检索 notebooks/视频分类.ipynb
光学字符识别 光学字符识别(Optical Character Recognition,OCR)是一种将图片、扫描文档或手写文字中的字符转换为可编辑、可搜索的数字化文本的技术。其核心是通过算法检测图像中的文字区域,并识别出具体的字符内容。 notebooks/光学字符识别.ipynb

表格中的机器学习

任务 任务说明 notebook
聚类 聚类作为一种无监督学习方法,在多个领域有着广泛的应用。例如,在图像处理领域,聚类被用作图像分割的重要方法之一,除了图像处理之外,聚类分析还在文本挖掘、生物信息学等多个领域发挥了重要作用 notebooks/聚类.ipynb
分类 分类的作用主要是将输入数据分配到预定义的类别中。这种分类任务是监督学习的一种形式。数字格式分类的核心作用是通过对数值型数据的学习和建模,预测新数据所属的类别。例如:金融领域 :根据用户的信用评分(数值型数据)判断其贷款申请是否通过(高风险/低风险) notebooks/分类.ipynb
回归 回归在机器学习的回归问题中有着广泛的应用,这些应用涵盖了多个领域。例如,可以使用回归模型来进行财务绩效预测、能耗预测以及制造工艺参数的预测等 notebooks/回归.ipynb
时间序列预测 时间序列预测的作用主要体现在通过对历史数据的分析来推测未来的趋势和模式。在实际应用中,时间序列预测被广泛用于多个领域,例如金融市场、经济预测、物联网数据处理、库存管理和生产调度等 notebooks/时间序列预测.ipynb

音频中的深度学习

任务 任务说明 notebook
语音识别 语音识别应用广泛,涵盖智能设备(如语音控制家电、汽车导航)、办公场景(会议实时转写、客服自动应答)、生活服务(手机语音助手、输入法转文字)、医疗领域(病历语音录入) notebooks/语音识别.ipynb

常见工具使用

工具 工具说明 链接
fastapi FastAPI 是一个基于 Python 的现代、高性能 Web 框架,专门用于构建 API(应用程序接口)。它结合了 Python 类型提示、异步编程以及自动文档生成等特性,使其成为开发高效、易维护的 Web 服务的理想选择 serve/fastapi_serve.py

电脑问题

问题 问题说明 解决方法
电脑网络问题 电脑能访问百度,但其他网站访问不了,原因是ip冲突了,需要修改电脑ip和dns notebooks/电脑网络问题.md

电脑常用软件

软件名 软件功能 下载链接
Ventoy Ventoy 是一款开源免费的多系统启动盘制作工具,主要用于创建可启动的 USB 驱动器,支持直接从 ISO、WIM、IMG、VHD(x) 和 EFI 文件启动,而无需反复格式化 U 盘。 链接
vs code Visual Studio Code(简称 VS Code)是微软推出的一款免费、开源、跨平台的现代化代码编辑器,支持 Windows、macOS 和 Linux 系统。它兼具轻量级和高性能的特点,同时拥有强大的扩展能力,使其不仅适用于代码编辑,还能通过插件扩展实现类似集成开发环境(IDE)的功能 链接
watt toolkit Watt Toolkit(原名 Steam++)是一款开源、跨平台的多功能游戏工具箱,但它同时还提供了github和huggingface的访问加速 链接
omofun Omofun 是一款专为动漫爱好者设计的免费在线观看平台,提供海量动漫和漫画资源,支持高清播放、离线下载、弹幕互动等功能 链接
obs OBS(Open Broadcaster Software)是一款免费开源的视频录制与直播推流软件,支持 Windows、macOS 和 Linux 系统,广泛用于游戏直播、在线教学、视频会议等场景 链接
fdm Free Download Manager(免费下载管理器),适用场景:适用于需要高效下载、管理文件,或从网站批量获取资源的用户 链接
everything Everything 是一款由 Voidtools 开发的免费、轻量级、超高速的本地文件搜索工具,专为 Windows 系统设计,能够秒级搜索计算机上的文件和文件夹 链接
剪映 剪映(CapCut)是字节跳动(抖音母公司)推出的一款免费、全平台的视频剪辑软件,支持 Windows、macOS、iOS、Android 等操作系统,并提供网页版和企业版。它主打简单易用,同时提供专业级剪辑功能,适合从新手到专业创作者的各类用户 链接
微信 微信(WeChat) 是腾讯公司推出的一款多功能社交应用,支持 iOS、Android、Windows、macOS 等平台。它不仅是即时通讯工具,还整合了支付、社交、生活服务等多种功能,成为全球用户最多的社交软件之一 链接

About

b站 AI日日新 不定期更新使用Python框架完成机器学习、深度学习、数据科学任务

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published