说明

中文 | English

说明

这是一些NLP/数据工作人员常用的函数组成的包，可以简化一些读写操作，使代码更加可读。主要包括两个部分：基本的读写工具和机器学习/深度学习工作中常用的数据处理函数。

它解决了什么问题：

很多函数是记不住的，每次写都要搜问大模型，例如pandas排序
刷题的时候，树结构的题目很难调试

nlpertools
 ├── mkdocs.yml # used in doc
 ├── .readthedocs.yml # used in doc
 ├── pyproject.toml # used in pypi
 └── setup.cfg # used in pypi

最常用/喜欢的功能（使用示例）

# 读txt, json文件
import nlpertools

txt_data = nlpertools.readtxt_list_all_strip('res.txt')
json_data = nlpertools.load_from_json('res.json')

## git, 连接github不稳定的时候非常有用
ncli git pull
## 带有参数时，加上--以避免-u被解析
ncli -- git push -u origin main

# 生成pypi双因素认证的实时密钥(需要提供key)
ncli --get_2fa --get_2fa_key your_key

安装

Install the latest release version

pip install nlpertools

📢[ 推荐 ] 安装git最新版本

pip install git+https://github.com/lvzii/nlpertools

文档

https://nlpertools.readthedocs.io/en/latest/

开发指南

import都放在了utils/package.py里，通过脚本可自动生成
类似paddle、ltp的import需要判断是否使用才import，因为import的时间太长，例如:
```
class STEM(object):
    from ltp import LTP

    def __init__(self, IPT_MODEL_PATH):
        self.ltp = LTP(IPT_MODEL_PATH)
```
通过pyinstrument判断，超过1s的包即采用这种方式
- 2s+ happybase、seaborn、torch、jieba
- 1s+ /
- 0.5s+ pandas elasticsearch transformers xgboost nltk mongo
git commit guide
readthedoc 检查文档构建状况
打包发布指南
发布版本需要加tag

开发哲学

针对读取文件的方法，是将一些参数直接写在函数里，以实现快速使用。

原则是：写过一遍的函数，绝不写第二遍！

一些可能需要配置才能用的函数，写上示例

一些常用项目

nvitop

ydata-profiling

贡献

https://github.com/bigscience-workshop/data-preparation

Name		Name	Last commit message	Last commit date
Latest commit History 118 Commits
.github/workflows		.github/workflows
docs		docs
src		src
tests		tests
.gitignore		.gitignore
.readthedocs.yaml		.readthedocs.yaml
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
README.md		README.md
README_EN.md		README_EN.md
TODO.md		TODO.md
mkdocs.yml		mkdocs.yml
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py
temple_for_doc.py		temple_for_doc.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

中文 | English

说明

最常用/喜欢的功能（使用示例）

安装

文档

开发指南

开发哲学

一些常用项目

贡献

About

Uh oh!

Releases 3

Packages

Uh oh!

Languages

License

lvzii/nlpertools

Folders and files

Latest commit

History

Repository files navigation

中文 | English

说明

最常用/喜欢的功能（使用示例）

安装

文档

开发指南

开发哲学

一些常用项目

贡献

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 3

Packages 0

Uh oh!

Languages

Packages