该分类下的开源项目
#数据仓库# awesome-public-datasets - 收集了各种类别的开源数据,包括但不限于经济、农业、生物、民生、气象、数据安全等等
#自然语言处理# 🤗 The largest hub of ready-to-use datasets for ML models with fast, easy-to-use and efficient data manipulation tools
翻译 - 🤗 PyTorch,TensorFlow,NumPy和Pandas中用于自然语言处理以及其他功能的快速,高效,开放式数据集和评估指标
#数据仓库# OpenRefine(原名Google Refine) 是一个强大的数据清洗和转换工具
#计算机科学# Data Lake for Deep Learning. Multi-modal Vector Database for LLMs/LangChain. Store, query, version, & visualize datasets. Stream data in real-time to PyTorch/TensorFlow. https://activeloop.ai
翻译 - 访问和管理PyTorch和TensorFlow数据集的最快方法。轻松构建可伸缩的数据管道。Leading Data 2.0 http://activeloop.ai
#自然语言处理# 搜索所有中文NLP数据集,附常用英文NLP数据集
#计算机科学# TorchGeo: datasets, samplers, transforms, and pre-trained models for geospatial data
翻译 - TorchGeo:地理空间数据的数据集、转换和模型
#数据仓库# Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models,corpus and leaderboard
翻译 - 汉语语言理解评估基准:数据集,基线,预训练模型,语料库和排行榜