数据仓库

该分类下的开源项目

#数据仓库#  awesome-public-datasets - 收集了各种类别的开源数据,包括但不限于经济、农业、生物、民生、气象、数据安全等等

54.25 k
awesomedata/awesome-public-datasets

#自然语言处理#  🤗 The largest hub of ready-to-use datasets for ML models with fast, easy-to-use and efficient data manipulation tools

翻译🤗 PyTorch,TensorFlow,NumPy和Pandas中用于自然语言处理以及其他功能的快速,高效,开放式数据集和评估指标

Python15.13 k
huggingface/datasets

#数据仓库#  OpenRefine(原名Google Refine) 是一个强大的数据清洗和转换工具

Java9.44 k
OpenRefine/OpenRefine

#数据仓库#  An open source multi-tool for exploring and publishing data

翻译一个用于探索和发布数据的开源多功能工具

Python7.43 k
simonw/datasette

#计算机科学#  Open source annotation tool for machine learning practitioners.

翻译机器学习从业者的开源文本注释工具。

Python6.76 k
doccano/doccano

#计算机科学#  Data Lake for Deep Learning. Multi-modal Vector Database for LLMs/LangChain. Store, query, version, & visualize datasets. Stream data in real-time to PyTorch/TensorFlow. https://activeloop.ai

翻译访问和管理PyTorch和TensorFlow数据集的最快方法。轻松构建可伸缩的数据管道。Leading Data 2.0 http://activeloop.ai

Python5.6 k
activeloopai/deeplake

#自然语言处理#  搜索所有中文NLP数据集,附常用英文NLP数据集

Python3.18 k
CLUEbenchmark/CLUEDatasetSearch

#数据仓库#  数据接口:百度、谷歌、头条、微博指数,宏观数据,利率数据,货币汇率,千里马、独角兽公司,新闻联播文字稿,影视票房数据,高校名单,疫情数据…

Python2.38 k
justinzm/gopup

#计算机科学#  TorchGeo: datasets, samplers, transforms, and pre-trained models for geospatial data

翻译TorchGeo:地理空间数据的数据集、转换和模型

Python1.4 k
microsoft/torchgeo

#数据仓库#  Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models,corpus and leaderboard

翻译汉语语言理解评估基准:数据集,基线,预训练模型,语料库和排行榜

Python841
ChineseGLUE/ChineseGLUE