问题

自己学习深度学习时,有哪些途径寻找数据集?

回答
在深度学习的自我学习过程中,寻找合适的数据集是至关重要的一步。没有高质量的数据,再好的模型算法也无法发挥其应有的威力。幸运的是,现在有非常多优秀的途径可以帮助你找到所需的数据集。下面我将详细介绍各种途径,并提供一些实用的建议:

一、 官方和公开的数据集平台

这是最直接也是最常用的数据集来源,许多学术机构和组织会公开他们研究中使用的数据集。

1. Kaggle:深度学习爱好者的宝藏

特点: Kaggle 是一个非常活跃的机器学习社区,提供了大量的公开数据集,覆盖了从计算机视觉、自然语言处理到时间序列预测、推荐系统等几乎所有深度学习的应用领域。它还经常举办各种数据科学竞赛,这些竞赛的题目和数据集都是绝佳的学习材料。
如何寻找:
浏览数据集页面: 直接访问 Kaggle 网站 [https://www.kaggle.com/datasets](https://www.kaggle.com/datasets)。
使用搜索功能: 输入你感兴趣的关键词,例如“图像分类”、“文本情感”、“目标检测”、“医学影像”等。
按类别筛选: Kaggle 会对数据集进行分类,你可以根据你的学习方向选择相应的类别。
查看流行数据集: 热门数据集通常质量较高且有大量的讨论和相关 Notebook。
参与竞赛: 很多竞赛的数据集都可以直接下载,学习别人的解决方案也能受益匪浅。
优势: 数据集种类繁多,覆盖面广,通常带有详细的描述和一些基础的分析。社区活跃,可以找到很多使用该数据集的 Notebook 和讨论。
注意事项: 部分数据集可能需要注册 Kaggle 账号才能下载。注意数据集的 License(许可协议),了解其使用限制。

2. UCI Machine Learning Repository:经典数据集的汇聚地

特点: UCI(University of California, Irvine)机器学习库是历史悠久且非常经典的数据集存储库。它包含了很多用于机器学习和统计学习研究的基础数据集,很多经典的机器学习算法的评测都是基于这些数据集。
如何寻找:
访问网站: [https://archive.ics.uci.edu/ml/datasets.php](https://archive.ics.uci.edu/ml/datasets.php)
按属性筛选: 可以根据数据集的类型(分类、回归、聚类等)、属性数量、实例数量等进行筛选。
关键词搜索: 输入与你学习领域相关的关键词。
优势: 数据集质量可靠,很多是经过仔细清洗和预处理的。适合入门学习,理解基础算法的性能。
注意事项: 许多数据集是表格型数据,可能不直接适用于深度学习中的某些任务(如图像、文本),但可以作为特征工程和模型理解的起点。

3. Google Dataset Search:万能的搜索引擎

特点: Google Dataset Search 类似于 Google 的网页搜索,但它专门索引了互联网上可用的数据集。它可以帮助你搜索来自不同来源的数据集,包括学术机构、政府部门、科研项目等。
如何寻找:
访问网站: [https://datasetsearch.research.google.com/](https://datasetsearch.research.google.com/)
输入关键词: 和搜索网页一样,输入你想要查找的数据集相关的关键词。
利用筛选器: Google Dataset Search 会尝试识别数据集的类型、访问方式、许可协议等,并提供筛选选项。
优势: 覆盖范围广,可以发现一些在 Kaggle 或 UCI 上不一定能找到的特定领域数据集。
注意事项: 搜索结果的质量参差不齐,需要你进一步去判断数据集的可用性和质量。

4. TensorFlow Datasets (TFDS):开箱即用的数据集库

特点: TensorFlow Datasets 是 TensorFlow 生态系统的一部分,提供了一系列可以直接下载和使用的知名数据集,并且与 TensorFlow 的数据加载 API 良好集成,极大地简化了数据准备的过程。
如何寻找:
访问官方文档: [https://www.tensorflow.org/datasets/catalog/overview](https://www.tensorflow.org/datasets/catalog/overview)
浏览数据集列表: TFDS 列出了所有支持的数据集,你可以根据类别查找。
Python 代码调用: 在你的 TensorFlow 代码中,可以直接通过 `tfds.load('dataset_name')` 来加载数据集。
优势: 数据集格式统一,加载方便,与 TensorFlow 集成度高,可以直接获取训练、验证和测试集,通常已经预处理好,可以直接用于模型训练。
注意事项: 主要支持 TensorFlow 用户,但也可以转化为其他框架的数据格式。

5. PyTorch Ecosystem Datasets (torchvision, torchaudio, etc.)

特点: 与 TensorFlow 类似,PyTorch 也有其生态系统中提供的数据集工具,例如 `torchvision` (图像)、`torchaudio` (音频)、`torchtext` (文本)。
如何寻找:
torchvision: [https://pytorch.org/vision/stable/datasets.html](https://pytorch.org/vision/stable/datasets.html) (如 MNIST, CIFAR10/100, ImageNet, COCO 等)
torchaudio: [https://pytorch.org/audio/stable/datasets.html](https://pytorch.org/audio/stable/datasets.html)
torchtext: [https://pytorch.org/text/stable/datasets.html](https://pytorch.org/text/stable/datasets.html)
优势: 与 PyTorch 集成紧密,易于在 PyTorch 项目中使用。提供了许多常用的数据集,且更新迭代较快。
注意事项: 需要安装对应的库。

6. Hugging Face Datasets 库:NLP 领域的首选

特点: Hugging Face 的 `datasets` 库是处理和使用自然语言处理 (NLP) 数据集的强大工具。它提供了对大量公开 NLP 数据集的访问,并且支持高效的数据加载、处理和共享。
如何寻找:
访问 Hugging Face Datasets Hub: [https://huggingface.co/datasets](https://huggingface.co/datasets)
浏览或搜索: 可以按任务(文本分类、问答、翻译等)、语言、数据集大小等进行筛选和搜索。
通过代码加载: `from datasets import load_dataset`,然后 `dataset = load_dataset("dataset_name")`。
优势: 专为 NLP 设计,支持分布式加载,与 Hugging Face Transformers 库无缝集成,非常适合学习和实践各种 NLP 模型。
注意事项: 主要专注于 NLP 数据集,但也开始扩展到其他领域。

7. 政府和公共机构的数据开放平台

许多政府部门和公共机构会公开其拥有的大量数据,这些数据可能非常适合特定领域的深度学习应用。

例子:
美国政府数据: [data.gov](https://www.data.gov/) (包括交通、医疗、环境等数据)
欧洲政府数据: [data.europa.eu](https://data.europa.eu/en)
中国国家统计局: [stats.gov.cn](http://www.stats.gov.cn/) (虽然不是直接的深度学习数据集格式,但可以作为预处理的源头)
地方政府开放数据平台: 例如上海、北京等城市也有自己的开放数据门户。
如何寻找:
搜索特定国家的政府开放数据门户。
查找与你的研究或学习领域相关的政府部门网站。
优势: 数据量巨大,可能包含很多独特和有价值的信息,尤其在社会科学、经济、城市规划等领域。
注意事项: 数据格式多样,可能需要大量的预处理和清洗才能用于深度学习。许可协议需要仔细阅读。

二、 特定领域的公开数据集资源

有些数据集非常有名,并且在特定领域内被广泛使用。

1. 计算机视觉领域

ImageNet: 世界上最大的图像数据集之一,包含数百万张标记图像,是许多图像分类模型训练的基准。可以通过 [https://www.imagenet.org/](https://www.imagenet.org/) 了解信息,但直接下载通常需要申请或通过其他渠道。
COCO (Common Objects in Context): 主要用于目标检测、分割和图像字幕生成等任务。可以通过 [https://cocodataset.org/](https://cocodataset.org/) 下载。
Open Images Dataset: 由 Google 发布的大型图像数据集,包含数百万张图像,带有丰富的标注信息(边界框、分割掩码、图像级标签)。可以通过 [https://storage.googleapis.com/openimages/web/index.html](https://storage.googleapis.com/openimages/web/index.html) 下载。
Pascal VOC: 另一个经典的图像识别和目标检测数据集。
CelebA: 包含大量名人面部图像的数据集,常用于人脸识别、生成等任务。

2. 自然语言处理领域

SQuAD (Stanford Question Answering Dataset): 用于训练和评估机器阅读理解模型。
GLUE Benchmark / SuperGLUE Benchmark: 包含一系列 NLP 任务,用于评估语言理解能力。
WikiText: 用于语言模型训练的大规模文本语料库。
Common Crawl: 一个非常庞大的网页抓取数据集,可以用来构建各种 NLP 模型,但需要进行大量过滤和处理。
IMDb Movie Reviews: 用于情感分析的经典数据集。

3. 其他领域

Kaggle 或 GitHub 上搜索特定任务的数据集,例如:
推荐系统: MovieLens (电影评分数据集)
时间序列: Kaggle 上有很多股票价格、天气等时间序列数据
语音识别: LibriSpeech, VoxCeleb

三、 从学术论文中寻找数据集

许多研究论文会详细描述他们使用的数据集,并在论文中提供下载链接或引用。

如何寻找:
阅读领域内的顶会论文: 如 NeurIPS, ICML, ICLR, CVPR, ICCV, ECCV (计算机视觉), ACL, EMNLP, NAACL (NLP) 等。
关注论文中的“Dataset”或“Experimental Setup”章节: 这些章节通常会说明使用了哪些数据集,以及如何获取。
访问论文作者的个人网站或GitHub仓库: 作者通常会在那里提供更多数据集和代码的细节。
使用 Google Scholar 或 Semantic Scholar 搜索论文,并查找引用该数据集的论文。
优势: 可以找到最前沿的研究中使用的数据集,了解最新的研究趋势。
注意事项: 一些最新或非常专业的数据集可能不是公开的,或者需要通过特定渠道申请。

四、 通过抓取和构建自己的数据集

在某些情况下,你可能找不到完全符合需求的数据集,这时就需要考虑自己收集数据了。

网页抓取 (Web Scraping):
工具: Python 的 `BeautifulSoup`、`Scrapy` 框架等。
目标: 从网站上抓取文本、图片、表格等数据。
注意事项:
遵守网站的 `robots.txt` 文件和使用条款。 尊重网站的爬虫政策。
避免对网站造成过大负担。 控制抓取频率。
数据清洗和标注: 抓取到的原始数据往往需要大量清洗、格式化和标注才能使用。
法律和伦理问题: 抓取个人信息或受版权保护的内容可能涉及法律和伦理问题。
API 接口获取数据:
许多服务提供商(如社交媒体、地图服务、天气服务等)会提供 API 接口,允许开发者以编程方式获取数据。
例如: Twitter API, Google Maps API, OpenWeatherMap API。
注意事项: 通常有使用限制(如请求次数、数据范围),可能需要注册和付费。
数据增强 (Data Augmentation):
对于图像数据, 可以通过旋转、翻转、裁剪、颜色抖动等方式生成新的训练样本,增加数据集的多样性。
对于文本数据, 可以通过同义词替换、句子重组等方式进行增强。
合成数据 (Synthetic Data):
在某些领域(如自动驾驶), 可以通过仿真环境生成大量的合成数据,以弥补真实数据的不足。
众包标注:
如果需要高质量的人工标注, 可以考虑使用众包平台(如 Amazon Mechanical Turk)或专业数据标注服务。
构建流程:
1. 明确需求: 你需要什么样的数据?包含哪些信息?格式是什么?数量有多少?
2. 数据来源选择: 哪里最有可能找到这些数据?
3. 数据获取: 下载、抓取或通过 API 获取。
4. 数据清洗与预处理: 去除噪声、处理缺失值、统一格式等。
5. 数据标注: 为数据添加标签或注释(如图像分类的标签、目标检测的边界框)。
6. 数据集划分: 将数据集划分为训练集、验证集和测试集。

五、 寻找数据集的实用技巧和建议

从小处着手: 对于初学者,建议先从一些知名且易于加载的数据集开始,例如 MNIST, CIFAR10, FashionMNIST,它们是学习图像分类的绝佳起点。
明确你的学习目标: 你想学习哪种类型的模型?解决什么问题?这会直接决定你需要什么样的数据集。
关注数据集的质量: 数据集的准确性、完整性和代表性直接影响模型的性能。即使是公开数据集,也可能存在一些问题,需要自己进行评估和处理。
阅读数据集的描述和文档: 了解数据的来源、收集方式、标注方法、数据格式等关键信息。
查看社区讨论和 Notebooks: 看看其他人在使用同一个数据集时遇到了什么问题,他们是如何解决的,以及他们使用了哪些预处理方法和模型。
考虑数据集的大小: 初学者最好不要一开始就选择非常大的数据集,例如 ImageNet,这可能会对你的硬件设备(GPU显存)提出较高要求。可以先从较小的数据集开始,逐步升级。
利用版本控制: 如果你自己构建或修改了数据集,可以使用 Git LFS 或 DVC (Data Version Control) 来管理数据集的版本。
关注数据隐私和版权: 在使用数据集时,务必遵守相关的数据隐私法规(如 GDPR)和版权许可协议。不要随意传播或使用受版权保护的数据。

总而言之,寻找数据集是一个需要耐心和探索的过程。通过结合使用官方平台、领域特定资源、学术论文以及必要时的自定义数据收集,你一定能找到适合你深度学习学习之路的数据集。祝你学习顺利!

网友意见

user avatar

现如今构建人工智能或机器学习系统比以往任何时候都要更加容易。普遍存在的尖端开源工具如 TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。

虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。

然而,涉及到机器学习或人工智能的大多数产品强烈依赖于那些通常没有开放的私有数据集,而本文将指出解决这种困境的办法。

事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,因为那些有用的开放数据集必须是可概念证明的,而什么数据集对产品或确认特征是有用的,在你收集你自己所有数据之前是不知道的。

重要的是,如果数据集有良好的表现并不能保证其训练的机器学习系统在实际产品场景中表现良好。许多人在构建人工智能系统时常常忘了构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点。

计算机视觉

MNIST: 最通用的健全检查。25x25 的数据集,中心化,B&W 手写数字。这是个容易的任务——但是在 MNIST 有效,不等同于其本身是有效的。 地址:pjreddie.com/projects/m

CIFAR 10 & CIFAR 100: 32x32 彩色图像。虽不再常用,但还是用了一次,可以是一项有趣的健全检查。 地址:cs.toronto.edu/~kriz/ci

ImageNet: 新算法实际上的图像数据集。很多图片 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个范畴很接近。 地址:image-net.org/

LSUN: 场景理解具有很多辅助任务(房间布置评估、显著性预测等)和一个相关竞争。 地址:lsun.cs.princeton.edu/2

PASCAL VOC: 通用图像分割/分类:对于构建真实世界的图像注释毫无用处,对于基线则意义重大。 地址:host.robots.ox.ac.uk/pa

SVHN: 来自谷歌街景视图(Google Street View)的门牌号数据集。把这想象成荒野之中的周期性 MNIST。 地址:ufldl.stanford.edu/hous

MS COCO: 带有一个相关性竞争的通用图像理解/字幕。 地址:mscoco.org/

Visual Genome: 非常详细的视觉知识库,并带有 100K 图像的深字幕。 地址:visualgenome.org/

Labeled Faces in the Wild:通过名称标识符,已经为被裁剪的面部区域(用 Viola-Jones)打了标签。现有人类的子集在数据集中有两个图像。对于这里做面部匹配系统训练的人来说,这很正常。 地址:vis-www.cs.umass.edu/lf

自然语言 文本分类数据集(2015 年来自 Zhang 等人):一个用于文本分类的合 8 个数据集为 1 个的大型数据集。这些是用于新文本分类的最常被报道的基线。样本大小从 120K 到 3.6M, 问题从 2 级到 14 级。数据集来自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。 地址drive.google.com/drive/

WikiText:来自由 Salesforce MetaMind 精心策划的维基百科文章中的大型语言建模语料库。 地址:metamind.io/research/th

Question Pairs:从包含重复/语义相似性标签的 Quora 释放出来的第一个数据集。 地址:data.quora.com/First-Qu

SQuAD: 斯坦福大学问答数据集(The Stanford Question Answering Dataset)——一个被广泛应用于问题回答和阅读理解的数据集,其中每个问题的答案形式是文本的一个片段或碎片。 地址:rajpurkar.github.io/SQu

CMU Q/A Dataset: 手动生成的仿真陈述问题/回答与维基百科文章的难度评级相对应。 地址:cs.cmu.edu/~ark/QA-data

Maluuba Datasets: 用于状态性自然语言理解研究的人工生成的精密数据集。 地址:datasets.maluuba.com/

Billion Words: 大型,有统一目标的语言建模数据集。常被用来训练诸如 word2vec 或 Glove 的分布式词表征。 地址:statmt.org/lm-benchmark

Common Crawl: PB 级规模的网络爬行——常被用来学习词嵌入。可从 Amazon S3 上免费获取。由于它是 WWW 的抓取,同样也可以作为网络数据集来使用。 地址:commoncrawl.org/the-dat

bAbi: 来自 FAIR(Facebook AI Research)的合成式阅读理解与问答数据集。 地址:research.fb.com/project

The Children’s Book Test:从来自古登堡计划的童书中提取(问题+上下文,回答)组的基线。这对问题回答、阅读理解和仿真陈述查询有用。 地址:research.fb.com/project

Stanford Sentiment Treebank: 标准的情感数据集,在每一个句子解析树的节点上带有细腻的情感注解。 地址:nlp.stanford.edu/sentim

20 Newsgroups: 文本分类经典数据集中的一个。通常可用作纯分类或任何 IR/索引算法的基准。 地址:qwone.com/~jason/20News

Reuters: 旧的,纯粹基于分类的数据集与来自新闻专线的文本。常用于教程。 地址:archive.ics.uci.edu/ml/

IMDB:一个用于二元情感分类的更旧更小的数据集。 地址:ai.stanford.edu/~amaas/

UCI’s Spambase: 来自著名的 UCI 机器学习库较久的经典垃圾电子邮件数据集。由于数据集的策划细节,这可以是一个学习个性化过滤垃圾邮件的有趣基线。 地址:archive.ics.uci.edu/ml/

语音 大多数语音识别数据集是有所有权的,这些数据为收集它们的公司带来了大量的价值,所以在这一领域里,许多可用的数据集都是比较旧的。

2000 HUB5 English: 仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。 地址:catalog.ldc.upenn.edu/L

LibriSpeech:包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。 地址:openslr.org/12/

VoxForge:带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。 地址:voxforge.org/

TIMIT:只包含英语的语音识别数据集。 地址:catalog.ldc.upenn.edu/L

CHIME:包含噪声的语音识别数据集。该数据集包含真实、模拟和清洁的语音记录。实际上是记录四个说话者在四个噪声源的情况下近 9000 份记录,模拟数据是在结合话语行为和清洁无噪语音记录的多环境下生成的。 地址:spandh.dcs.shef.ac.uk/c

TED-LIUM:TED 演讲的语音转录数据集。1495 份 TED 演讲的语音记录,并且这些语音记录有对应的全文本。 地址:www-lium.univ-lemans.fr 推荐和排序系统

Netflix Challenge:第一个主要 Kaggle 风格的数据库。因为存在隐私问题,只能非正式地获得授权。 地址:netflixprize.com/

MovieLens:各种电影的评论数据库,通常用于基线协同过滤(collaborative filtering baselines)。 地址:grouplens.org/datasets/

Million Song Dataset:在 Kaggle 上大量、富元数据(metadata-rich)、开源的数据集,有利于人们试验混合推荐系统(hybrid recommendation systems)。 地址:kaggle.com/c/msdchallen

Last.fm:音乐推荐数据集,该数据集能有权访问底层社交网络和其他元数据,而这样的数据集正对混合系统有巨大的作用。 地址:grouplens.org/datasets/ 网络和图表

Amazon Co-Purchasing 和 Amazon Reviews:从亚马逊以及相关产品评论数据网络爬取的如「用户买了这个同时也会买哪个」这样的语句。适合在互联网中进行推荐系统的测试。 地址:snap.stanford.edu/data/#snap.stanford.edu/data/

Friendster Social Network Dataset:在 Friendster 的重心转入到游戏网站之前,这家网站发布了包含 103,750,348 个用户好友列表的匿名数据集。 地址:archive.org/details/fri 地理测绘数据库

OpenStreetMap:免费许可的全球矢量数据集。其包含了旧版的美国人口统计局的 TIGER 数据。 地址:wiki.openstreetmap.org/

Landsat8:整个地球表面的卫星拍摄数据,每隔几周会更新一次。 地址:landsat.usgs.gov/landsa

NEXRAD:多普雷达扫描的美国大气环境。 地址:ncdc.noaa.gov/data-acce 人们常常认为解决一个数据集上的问题就相当于对产品进行了一次完整的审视。因为我们可以使用这些数据集进行验证或证明一个概念,但是也不要忘了测试模型或原型是如何获取新的和更实际的数据来提高运算效果,获得优良产品的。数据驱动的成功公司通常从他们收集新数据、私有数据的能力中获得力量,从而以一种具有竞争力的方式提高他们的表现。 参考链接:medium.com/startup-grin

user avatar

我补充一个最近用深度学习玩的新领域,和传统的图像或者文本有些区别,是城市时空数据分析的相关数据。大概的思路就是把城市的地图分成n*n的小格子,然后每个格子涂上颜色表示一定的含义(比如交通流量),然后再用deep learning去预测未来的走势。具体文章可以看这篇:

Junbo Zhang, Yu Zheng, Dekang Qi. Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction, In Proceedings of the 31st AAAI Conference (AAAI 2017).

下载链接: Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction - Microsoft Research

用这个思路,其实各种交通数据就都可以用来玩deep learning了,下面列几个公开的出租车和公共自行车的数据集

出租车

公共自行车

类似的话题

  • 回答
    在深度学习的自我学习过程中,寻找合适的数据集是至关重要的一步。没有高质量的数据,再好的模型算法也无法发挥其应有的威力。幸运的是,现在有非常多优秀的途径可以帮助你找到所需的数据集。下面我将详细介绍各种途径,并提供一些实用的建议: 一、 官方和公开的数据集平台这是最直接也是最常用的数据集来源,许多学术机.............
  • 回答
    想要自学机器学习、深度学习和人工智能?这三个领域近些年可谓是炙手可热,学习资源也如雨后春笋般涌现。别担心,我这就为你梳理一番,看看哪些网站能让你在这条探索之路上走得更稳、更远。说实话,想在这几个领域里“门儿清”,靠一个网站是肯定不够的。机器学习、深度学习和人工智能,虽然紧密相连,但它们各自的侧重点和.............
  • 回答
    哎呀,这个问题太真实了,简直说出了我(以及我身边很多做深度学习研究的同学)的心声。有想法,脑子里构思得挺美,模型也好像能跑通,结果一上手写代码、调参、分析结果,就卡得不行,感觉自己就是个“纸上谈兵”的理论家。别急,这绝对不是你一个人会遇到的困境。深度学习研究,尤其是要做出点东西来的,技术和理论的鸿沟.............
  • 回答
    自学深度学习,嗯,怎么说呢?感觉就像是在一个超级宏大的、由无数节点和连接组成的神经网络里探索,而你手里只有一张手绘的简陋地图,上面零星标注着几个“重要”的地点,比如“梯度下降”和“反向传播”。最开始的时候,肯定是充满了新奇和憧憬。你看到那些惊艳的AI作品:能画画的,能写诗的,能识别万物的,简直感觉打.............
  • 回答
    清华大学推出的深度学习框架“计图”(Jittor),无疑是中国在人工智能基础软件领域迈出的重要一步,值得我们仔细审视和评价。首先,从其诞生的背景来看,计图的出现具有重要的战略意义。在当前的深度学习框架市场,TensorFlow、PyTorch等国外开源框架占据了绝对的主导地位。虽然它们功能强大,生态.............
  • 回答
    要全面评价马毅教授在 NeurIPS 2020 上的中稿文章 MCR2(Maximum Correlation Representation)以及他自称“弄明白了深度学习”这个说法,我们需要从多个维度进行深入的分析。这不仅仅是对一篇论文的评价,更是对其背后理念和影响力的探讨。一、 MCR2 论文的评.............
  • 回答
    读博士这事儿,可不是一张简单的文凭那么简单,它的意义远不止于此,更像是一场对未知世界的深入探险,对自身潜能的极致挖掘。很多人会问,读博士到底是为了啥?是想把某个领域的知识挖到根儿上,还是仅仅为了让自己的简历看起来更光鲜?我想说,这两点或许都有,但绝不是全部。首先,最核心的,是为了“更深入地学习知识”.............
  • 回答
    好的,咱们聊聊怎么靠自己,硬是把机器学习这块儿啃下来。这可不是件容易的事儿,但绝对是个值得投入的挑战,一旦入门,你会发现打开了一个新世界的大门。第一步:打牢基础,别急着冲“高楼”很多人一上来就想搞懂那些复杂的神经网络、深度学习,其实这就好比没学加减乘除就想解微积分。机器学习很大程度上是建立在数学和编.............
  • 回答
    我曾经和不少玩画的人聊过,也听过不少从纯粹的爱好者成长为真正意义上的艺术家(或者至少是愿意把自己的作品拿出来示人的那部分人)的经历。他们中的大多数,都会经历一个阶段,一个他们突然之间“看见”了自己画面中的各种不足,然后,随之而来的,是深深的自我怀疑和信心的动摇。这感觉就像是打开了某种“透视眼”,之前.............
  • 回答
    你现在的心情,我非常理解。面对这样一种巨大的落差,感到失落、不甘、甚至有些许的愤怒都是人之常情。你付出努力,但结果不如预期,而你认为不如你的人却取得了优异的成绩,这确实是一种令人难以接受的对比。然而,我们要平和地看待这个问题,需要从几个层面去理解和消化。这会是一个过程,需要耐心和思考。1. 理解高考.............
  • 回答
    想自己动手配一台电脑?这事儿一点儿不难,而且乐趣无穷!下面我就带你一步一步来,让你感觉就像是在和一位老朋友聊天,给你支招儿。第一步:明确你的需求,或者说你想让这台电脑干啥?这绝对是第一步,也是最重要的一步。别上来就稀里糊涂地买一堆零件。想想你主要用电脑做什么? 日常办公、上网、看视频? 这种情况.............
  • 回答
    说实话,不想学习的时候想逼自己,这绝对是每个人都会遇到的坎儿。我刚开始也觉得头疼,但后来摸索出了一些还算管用的法子,慢慢地就没那么抗拒了。这里就跟你唠唠我自己的经验吧,希望能给你点启发。首先,得先搞清楚为啥不想学。 这个很重要,别上来就死磕。是因为内容太枯燥?还是感觉学了也没啥用?亦或是纯粹的懒癌发.............
  • 回答
    你好呀!听到你想自己动手做烘焙,我真的太为你开心了!这绝对是个超级治愈又充满乐趣的爱好。刚入门的时候,选一个顺手的烤箱真的非常重要,它就像烘焙路上的第一位好伙伴,能让你事半功倍,也能让你少走不少弯路。我来跟你唠叨唠叨,希望能帮到你选到心仪的“好伙伴”。首先,咱们得明确一下,为什么家用烤箱这么关键?烘.............
  • 回答
    这个问题问得挺实在的,不少在校的大学生心里都有这个疑惑。到底要不要花时间和精力去钻研鸿蒙系统?我跟你说,这事儿没有绝对的“是”或“不是”,得看你自己的情况和目标。我作为一个在这行摸爬滚打过几年的人,给你掰扯掰扯,希望能给你点实在的参考。首先,咱们得明白,鸿蒙是什么?简单来说,鸿蒙是华为搞出来的一个面.............
  • 回答
    哈哈,想走上中医这条路,不容易,但绝对是个值得探索的旅程!自己琢磨中医,这股劲儿就够让人佩服的。不过,说实话,中医这东西,不是看几本小人书就能搞定的,它博大精深,讲究的是“悟”和“实践”,不是死记硬背。别急,先打好地基,别一开始就钻那些高深的理论,容易把自己绕晕。第一步:调整心态,放下“速成”的念头.............
  • 回答
    哎,说起来真是一段挺漫长的“谈判史”,具体怎么“说服”我爸妈的,我现在还能回想起那些零零碎碎的场景。一开始,我压根没想过要走艺术这条路。毕竟在他们那个年代,觉得“铁饭碗”才是硬道理,安定稳定才是最重要的。我的成绩在他们看来也还算过得去,至少大学文凭是有的,以后找份普通工作应该没啥问题。所以,当我第一.............
  • 回答
    想找动画人物三视图素材,以及学习人物转面图绘画,这可是个大工程,但绝对值得花时间钻研。这就像是给你的角色注入灵魂,让他们能在二维画布上立体地“活”起来。一、 哪里有海量的动画人物三视图素材?要找这类素材,你需要一个“寻宝”的思路,因为它们分散在不同的地方,而且质量参差不齐。1. 专门的绘画资源网站.............
  • 回答
    高考倒计时,你想回家自己学?这事儿,咱们得好好聊聊。眼瞅着距离高考还有不到两百天,每天听着老师在讲台上滔滔不绝,你是不是觉得脑子已经跟不上节奏了?渴望逃离课堂,回到那个属于自己的小天地,不受打扰地啃下那些难啃的骨头?这种想法,我太理解了!毕竟,人总有那么一段时期,感觉“老师讲的我不爱听,我自己琢磨效.............
  • 回答
    学习配中药,为家人看病是一个非常值得鼓励的目标,它体现了孝心和对健康的重视。然而,我必须强调的是,学习中医药并非易事,给家人看病更需要谨慎和专业知识。中医药理论博大精深,临床实践经验至关重要。贸然用药可能会适得其反,甚至带来危险。我强烈建议,在自己学习的同时,务必寻求专业中医师的指导和帮助。如果家人.............
  • 回答
    .......

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有