首页
/ 正文

如何找到简单有趣的数 GB 数据集

更新时间: 2023-05-31 10:48:59

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 100w+ 字，讲解图 4013+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3700+ 小伙伴加入学习，欢迎点击围观

许多人对大数据非常兴奋。他们喜欢在这个边疆玩耍、探索、工作和学习。这些人很可能使用或想使用大量数据（数百 GB 甚至 TB）。但问题是，要找到数 GB 的数据集并不容易。通常，需要这些类型的数据集来试验新的数据处理框架（如 Apache Spark）或数据流工具（如 Apache Kafka）。在这篇博文中，我将描述并提供指向简单而强大的数 GB Stack Overflow 数据集的链接。

1. 机器学习数据集

机器学习问题有很多来源。 Kaggle 是解决这些问题的最佳来源，它们提供了大量带有代码示例的数据集。 大多数这些数据集都是干净的，可以在您的机器学习实验中使用。

在真正的数据科学家的生活中，您很可能没有干净数据的奢侈，而且输入数据的大小会产生额外的大问题。大学课程和在线课程在数据科学和机器学习方面提供的观点有限，因为它们教学生将统计和机器学习方法应用于少量干净数据。 实际上，数据科学家大部分时间都花在获取数据和清理数据上。 根据 Hal Varian（谷歌首席经济学家）的说法，“21 世纪最性感的工作” 属于统计学家（我假设是数据科学家）。但是，他们大部分时间都在执行“清理”工作。

为了试验新的数据处理或数据流工具，您需要一个大的（比您的计算机内存可以容纳的大）和未清理的数据集。

大型和不干净的 rf 数据集将使您能够获得实际的数据处理或学习分析技能。原来这不是那么好找的。

2. 处理数据集

Kdnuggets 和 Quora 有很好的开放存储库列表：

这些列表中的大多数数据集都 非常小 ，而且在大多数情况下， 您需要来自数据集特定业务领域（例如物理或医疗保健）的特定知识。 但是，出于学习和实验目的，最好有一个来自所有人都熟悉的知名业务领域的数据集。

社交网络数据是最好的，因为人们了解这些数据集，并且他们对分析过程中重要的数据有直觉 。您可以使用社交网络 API 来提取数据集。不幸的是，您的数据集不是与其他人共享您的分析结果的最佳选择。如果能找到一个具有开放许可证的通用社交网络数据集，那就太好了。我找到了一个！

3. Stack Overflow 开放数据集

Stack Overflow 数据集是我能够找到的唯一社交开放数据集。 Stackoverflow.com 是一个关于编程的问答网站。当您必须使用您不熟悉的语言编写代码时，该网站特别有用。这种众所周知的方法称为 — Stack Overflow 驱动开发或 SDD。我相信所有从事高科技行业的人都熟悉 Stack Overflow，并且他们中的许多人都拥有该网站的帐户。

Stack Exchange Company（stackoverflow.com 的所有者）在开放式创意通用许可下发布 stackexchange 数据集。您可能会在此页面上找到最新的数据集：

https://archive.org/details/stackexchange

该数据集包含所有 stackexchange 数据，包括 Stack Overflow， 存档的总大小为 27 GB 。 未压缩数据的大小超过 1 TB。

4. 如何下载和提取数据集？

然而，这个数据集并不容易获得。 首先，您需要上传整个数据集的存档。请注意 下载速度非常慢。 他们建议使用 bittorrent 客户端下载存档，但通常会出现一些问题。在没有 bittorent 的情况下，我尝试了 3 次并花了 2 天时间下载了这个存档。接下来，您需要 解压缩大型档案 。最后，您需要使用 7z 压缩器 解压缩所需的数据子集（如 stackoverflow-Posts 或 travel.stackexchange）。如果您没有 7z 压缩器，您需要找到它并将其安装到您的机器上。

从 https://archive.org/details/stackexchange 下载存档后，提取所有与 Stack Overflow 相关的存档并解压缩每个存档（所有以 stackoverflow.com 开头的存档）：

stackoverflow.com-Posts.7z
stackoverflow.com-PostsHistory.7z
stackoverflow.com-评论.7z
stackoverflow.com-Badges.7z
stackoverflow.com-PostLinks.7z
stackoverflow.com-Tags.7z
stackoverflow.com-Users.7z
stackoverflow.com-Votes.7z

结果，您将看到一组具有相同名称的 xml 文件。

5.如何使用数据集？

让我们用数据集做实验。 最有趣的文件是 Posts.xml。这个文件包含 34Gb 的未压缩数据， 大约 70% 是正文，这是来自网站的问题文本。这些数据很可能不适合您的记忆。我们可能会使用磁盘内数据操作或机器学习技术。这是使用 Apache Spark 和 MLLib 或您的自定义解决方案的好机会。

让我们看一下这个 Stack Overflow 问题在文件中的样子。

在文件中，这篇文章由一行显示。请注意，因为文本是 HTML，开始和结束 p 标签（<p> 和 </p>）被写为 <p> </p>分别。


 <row>
Id=“4”
PostTypeId=“1”
AcceptedAnswerId=“7”
CreationDate=“2008-07-31T21:42:52.667”
Score=“322”
ViewCount=“21888”
Body=“&lt;p&gt;I want to use a track-bar to change a form’s opacity.&lt;/p&gt; &lt;p&gt;This is my code:&lt;/p&gt; &lt;pre&gt;&lt;code&gt;decimal trans = trackBar1.Value / 5000; this.Opacity = trans; &lt;/code&gt;&lt;/pre&gt; &lt;p&gt;When I try to build it, I get this error:&lt;/p&gt; &lt;blockquote&gt; &lt;p&gt;Cannot implicitly convert type ‘decimal’ to ‘double’.&lt;/p&gt; &lt;/blockquote&gt; &lt;p&gt;I tried making &lt;code&gt;trans&lt;/code&gt; a &lt;code&gt;double&lt;/code&gt;, but then the control doesn’t work. This code has worked fine for me in VB.NET in the past. &lt;/p&gt; ”
OwnerUserId=“8”
LastEditorUserId=“451518”
LastEditorDisplayName=“Rich B”
LastEditDate=“2014-07-28T10:02:50.557”
LastActivityDate=“2014-12-20T17:18:47.807”
Title=“When setting a form’s opacity should I use a decimal or double?”

如何找到简单有趣的数 GB 数据集

1. 机器学习数据集

2. 处理数据集

3. Stack Overflow 开放数据集

4. 如何下载和提取数据集？

5.如何使用数据集？

最新发布

Clion 2026.2 最新激活码，破解版安装教程（亲测至2099年）

GoLand 2026.2 最新激活码，破解版安装教程（亲测至2099年）

PhpStorm 2026.2 最新激活码，破解版安装教程（亲测至2099年）

Webstorm 2026.2 最新激活码，破解版安装教程（亲测至2099年）

DataGrip 2026.2 最新激活码,破解版安装教程（亲测至2099年~）

IDEA 2026.2 最新激活码，破解版安装教程（亲测至2099年）

Clion 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

RubyMine 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

GoLand 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）