MySQL TokuDB:存储稀疏数据的最佳存储引擎– Semalt Expert

搜集到的数据可用于各种目的,包括营销和价格分析。在网络抓取中 ,从网络获取数据与以易于读取和处理的格式存储数据一样重要。在本抓取教程中,您将了解为检索到的数据选择最佳存储解决方案时要使用的标准。

什么是网页抓取?

Web抓取是一种从网站和网页中检索大量数据的技术。 Web抓取的过程涉及使用抓取器(一种小型的自动化脚本,用于从目标站点爬网和提取数据)以可读格式从网站检索信息。

储存要求

  • 磁盘空间

磁盘的空间决定了存储引擎的有效性。技术正在发生变化,很快,您将需要固态驱动器(SSD)来存储抓取的数据。 SSD磁盘不仅速度快,而且非常可靠。不要让从网站检索到的数据崩溃您的硬盘驱动器(HDD),使用SSD磁盘并享受持久的数据存储。

  • 可伸缩性因子

存储高达数千TB的数据可能会令人发指。这就是为什么您需要高效的存储引擎来成功完成抓取项目的原因。不要让存储限制危及您的Web抓取项目。您的存储引擎应具有容纳大量数据的潜力。

  • 处理框架

Web抓取中最重要的方面是处理框架,它使您有机会以惊人的速度处理大量数据。出色的存储引擎应该能够将大量数据传递给处理器。

  • 能够处理大套桌子

抓取时,建议使用单独的表格以简化并加快处理速度。您需要了解您的刮取过程以获得可持续的结果。

需要考虑的存储引擎

MyISAM – MyISAM是用于处理小规模刮除项目的存储引擎。实际上,它可以处理数百万条记录。但是,请注意,MyISAM不支持“限制”和“删除”功能。而且,它不支持“压缩”功能,该功能不是必须使用的数据。

InnoDB – InnoDB是包含内置压缩功能的存储引擎。该存储引擎最适合小型卷筒纸刮板

TokuDB – TokuDB是迄今为止最好的存储引擎。该引擎由日期定义语言(DDL)查询组成,这些查询可快速定义数据库中使用的结构。如果您喜欢在表级别使用压缩,则TokuDB是要考虑的存储引擎。

如果您要从静态站点检索大量信息,则MySQL TokuDB是最佳的存储解决方案。该存储引擎是可伸缩性,速度和处理能力的结合,因此是存储您抓取的数据的最佳存储解决方案!