最好的情况的访问大型数据在蔚蓝的Databricks R

Question 1

在新的 Azure 和 Databricks我想要访问一个大集的数据，关于这一点我想要运行一个R的进程(在写 data.table 和其中运行良好，当地).

我不舒适用正确的条款或如何在整个Azure环境中工作，但现在，我的数据是本在3格式：

第一次尝试 (和最合乎逻辑的对我来说)：古典 fread 在csv文件。在小文件，都是好的。在"大"的文件(3Go)，它需要很多很多分钟，同时在当地，它只需几秒钟。

为什么是它的时间远远超过在本地?

第二次尝试 与 SparkR 在csv和文件 collect() 工作 data.table

但 collect() 返回的一个错误：

是不是有什么我可以做到的设置这个吗？

第三次尝试 ：同上述文件的增量，同一种类型的错误

第四次尝试 ：SQL的请求 SparkR 但 collect 还回相同的错误

是我的一个尝试的比另一个更好的? 我在正确的轨道? 我失去了一些东西？

任何帮助或建议将是非常有益的。

Question 2

关于装载来自出它的对象存储在云不当地的存储所载的时间自然的会是更长的时间。

关于错误可以调整的火花配置，但是不建议你可以出去的记忆的错误：

spark.driver.maxResultSize <X>g

你可以调整它在群集的火花config

最好的解决办法是使用更多的实例(所有会自动更多的分区-这个限制适用于每个分区，实例RAM存储器的尺寸也是重要的，但更好，通常只需要添加更多的实例规模的水平). 启用自动扩展建议的情况下大数据集。

请不要使用收集()作为它读出你所有的数据框在驾驶员为对象，所以它不会的工作。这通常功能不建议，即使对于较小的数据集。如果你想要你的诊断数据框请使用的功能。第()or。显示出有限制。

Hubert Dudek · Answer 1 · 2021-11-22T13:04:06

关于装载来自出它的对象存储在云不当地的存储所载的时间自然的会是更长的时间。

关于错误可以调整的火花配置，但是不建议你可以出去的记忆的错误：

spark.driver.maxResultSize <X>g

你可以调整它在群集的火花config

最好的解决办法是使用更多的实例(所有会自动更多的分区-这个限制适用于每个分区，实例RAM存储器的尺寸也是重要的，但更好，通常只需要添加更多的实例规模的水平). 启用自动扩展建议的情况下大数据集。

请不要使用收集()作为它读出你所有的数据框在驾驶员为对象，所以它不会的工作。这通常功能不建议，即使对于较小的数据集。如果你想要你的诊断数据框请使用的功能。第()or。显示出有限制。

感谢您的回答，这一点更加清晰。但作为一个新的用户的这种环境下，我不明白一切都:)如何可以调整的火花config例如？我如何可以使用更多的实例？ (你是对的，数据是在云端。我的群集已经252Go和72核心).
哇这个群集已经是相当大的。我会更新我的答案更多的细节，在几个小时。请不要使用收集()作为它读出你所有的数据框在驾驶员为对象，所以它不会的工作。这通常功能不建议，即使对于较小的数据集。如果你想diagnoze你的数据框请使用的功能。第().显示出有限制。
到现在为止，我还没有找到一个更好的办法比 collect() 我的"本地"编写的脚本 data.table...等不及要读你的更新!
但究竟什么你想达到什么目的？尝试显示器(df)还
我需要运行一个整个剧本，我在写 data.table. 但我认为我必须重写在这 sparkr对吗但它似乎更为复杂，我比它的声音。我一直在试图创建一个新列为一个长时间的使用 strsplit 在另一个列没有成功...

的问题