在新的 Azure
和 Databricks
我想要访问一个大集的数据,关于这一点我想要运行一个R的进程(在写 data.table
和其中运行良好,当地).
我不舒适用正确的条款或如何在整个Azure环境中工作,但现在,我的数据是本在3格式:
- 表
- paquet
- csv
第一次尝试 (和最合乎逻辑的对我来说):古典 fread
在csv文件。
在小文件,都是好的。 在"大"的文件(3Go),它需要很多很多分钟,同时在当地,它只需几秒钟。
为什么是它的时间远远超过在本地?
第二次尝试 与 SparkR
在csv和文件 collect()
工作 data.table
是不是有什么我可以做到的设置这个吗?
第三次尝试 :同上述文件的增量,同一种类型的错误
第四次尝试 :SQL的请求 SparkR
但 collect
还回相同的错误
是我的一个尝试的比另一个更好的? 我在正确的轨道? 我失去了一些东西?
任何帮助或建议将是非常有益的。