作者:AbdulMajedRaja RS
原文链接:
https://www.programmingwithr.com/how-to-generate-meaningful-fake-data-for-learning-experimentation-and-teaching/
问题描述
关于R,有一件事是很多人的首选。iris数据集的黑白图已是R的一个巨无聊视图。这无聊是因为其美学和一次次使用的老套的例子。另一个问题是为你想教/学/实验的问题找到合适的数据集。假设您想讲时间序列,而在这种情况下,您的垃圾邮件/火腿分类数据集没有任何用处。
解决方案
不要担心,fakir可以帮助我们。fakir是一个由Colin Fay (Think-R)设计的R包,他对R社区的贡献非常大。
关于fakir包
在文档中,fakir的目标是提供可用于教学R的人造数据集。
安装和加载
fakir可以从Github上安装(CRAN上还没有fakir)
# install.packages("devtools")
devtools::install_github("ThinkR-open/fakir")
library(fakir)
用例:Clickstream / Web数据
Clickstream / Web数据是目前许多组织在分析中使用的一个东西,但是你很难得到一些点击流数据,因为没有公司愿意分享他们的数据。在谷歌分析测试帐户上有一个样本数据,但这可能对您学习R或R的生态系统中的数据科学没有任何帮助。
这是一个典型的例子,fakir可以帮助你
library(tidyverse)
fakir::fake_visits() %>% head()
这就是使用fakir获取示例Clickstream (tidy)数据是如此的简单。另一件值得注意的事情是,如果您查看fake_visit()文档,您会发现有一个seed参数,这意味着您可以控制数据的随机化和可重复性它们。
fake_visits(from = "2017-01-01", to = "2017-12-31", local = c("en_US", "fr_FR"), seed = 2811) %>% head()
用例:French 数据
此外,在上面使用fake_visit()函数时,您可能注意到了另一个属性local,它可以帮助您选择French数据而不是English数据。在我个人看来,如果您的任务是提高数据素养或使数据科学民主化,那么这一点至关重要。
fake_ticket_client(vol = 10, local = "fr_FR") %>% head()
在上面的例子中,我们使用了fakir的另一个函数fake_ticket_client(),它帮助我们给出一个典型的票据数据集(就像您从ServiceNow或Zendesk获得的数据集)
用例:散点图
所以,我在这篇文章开始关于iris数据集的叫嚷(别误会我:我对创建这个数据集的科学家们非常尊重,只是我对它的错误/过度使用了不欣赏)现在我们可以使用fakir数据集来克服它。
fake_visits() %>%
ggplot() + geom_point(aes(blog,about, color = as.factor(month)))
(也许,不是一个好的散点图来显示相关性,但是,嘿,你可以教散点图不绘制花瓣长度和萼片长度)
总结
如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。正如fakir包的作者在描述中提到的,charlatan是另一种帮助生成有意义的假数据的r -包。
参考文献
本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/73484.html 。