R aplikace. Chci vědět všechno: jazyk R

Ahoj všichni, pokud se zabýváte internetovým marketingem, pravděpodobně se musíte denně potýkat s mnoha reklamními službami a alespoň jednou platformou pro webovou analýzu, pokud potřebujete ručně sumarizovat data o výdajích atd. alespoň jednou měsíčně, popř. i jednou týdně. statistické informace ze všech zdrojů je to spojeno nejen s velkými časovými náklady, ale také s možností chyb při konsolidaci dat z více zdrojů do manuální režim dost velký. V tomto článku navrhnu hotová rozšíření (balíčky) pro jazyk R, pomocí kterých můžete automatizovat proces sběru dat z nejpopulárnějších reklamních systémů a platforem webové analýzy.

Obsah

  1. Jaký software potřebujeme?
  2. CRAN nebo GitHub
    • Vlastnosti balíčku rvkstat
    • Ukázkový kód pro práci s balíčkem rvkstat
  3. rmytarget - načítání dat z MyTarget API
    • funkce balíčku rmytarget
    • Příklad kódu pro práci s rmytarget
    • Hlavní vlastnosti balíčku rym
    • Příklad práce s balíčkem rym
  4. Závěr

Jaký software potřebujeme?

Protože V tomto článku mluvíme o jazyce R, pak jej budete potřebovat a vývojové prostředí RStudio.


R i RStudio jsou bezplatné a open source software, takže si je můžete volně stáhnout z oficiálních stránek.

Jak začít s balíčky R

Začít s balíčky R není nic těžkého, dělá se to následovně:

  1. Instalace balíčku, obvykle pomocí příkazu basic install.packages;
  2. Po připojení balíčku, pokaždé, když zahájíte novou relaci s R, lze tuto operaci provést pomocí knihovny nebo příkazu require.

Jediný rozdíl mezi knihovnou a vyžadovat je v tom, že knihovna vyvolá chybu, pokud se pokusíte zahrnout balíček, který nemáte nainstalovaný, a vyžadovat ve stejném případě jednoduše zobrazí varování, zatímco provádění skriptu bude pokračovat.


Chcete-li nainstalovat balíčky uvedené v tomto článku z GitHubu, musíte nejprve nainstalovat balíček devtools a spustit příkaz install.packages("devtools") .

CRAN nebo GitHub

Při čtení tohoto článku vás možná napadne otázka, ze kterého úložiště je lepší nainstalovat ten či onen balíček ve skutečnosti GitHub většinou obsahuje nejaktuálnější dev verze balíčků od vývojářů, tzn. mají všechny nové funkce, které nemusí být ve verzi balíčku dostupného na CRAN, ale proto nemusí být dev verze v době stahování dostatečně otestována a může obsahovat chyby.


Verze na CRAN je před stažením pečlivě zkontrolována týmem specialistů a musí splňovat všechny požadavky zásad tohoto úložiště Pokud si stáhnete balíček z CRAN, můžete si být jisti, že v žádném nepoškodí vaše data způsobem a nebude na vašem počítači vytvářet žádné nesrozumitelné soubory bez vašeho svolení atd.

Jaké dovednosti jsou potřebné pro práci s R balíčky?

Ve skutečnosti musíte pouze porozumět oblasti internetového marketingu, v tomto případě nejsou vyžadovány žádné znalosti programování, protože Budeme se bavit o hotových balíčcích, využívajících funkce, ze kterých si zautomatizujete tu nudnou část své práce.


Článek nebude Detailní popis na práci s každou funkcí uvažovaných balíčků, protože takový článek by byl příliš dlouhý, ale popíšu možnosti každého balíčku, uvedu seznam hlavních funkcí, které budete potřebovat, a také odkaz na oficiální dokumentaci, s jejíž pomocí můžete více porozumět podrobně popsat všechny funkce dostupné v konkrétním balíčku. Kromě toho poskytnu malý příklad kódu pro každý balíček, abyste syntaxi porozuměli jasněji.

ryandexdirect - stahování dat z Yandex.Direct

Instalace balíčku z CRAN: install.packages("ryandexdirect")
Instalace balíčku z GitHubu: devtools::install_github("selesnow/ryandexdirect")
Oficiální dokumentace: odkaz


Tento balíček je navržen pro práci s API jedné z nejpopulárnějších reklamních platforem v CIS - Yandex.Direct.

Vlastnosti balíčku ryandexdirect

  1. Autorizace v Yandex API;
  2. Načtení seznamu reklamních kampaní, klíčová slova, reklamy;
  3. Stahování statistických údajů z účtů Yandex.Direct pomocí služby Reports.
  4. Pozastavit a obnovit zobrazování reklam na úrovni kampaně, klíčového slova a reklamy.
  5. Žádost o zůstatek a další parametry obecného účtu.
  6. načítání referenční informace(směnné kurzy, věstník atd.)

Hlavní funkce

Hlavní funkce dostupné v ryandexdirect, které možná budete potřebovat pro práci s rozhraním Yandex.Direct API:

  • yadirAuth - Autorizace v API;
  • yadirGetAds, yadirGetCampaignList, yadirGetKeyWords - Načítání seznamu reklam, reklamních kampaní, klíčových slov;
  • yadirStartAds, yadirStartCampaigns, yadirStartKeyWords -

Příklad kódu pro stahování statistik pomocí balíčku ryandexdirect

knihovna(ryandexdirect)stat<- yadirGetReport(ReportType = "ACCOUNT_PERFORMANCE_REPORT", DateRangeType = "CUSTOM_DATE", DateFrom = "2018-01-01", DateTo = "2018-05-10", FieldNames = c("AdNetworkType", "Impressions", "Clicks", "Cost"), FilterList = c("CampaignId IN 123456 ,987654","Clicks GREATER_THAN 100"), IncludeVAT = "YES", IncludeDiscount = "NO", Login = "ваш логин", TokenPath = "C:/token_yandex")

RADwords – stahování dat z Google Ads (ex Google AdWords)

Instalace balíčku z CRAN: install.packages("RAdwords")
Instalace balíčku z GitHubu: devtools::install_github("jburkhardt/RAdwords")
Oficiální dokumentace: odkaz

Vlastnosti balíčku RADwords

Hlavní vlastnosti balíčku RADwords

Ve skutečnosti balíček v zásadě neobsahuje příliš mnoho funkcí, ale já jsem po celou dobu používal pouze tři:

  • doAuth - Autorizace;
  • výpis - Vytvoření těla požadavku na API;

Příklad práce s balíčkem RADwords

library(RAdwords) # žádost o token adw_token<- doAyth() # формирование запроса body <- statement(select=c("AccountDescriptiveName", "ExternalCustomerId", "AccountCurrencyCode", "AdNetworkType1", "RegionCriteriaId", "CountryCriteriaId", "CityCriteriaId", "Device", "Month", "Year", "Impressions", "Clicks", "Interactions", "VideoViews", "Cost", "Conversions"), report="GEO_PERFORMANCE_REPORT", start="2018-09-01", end="2018-09-20") my_data <- getData(clientCustomerId = "000-000-0000", google_auth = adw_token , statement = body, transformation = T)


Seznam přehledů a polí dostupných v rozhraní Google Ads API naleznete po kliknutí na odkaz v oficiální nápovědě.

adwordsR – novější a funkčnější balíček pro načítání dat z Google Ads (ex Google AdWords)

Instalace balíčku z CRAN: install.packages("adwordsR")
Instalace balíčku z GitHubu: devtools::install_github("cran/adwordsR")


Balíček adwordsR je konceptem podobný RADwords, ale je novější a má mnohem větší sadu funkcí.

Vlastnosti balíčku adwordsR

Kromě funkcí balíčku RADwords popsaných výše vám adwordsR poskytuje rozsáhlé možnosti pro práci se službou TargetingIdeaService, službou, která vám umožňuje přijímat možnosti cílení přímo z nástroje nebo platformy, což pomáhá automatizovat optimalizaci účtu.

Hlavní vlastnosti balíčku adwordsR

  • createAdwordsToken – Vyžádejte si token pro práci s Google Ads API;
  • loadAdwordsToken - Načtení požadovaného a dříve uloženého tokenu;
  • getReportData – Stáhněte si statistiky ze svého účtu Google Ads.

Příklad práce s balíčkem adwordsR

library(adwordsR) # Žádost o token adw_token<- generateAdwordsToken(saveNewToken = TRUE, addGitignore = FALSE) # Загрузка ранее сохранённого токена adw_token <- loadAdwordsToken() # Запрос данных AdWordsData <- getReportData(reportType = "CAMPAIGN_PERFORMANCE_REPORT", startDate = "2018-08-01", endDate = "2018-08-15", clientCustomerId = "000-000-0000", credentials = adw_token, attributes = "CampaignName,CampaignStatus", segment = "Date,AdNetworkType1", metrics = "AverageCost,Clicks,Conversions", includeZeroImpressions = TRUE, useRequestedHeaders = FALSE)

rfacebookstat - stahování dat z reklamních účtů na Facebooku

Instalace balíčku z CRAN: install.packages("rfacebookstat")
Instalace balíčku z GitHubu: devtools::install_github("selesnow/rfacebookstat")
Oficiální dokumentace: odkaz

Vlastnosti balíčku rfacebookstat

  1. Přihlaste se do Facebook API
  2. Načtení seznamu obchodních manažerů, které máte k dispozici;
  3. Načítání seznamu reklamních kampaní, reklamních sestav, inzerátů.
  4. Stáhněte si statistiky na úrovni reklamního účtu, reklamní kampaně, reklamní sestavy a reklamy.
  5. Načítání seznamu uživatelů, kteří mají přístup k reklamnímu účtu.
  6. Správa přístupu k reklamním účtům.

Hlavní funkce balíčku rfacebookstat

Ukázkový kód pro práci s rfacebookstat

knihovna(rfacebookstat) token<- fbGetToken(app_id = 00000000000000) fb_data <- fbGetMarketingStat(accounts_id = "act_00000000000000", level = "campaign", fields = "campaign_name,actions", action_breakdowns = "action_link_click_destination", date_start = "2017-11-01", date_stop = "2017-11-20", interval = "day", access_token = token)

rvkstat - načítání dat z VKontakte API

Instalace balíčku z GitHubu: devtools::install_github("selesnow/rvkstat")
Oficiální dokumentace: odkaz


Poměrně výkonný a multifunkční balíček pro práci s API sociální sítě Vkontakte.

Vlastnosti balíčku rvkstat

  1. Autorizace ve VKontakte API;
  2. Načítání dat z reklamních účtů VKontakte;
  3. Stahování referenčních informací z VKontakte;
  4. Načítání některých informací o uživateli VKontakte;
  5. Stahování statistik z reklamního účtu VKontakte;
  6. Stahování statistik o návštěvách komunit VKontakte.

Hlavní funkce balíčku rvkstat

Balíček rvkstat v době psaní tohoto článku obsahuje více než 30 funkcí, zde jsou nejužitečnější z nich:

  • vkAuth - Autorizace;
  • vkGetAdStatistics – stahování statistik z reklamního účtu;
  • vkGetAdCampaigns, vkGetAds - Načítání seznamu reklamních kampaní a reklam;
  • vkGetGroupStat - Stáhněte si statistiky o návštěvách skupin a komunit Vkontakte.

Ukázkový kód pro práci s balíčkem rvkstat

funkce balíčku rmytarget

  1. Autorizace v MyTarget API podle schématu Code Grant;
  2. Načítání seznamu reklamních kampaní, oznámení.
  3. Načítání statistik na úrovni reklamních kampaní a reklam.

Hlavní funkce balíčku rmytarget

  • myTarAuth - Autorizace;
  • myTarGetAdList , myTarGetCampaignList - Načítání seznamu reklam a reklamních kampaní;
  • myTarGetStats – Stáhněte si statistiky o reklamách a reklamních kampaních.

Příklad kódu pro práci s rmytarget

knihovna(rmytarget) # požádat o seznam reklam<- myTarGetAdList(login = "ваш логин") # запрос статистики по объявлениям a_stat <- myTarGetStats(date_from = "2016-08-01", date_to = "2016-08-10", object_type = "banners", object_id = Ads$id, stat_type = "day", login = "ваш логин")

rym - načítání dat z Yandex.Metrica API

Instalace balíčku z CRAN: install.packages("rym")
Instalace balíčku z GitHubu: devtools::install_github("selesnow/rym")
Oficiální dokumentace: odkaz

Hlavní vlastnosti balíčku rym

Balíček rym vám umožňuje pracovat se všemi rozhraními API dostupnými v Yandex.Metrica:

  1. Autorizace pomocí protokolu oAuth2;
  2. Práce s rozhraním API pro správu;
  3. Práce s reportovacím API;
  4. Práce s API kompatibilním s Core API Google Analytics v3;
  5. Práce s protokoly API.

Hlavní vlastnosti balíčku rym

  • rym_auth - Autorizace;
  • rym_get_counters - Načítání seznamu počitadel Yandex.Metrica;
  • rym_get_ga – Načítání dat z API kompatibilního s Google Analytics Core API;

Příklad práce s balíčkem rym

reporting.api.stat<- rym_get_data(counters = "00000000,111111111", date.from = "2018-08-01", date.to = "yesterday", dimensions = "ym:s:date,ym:s:lastTrafficSource", metrics = "ym:s:visits,ym:s:pageviews,ym:s:users", filters = "ym:s:trafficSourceName=="Переходы из поисковых систем" AND ym:s:isNewUser=="Yes"", sort = "-ym:s:date", accuracy = "full", login = "ваш логин", token.path = "metrica_token", lang = "ru")

Závěr

Takže pomocí balíčků uvedených v tomto článku můžete snadno automatizovat sběr dat ze zdrojů, jako jsou Yandex.Direct, Google Ads, Facebook, VKontakte, MyTarget a Yandex.Metrica. Toto samozřejmě není zdaleka vyčerpávající výčet služeb, které využívají internetoví marketéři, ale je dost problematické vměstnat všechny nástroje do jednoho článku, takže pokud bude mít tento článek pozitivní ohlasy, napíšu pokračování.



Pokud máte ve svém arzenálu také zajímavé balíčky, které mohou pomoci automatizovat sběr dat z reklamních zdrojů nebo webových analytických platforem, zanechte je v komentářích k tomuto článku.

Jakékoli řešení R spuštěné v R Services (v databázi) musí používat balíčky nainstalované ve výchozí knihovně R. Řešení R se obvykle propojí s knihovnami uživatele zadáním cesty k souboru v kódu R, ale pro produkční prostředí se to nedoporučuje.

Je tedy úkolem správce databází nebo jiného správce na serveru zajistit, aby byly na instanci SQL Server nainstalovány všechny požadované balíčky. Pokud máte práva správce na počítači, který je hostitelem instance SQL Server, můžete poskytnout informace pro správu o tom, jak nainstalovat balíčky R a poskytnout přístup k zabezpečenému úložišti balíčků, kde můžete získat balíčky, které vaši uživatelé potřebují. Tato část poskytuje takové informace.

Při instalaci služeb R (v databázi) je výchozí nastavení R základní balíky jako stats a utils se instalují spolu s RevoScaleR balíček, který podporuje připojení k serveru SQL Server.

Pokud požadujete další balíček z CRAN nebo jiného úložiště, musíte si balíček stáhnout a nainstalovat na svou pracovní stanici.

Pokud je třeba spustit nový balíček v kontextu serveru, musí jej správce nainstalovat na server.

Existuje několik zdrojů R balíčků, nejznámější jsou CRAN a Bioconductor. Oficiální web v jazyce R (https://www.r-project.org/) uvádí mnoho z těchto zdrojů. Mnoho balíčků je navíc publikováno na GitHubu, kde lze získat zdrojový kód. Mohou vám však být poskytnuty také balíčky R vyvinuté interně.

Bez ohledu na zdroj musí být instalační balíčky poskytnuty jako ZIP archiv. Chcete-li použít balíček ze služeb R Services (v databázi), nezapomeňte získat soubor ZIP v binárním formátu Windows. (Některé balíčky nemusí podporovat tento formát.) Chcete-li získat další informace o obsahu formátu souboru zip a o tom, jak vytvořit balíček R, doporučujeme tento tutoriál, který lze stáhnout ve formátu PDF z uzlu projektu R: Freidrich Leisch: Vytváření balíčků R.

Balíčky R lze obvykle snadno nainstalovat z příkazového řádku, aniž byste je museli předem stahovat, pokud má počítač přístup k internetu. To obvykle není případ serverů používajících SQL Server. Tedy nainstalovat balíček R na běžící počítač Ne máte přístup k internetu, musíte si balíček předem stáhnout ve správném formátu ZIP a zkopírovat soubory ZIP do složky přístupné na vašem počítači.

Následující části popisují dva způsoby instalace balíčků offline:

    Popisuje, jak používat balíček R miniCRAN vytvořit offline úložiště. Toto je pravděpodobně nejúčinnější metoda, pokud potřebujete instalovat balíčky na více serverů a spravovat úložiště z jednoho místa.

    Poskytuje pokyny pro instalaci balíčků offline ručním zkopírováním souborů ZIP.

Chcete-li nainstalovat nový balíček R do počítače se systémem SQL Server 2016, musíte mít v tomto počítači práva správce.

Pokud tato práva nemáte, kontaktujte svého správce a poskytněte mu informace o balíčku, který potřebujete.

Pokud instalujete nový balíček R do počítače, který používá pracovní stanici R a běží Ne nainstalován na instanci SQL Server, stále potřebujete administrátorská práva v počítači k instalaci balíčku. Jakmile je balíček nainstalován, můžete jej spustit lokálně.

Výchozí umístění knihovny R pro služby R

Pokud jste nainstalovali služby R Services (v databázi) výchozí instance, knihovny balíčků R používané instancí jsou umístěny ve složce instance SQL Server. Například:

  • Výchozí instance MSSQLSERVER C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES\library
  • Pojmenovaná instance MyNamedInstance C:\Program Files\Microsoft SQL Server\MSSQL13.MyNamedInstance\R_SERVICES\library

Můžete spustit následující příkaz a zkontrolovat výchozí knihovny pro aktuální instanci R.

EXECUTE sp_execute_external_script @language = N "R" , @script = N "OutputDataSet<- data.frame(.libPaths());" S VÝSLEDKY (( VARCHAR (MAX) NOT NULL)); JÍT

Další informace viz .

SQL Server vNext poskytuje nové možnosti pro instalaci a správu balíčků R, které poskytují správci dat větší svobodu manipulovat s daty a řídit, jak se balíček a instalační program používají. Další informace viz .

Při používání služeb SQL Server 2106 R nejsou v tuto chvíli k dispozici nové funkce sady Management Pack. I když máte tyto možnosti k určení, které balíčky jsou nainstalovány na vašem počítači SQL Server, použijte jednu z následujících možností:

  • Zobrazte knihovnu ve výchozím nastavení, pokud máte ke složce oprávnění.
  • Spuštěním příkazu z příkazu R zobrazíte seznam balíků v umístění knihovny R_SERVICES
  • V instanci použijte uloženou proceduru, jak je uvedeno níže:

    EXECUTE sp_execute_external_script @language =N "R" ,@script = N "str(OutputDataSet); packagematrix<- installed.packages(); NameOnly <- packagematrix[,1]; OutputDataSet <- as.data.frame(NameOnly);" ,@input_data_1 = N "VYBRAT 1 jako sloupec" SE SADAMI VÝSLEDKŮ ((Název balíčku nvarchar (250 )))

Statistická analýza je nedílnou součástí vědeckého výzkumu. Kvalitní zpracování dat zvyšuje šanci na publikování článku v renomovaném časopise a posunout výzkum na mezinárodní úroveň. Existuje mnoho programů, které mohou poskytnout vysoce kvalitní analýzu, ale většina z nich je placená a licence často stojí několik set dolarů nebo více. Ale dnes budeme mluvit o statistickém prostředí, za které nemusíte platit a jehož spolehlivost a popularita konkuruje nejlepším komerčním statistikám. balíčky: představíme vám R!

Co je R?

Než uvedeme jasnou definici, je třeba poznamenat, že R je více než jen program: je to médium, jazyk a dokonce i hnutí! Podíváme se na R z různých úhlů.

R je výpočetní prostředí, vyvinuté vědci pro zpracování dat, matematické modelování a grafiku. R lze použít jako jednoduchou kalkulačku, můžete provádět jednoduché statistické analýzy (například ANOVA nebo regresní analýzu) i složitější časově náročné výpočty, testovat hypotézy, sestavovat vektorové grafy a mapy. Toto není úplný seznam toho, co lze v tomto prostředí dělat. Za zmínku stojí, že je distribuován zdarma a lze jej nainstalovat na operační systémy třídy Windows i UNIX (Linux a MacOS X). Jinými slovy, R je zdarma a multiplatformní.

R je programovací jazyk, díky kterému můžete psát své vlastní programy ( skripty) používání , jakož i používání a vytváření specializovaných rozšíření ( balíčky). Balíček je sbírka souborů s referenčními informacemi a příklady, které jsou shromážděny v jednom archivu. hrají důležitou roli, protože se používají jako další rozšíření založená na R. Každý balíček je obvykle věnován konkrétnímu tématu, například: balíček "ggplot2" se používá k vytvoření krásných vektorových grafů určitého designu a "qtl" balíček je ideální pro genetické mapování. V současné době je v knihovně R více než 7000 takových balíčků! Všechny byly zkontrolovány na chyby a jsou veřejně dostupné.


R je pro komunitu/pohyb.
Vzhledem k tomu, že R je bezplatný a open source produkt, jeho vývoj, testování a ladění neprovádí samostatná společnost s najatým personálem, ale samotní uživatelé. Během dvou desetiletí se z jádra vývojářů a nadšenců vytvořila obrovská komunita. Podle nejnovějších údajů více než 2 miliony lidí tak či onak pomáhalo rozvíjet a propagovat R na dobrovolné bázi, od překládání dokumentace, vytváření školicích kurzů a konče vývojem nových aplikací pro vědu a průmysl. Na internetu je obrovské množství fór, kde můžete najít odpovědi na většinu otázek týkajících se R.

Jak vypadá prostředí R?

Pro R existuje mnoho „skořápek“, jejichž vzhled a funkčnost se může značně lišit. Ale krátce se podíváme pouze na tři nejoblíbenější možnosti: Rgui, Rstudio a R, spuštěné v terminálu Linux/UNIX jako příkazový řádek.


Jazyk R ve světě statistických programů

V tuto chvíli existují desítky kvalitních statistických balíčků, mezi nimiž jednoznačně vedou SPSS, SAS a MatLab. V roce 2013 se však i přes vysokou konkurenci stal R nejpoužívanějším softwarovým produktem pro statistickou analýzu ve vědeckých publikacích (http://r4stats.com/articles/popularity/). Kromě toho se R v posledním desetiletí stal stále populárnějším v obchodním sektoru: obří společnosti jako Google, Facebook, Ford a New York Times jej aktivně využívají ke sběru, analýze a vizualizaci dat (http://www.revolutionanalytics .com/companies-using-r). Abychom pochopili důvody rostoucí obliby jazyka R, věnujme pozornost jeho společným rysům a odlišnostem od jiných statistických produktů.

Obecně lze většinu statistických nástrojů rozdělit do tří typů:

  1. GUI programy, na principu „klikněte sem, sem a získejte hotový výsledek“;
  1. statistické programovací jazyky, které vyžadují základní znalosti programování;
  1. "smíšený", které mají také grafické rozhraní ( GUI) a schopnost vytvářet skriptovací programy (například: SAS, STATA, Rcmdr).

Vlastnosti programů s GUI

Programy s grafickým rozhraním mají pro běžného uživatele známý vzhled a snadno se učí. Ale nejsou vhodné pro řešení netriviálních problémů, protože mají omezenou sadu statistik. a není možné do nich psát vlastní algoritmy. Smíšený typ kombinuje pohodlí prostředí GUI a sílu programovacích jazyků. V detailním srovnání statistických možností s programovacími jazyky SAS a STATA jsou však R i MatLab podřadné (srovnání statistických metod R, MatLab, STATA, SAS, SPSS). Navíc za licence těchto programů budete muset zaplatit slušné peníze a jedinou bezplatnou alternativou je Rcmdr: shell pro R s GUI (Rcommander).

Srovnání R s programovacími jazyky MatLab, Python a Julia

Mezi programovacími jazyky používanými ve statistických výpočtech zaujímají přední místa R a Matlab. Jsou si navzájem podobné, a to jak vzhledem, tak funkčností; ale mají různé uživatelské lobby, což určuje jejich specifičnost. Historicky byl MatLab zaměřen na aplikované inženýrské vědy, takže jeho předností je matematika. modelování a výpočty, navíc je mnohem rychlejší než R! Ale protože R byl vyvinut jako úzkoprofilový jazyk pro statistické zpracování dat, mnoho experimentálních statistik. se v něm objevily a upevnily metody. Tato skutečnost a jeho nulové náklady učinily z R ideální platformu pro vývoj a použití nových balíčků používaných v základních vědách.

Dalšími „konkurenčními“ jazyky jsou Python a Julia. Podle mého názoru je Python jako univerzální programovací jazyk vhodnější pro zpracování dat a sběr informací pomocí webových technologií než pro statistickou analýzu a vizualizaci (hlavní rozdíly mezi R a Pythonem jsou dobře popsány). Ale statistický jazyk Julia je poměrně mladý a ambiciózní projekt. Hlavním rysem tohoto jazyka je rychlost výpočtů, v některých testech přesahující R až 100krát! Zatímco Julia je v rané fázi vývoje a má několik dalších balíčků a nástupců, z dlouhodobého hlediska je Julia možná jediným potenciálním konkurentem R.

Závěr

Jazyk R je tedy nyní jedním z předních statistických nástrojů na světě. Aktivně se využívá v genetice, molekulární biologii a bioinformatice, environmentálních vědách (ekologie, meteorologie) a zemědělských disciplínách. R se také stále více používá při zpracování lékařských dat, čímž z trhu vytlačuje komerční balíčky jako SAS a SPSS.

Výhody prostředí R:

  • zdarma a napříč platformami;
  • bohatý arzenál statistik. metody;
  • vysoce kvalitní vektorová grafika;
  • více než 7000 testovaných balíčků;
  • flexibilní použití:
    - umožňuje vytvářet/upravovat skripty a balíčky,
    - komunikuje s jinými jazyky, jako jsou: C, Java a Python,
    - umí pracovat s datovými formáty pro SAS, SPSS a STATA;
  • aktivní komunita uživatelů a vývojářů;
  • pravidelné aktualizace, dobrá dokumentace a technická podpora. Podpěra, podpora.

nedostatky:

  • malé množství informací v ruštině (přestože za posledních pět let se objevilo několik školení a zajímavých knih);
  • relativní obtížnost použití pro uživatele, který není obeznámen s programovacími jazyky. Částečně to lze vyhladit prací v Rcmdr GUI shellu, o kterém jsem psal výše, ale pro nestandardní řešení je stejně potřeba použít příkazový řádek.

Seznam užitečných zdrojů

  1. Oficiální webová stránka: http://www.r-project.org/
  2. Web pro začátečníky: http://www.statmethods.net/
  3. Jedna z nejlepších referenčních knih: The R Book, 2nd Edition od Michaela J. Crawleyho, 2012
  4. Seznam dostupné literatury v ruštině + dobrý blog

Toto musíte zadat do terminálu.

Krása R je tato:

  1. Tento program je zdarma (distribuován pod licencí GPL),
  2. Pro tento program bylo napsáno mnoho balíčků, které řeší širokou škálu problémů. Všechny jsou také zdarma.
  3. Program je velmi flexibilní: velikosti libovolných vektorů a matic lze na přání uživatele měnit, data nemají pevnou strukturu. Tato vlastnost se ukazuje jako mimořádně užitečná v případě prognózování, kdy výzkumník potřebuje poskytnout předpověď na libovolné období.

Posledně jmenovaná vlastnost je zvláště důležitá, protože jiné statistické balíčky (jako SPSS, Eviews, Stata) předpokládají, že nás může zajímat pouze analýza dat, která mají pevnou strukturu (například všechna data v pracovním souboru musí mít stejnou periodicitu se stejnými daty začátku a konce).

R však není nejpřátelštější program. Při práci s ním zapomeňte na myš – téměř všechny nejdůležitější akce v ní se provádějí pomocí příkazového řádku. Abychom však život trochu usnadnili a program samotný byl trochu přívětivější, existuje frontendový program s názvem RStudio. Můžete si jej stáhnout odtud. Instaluje se po instalaci samotného R RStudio má mnoho pohodlných nástrojů a pěkné rozhraní, nicméně analýzy a prognózy se v něm stále provádějí pomocí příkazového řádku.

Zkusme se na tento úžasný program podívat.

Seznamte se s RStudio

Rozhraní RStudio vypadá takto:

V pravém horním rohu v RStudio je uveden název projektu (který zatím máme „Žádný“ – to znamená, že chybí). Pokud klikneme na tento nápis a vybereme „Nový projekt“, budeme vyzváni k vytvoření projektu. Pro základní účely předpovědi stačí vybrat „Nový adresář“ (nová složka projektu), „Prázdný projekt“ (prázdný projekt) a poté zadat název projektu a vybrat adresář, do kterého se má uložit. Zapojte fantazii a zkuste si název vymyslet sami :).

Při práci s jedním projektem máte vždy přístup k datům, příkazům a skriptům v něm uloženým.

Na levé straně okna RStudio je konzola. Zde budeme zadávat různé příkazy. Zapišme si například následující:

X< - rnorm (100 , 0 , 1 )

Tento příkaz vygeneruje 100 náhodných proměnných z normálního rozdělení s nulovým očekáváním a jednotkovým rozptylem, poté vytvoří vektor s názvem „x“ a zapíše do něj výsledných 100 hodnot. symbol "<-» эквивалентен символу «=» и показывает какое значение присвоить нашей переменной, стоящей слева. Иногда вместо него удобней использовать символ «->“, ačkoli naše proměnná by v tomto případě měla být vpravo. Například následující kód vytvoří objekt "y", který je absolutně identický s objektem "x":

x -> y

Tyto vektory se nyní zobrazují v pravé horní části obrazovky pod záložkou, kterou jsem nazval „Prostředí“:

Změny v záložce „Prostředí“.

Tato část obrazovky zobrazí všechny objekty, které během relace uložíme. Pokud vytvoříme matici například takto:

\(A = \začátek(pmatice) 1 & 1 \\ 0 & 1 \konec(pmatice) \)

s tímto příkazem:

A< - matrix (c (1 , 0 , 1 , 1 ) , 2 , 2 )

poté se objeví na záložce „Prostředí“:

Jakákoli funkce, kterou používáme, vyžaduje, abychom určitým parametrům přiřadili nějaké hodnoty. Ve funkci matice() jsou následující parametry:

  • data – vektor s daty, která mají být zapsána do matice,
  • nrow – počet řádků v matici,
  • ncol – počet sloupců v matici,
  • byrow - logický parametr. Pokud je „PRAVDA“ (pravda), matice bude vyplněna v řádcích (zleva doprava, řádek po řádku). Ve výchozím nastavení je tento parametr nastaven na FALSE.
  • dimnames - list s názvy řádků a sloupců.

Některé z těchto parametrů mají výchozí hodnoty (např. byrow = NEPRAVDA), zatímco jiné lze vynechat (např. dimnames).

Jedním z triků "R" je, že na jakoukoli funkci (například na naši matice()) lze řešit přímým nastavením hodnot:

Další možností je kliknout na název objektu v záložce „Prostředí“.

Matice

kde matrix je název funkce, která nás zajímá. V tomto případě RStudio otevře speciálně pro vás panel „Nápověda“ s popisem:

Nápovědu k funkci můžete také najít zadáním názvu funkce do okna „vyhledat“ (ikona s čočkou) na kartě „Nápověda“.

Pokud si přesně nepamatujete, jak napsat název funkce nebo jaké parametry se v ní používají, začněte psát její název do konzole a stiskněte tlačítko „Tab“:

Kromě toho všeho můžete v RStudiu psát skripty. Můžete je potřebovat, pokud potřebujete napsat program nebo volat sekvenci funkcí. Skripty se vytvářejí pomocí tlačítka se znaménkem plus v levém horním rohu (v rozbalovací nabídce je třeba vybrat „Skript R“). V okně, které se poté otevře, můžete napsat libovolné funkce a komentáře. Například, pokud chceme vykreslit spojnicový graf přes řadu x, můžeme to udělat takto:

spiknutí(x)

řádky (x)

První funkce vytvoří jednoduchý bodový graf a druhá funkce přidá čáry nad body spojující body v sérii. Pokud vyberete tyto dva příkazy a stisknete „Ctrl+Enter“, budou provedeny, což způsobí, že RStudio otevře záložku „Plot“ v pravém dolním rohu a zobrazí v ní vykreslený graf.

Pokud budeme i v budoucnu potřebovat všechny napsané příkazy, pak lze tento skript uložit (disketa v levém horním rohu).

V případě, že se potřebujete odkázat na příkaz, který jste již někdy v minulosti napsali, je v pravé horní části obrazovky karta „Historie“. V něm můžete najít a vybrat jakýkoli příkaz, který vás zajímá, a dvojitým kliknutím jej vložit do konzoly. V samotné konzoli můžete přistupovat k předchozím příkazům pomocí tlačítek Nahoru a Dolů na klávesnici. Kombinace kláves „Ctrl+Up“ umožňuje zobrazit seznam všech posledních příkazů v konzole.

Obecně má RStudio spoustu užitečných klávesových zkratek, které práci s programem značně usnadňují. Můžete si o nich přečíst více.

Jak jsem již zmínil, existuje mnoho balíčků pro R. Všechny jsou umístěny na serveru CRAN a pro instalaci některého z nich potřebujete znát jeho název. Instalace a aktualizace balíčků se provádí pomocí záložky „Balíčky“. Když na něj přejdete a kliknete na tlačítko „Instalovat“, zobrazí se něco jako následující nabídka:

Do okna, které se otevře, napište: předpověď je balíček napsaný Robem J. Hyndmanem, který obsahuje spoustu pro nás užitečných funkcí. Klikněte na tlačítko „Instalovat“, po kterém se nainstaluje balíček „forecast“.

Případně můžeme nainstalovat libovolný balíček, známe jeho jméno, pomocí příkazu v konzole:

Nainstalujte. balíčky ("hladké")

za předpokladu, že je samozřejmě v úložišti CRAN. hladký je balíček, ve kterém vyvíjím a udržuji funkce.

Některé balíčky jsou dostupné pouze ve zdrojovém kódu na webech jako github.com a vyžadují, aby byly vytvořeny jako první. Chcete-li sestavit balíčky pod Windows, možná budete potřebovat program Rtools.

Chcete-li použít některý z nainstalovaných balíčků, musíte jej povolit. Chcete-li to provést, musíte jej najít v seznamu a zaškrtnout nebo použít příkaz v konzole:

knihovna (předpověď)

Ve Windows se může objevit jeden nepříjemný problém: některé balíčky se snadno stahují a sestavují, ale nijak se neinstalují. R v tomto případě píše něco jako: “Varování: nelze přesunout dočasnou instalaci...”. Jediné, co v tomto případě musíte udělat, je přidat složku s R do výjimek ve vašem antiviru (nebo ji vypnout při instalaci balíčků).

Po stažení balíčku nám budou dostupné všechny funkce v něm obsažené. Například funkce tsdisplay(), který lze použít takto:

tsdisplay(x)

Sestaví nám tři grafy, které probereme v kapitole „Forecaster Toolkit“.

Kromě balíčku předpověď Balíček používám poměrně často na různé příklady Mcomp. Obsahuje datové řady z databáze M-Competition. Proto doporučuji nainstalovat i vy.

Velmi často budeme potřebovat nejen datové sady, ale data třídy „ts“ (časové řady). Chcete-li vytvořit časovou řadu z libovolné proměnné, musíte spustit následující příkaz:

X< - ts (x , start = c (1984 , 1 ) , frequency = 12 )

Zde je parametr Start nám umožňuje určit datum, od kterého naše časová řada začíná, a frekvence nastavit frekvenci dat. Číslo 12 v našem příkladu naznačuje, že máme co do činění s měsíčními daty. V důsledku provedení tohoto příkazu transformujeme náš vektor „x“ do časové řady měsíčních dat počínaje lednem 1984.

Pojďme si něco málo povědět o programovacím jazyce zvaném R. Nedávno jste si na našich blozích mohli přečíst články o oblastech, kde jednoduše potřebujete mít po ruce výkonný jazyk pro práci se statistikami a grafy. A R je jen jedním z nich. Pro nováčka ve světě programování tomu bude docela těžké uvěřit, ale dnes je R již populárnější než SQL, aktivně se používá v komerčních organizacích, výzkumu a univerzitách.

Aniž bychom se pouštěli do pravidel, syntaxe a konkrétních použití, podívejme se na základní knihy a zdroje, které vám pomohou naučit se R od nuly.

Co je jazyk R, proč jej potřebujete a jak jej můžete moudře používat, se můžete naučit od úžasného Ruslana Kuptsova, kterého vedl o něco méně než před rokem v rámci GeekWeek-2015.

knihy

Teď, když je v hlavě určitý řád, můžete začít číst literaturu, té je naštěstí víc než dost. Začněme domácími autory:


Internetové zdroje

Každý, kdo se chce naučit jakýkoli programovací jazyk, musí při hledání znalostí navštívit dva zdroje: oficiální web jeho vývojářů a největší online komunitu. Studna. Nedělejme výjimku pro R:

Ale znovu, protože jsme prodchnuti obavami o ty, kteří ještě neměli čas se naučit anglicky, ale opravdu se chtějí naučit R, zmiňme několik ruských zdrojů:

Mezitím doplňte obrázek malým seznamem anglicky psaných, ale neméně vzdělávacích stránek:

CRAN je vlastně místo, kde si můžete stáhnout vývojové prostředí R do svého počítače Kromě toho manuály, příklady a další užitečné čtení;

Quick-R - stručně a jasně o statistikách, způsobech jejich zpracování a jazyku R;

Burns-Stat - o R a jeho předchůdci S s obrovským množstvím příkladů;

R for Data Science je další kniha od Garretta Grolemunda, přeložená do formátu online učebnice;

Awesome R – výběr toho nejlepšího kódu z oficiálního webu, zveřejněného na našem milovaném GitHubu;

Mran - jazyk R od společnosti Microsoft;

Tutorial R je další zdroj s organizovanými informacemi z oficiálních stránek.