ホーム > RStudioの使い方・初級編
last update 2018/11/18
RStudioの使い方・初級編
RStudioの利点
RStudioの最大の魅力はドキュメントとRの実行が同時にできることである。そのため、レポートの提出や研究ノートの作成に最適なツールとなる。マウス操作で統計分析が簡便になるといった利点はないが、Rを使用する場合の記録やまとめはRStudioを使うとよい。
RStudioに含まれるR Markdownでは文章の表示とRの実行が同時にできる。研究ノートをテキストファイルなどで作成し、Rのスクリプトファイルを残すという方法ももあるが、R Markdownでは、文章の中にコマンドとその実行昨日までを同梱できるため、ファイルが複数になることがない。利点としては以下の4点が考えられる。
Rのスクリプトと同じもの。スクリプトだけ使うのであれば、Rと大差がない。これだけ使うのであれば、RStudioを使う意味はない。
ノート作成に向いている。基本的にHTMLへの出力のためのもの。PDF、Wordにも出力できる。R Markdownと違い作者名や日時等は挿入されない(手動で挿入はできる)。手動で不足情報は補えるため、NotebookとMarkdownには大きな差はない。拡張子も同じRmdである。
こちらはレポート提出などを前提とした書式。R Notebookとの違いもほとんどないため、R Markdownで文書作成をするのかよい。
データファイルとR Studioで作成するR Markdownのファイルを同じフォルダに入れておくだけでよい。 例えば、以下のようにしておく。
Rの最初のつまづき所がワーキングディレクトリの場所指定だと思うので、煩雑な作業がないだけでも相当優しい。
文書作成のダイアログが表示される。
タイトルと著者を入れる。
タイトルと著者は後から簡単に変えられるので、untitleのままで作成して問題ない。
アウトプット形式をHTML、PDF、Wordの3つの中から選ぶ。こちらも簡単に変更できるので、特に何も考えがHTMLで問題ない。
ファイルの書式。
htmlをwordに書き換えると出力がWordに変更できるが、html_documentという標記であっても、Wordに出力は可能である。
実行コマンドを書き込む部分。この
{R}をつけるのがポイント。
拡張子を"Rmd"として保存する。
Rは大文字がオフィシャルの拡張子だが"rmd"でも構わない。
最初に保存をするときには、エンコードを決める必要がある。
Rのデフォルトの"CP932"を選択するのが無難。
UTF-8(いわゆるUTF-8N)でもよいと思うが、日本語(マルチバイト文字)が何度か文字化けをしたので、UTF-8はあまり良くないのかもしれない。
仮に文字化けをしたは場合には、テキストエディタで開くと正しいエンコードで開けるはずなので、テキストエディタでコピー、RStudioへペーストをすると直る。それ以降は、RStudioで文字化けはしないはずなので、エンコードに失敗した時には、この方法をとってみることをお勧めする。
コマンドを書く際には間違い、不完全なものを書くことになるので、最初からknitを実行できるわけではない。
分析一つひとつを確認するには、下の再生ボタンの形をしたものをクリックすると実行ができる。
このような部分をRStudioでは実行すると以下のような形になる。
これはRにもともと含まれている自動車(car)のデータ。
研究ノートの一例を示しておこう。
何の分析か、結果はどうだったかなどを書く。
アスタリスク2つで囲うとMarkdownでは太字になるので後からみると見やすい。
個人的には記述統計などの基礎的な分析はRStudioで行っている。この際にR Markdownが非常に役に立つ。
回帰分析をするにしても、まずは分散分析やクロス集計表で関連を確認する必要がある。
数十個、数百個の分析を繰り返すこともまれではないため、コマンドライン(CUI)であることが時短にもなるし、研究ノートも同時にとれるので、一石二鳥である。
最終的にHTMLやWordなどに変換するのがレンダリングである。
Knitをすると、執筆した文章をみることができる。
レポートを作成する場合はWordへの変換がよいが、研究ノートはHTMLがよい。
R Notebookの場合はknitではなくPreviewボタンになる。
R Markdownの新しいファイルを作成した時に表示されるサンプルをレンダリングしたのが以下のもの。
Rのコマンドもすべて実行された形でHTMLになる。
ちなみに新しいファイルを作成すると、サンプルが必ず表示されるが、必要がないので削除する。
例えば、クロス集計表、分散分析、相関係数などの基礎分析はSPSSなどのGUIアプリで行うと非常に手間がかかる。代替案として、SPSSのシンタックスもあるが、SPSSのシンタックスは煩雑であり、書式も覚えにくいため、Rのコマンドの方が手早く書ける。また、研究ノートも同時にとることができるという利点もある。
もちろん、最終分析がRでできるなら、Rですべて計算すれば非常にスムーズであるのは言うまでもない。
RScriptを使用する際だけに行う作業。 Rを動かすには、作業フォルダを決める必要があり、
代わりにGUIで指定する。
[Tools]→[Global Options]
Default workimg directleyを指定する。
図では
Rのバージョンアップをした時には、R versionのダイアログを変更すると、新しいRが使用できる。
本稿はRStudio Version 1.1.456を基に執筆した。
このコンテンツはWeb上で開催している統計学勉強会で使用したテキストを基に再構成したものである。
RStudioに含まれるR Markdownでは文章の表示とRの実行が同時にできる。研究ノートをテキストファイルなどで作成し、Rのスクリプトファイルを残すという方法ももあるが、R Markdownでは、文章の中にコマンドとその実行昨日までを同梱できるため、ファイルが複数になることがない。利点としては以下の4点が考えられる。
- 研究ノートが散逸しにくい
- 結果をレポートに貼り付けるなどのコピペミスが発生しない
- コマンドも一緒に書かれているので、読む側もどのような分析をしたかがわかる
- 分析を再実行・部分変更することが容易
- データファイルとR Markdownは同じフォルダに入れられる
Markdownの利点
Markdownは簡便な文書作成言語の一つ。現在のテクノロジー系の分野で最もよく使われている言語。- Markdownで書いたテキストは、HTML、Word、Tex、PDF、ePUB、画像などに変換できる
- HTML、Texよりはるかに記法が楽
- Texの数式も使える
- 習得が簡単
- 階層的な構造を書く文章に向いている。論文など。レイアウトに気を取られることがないため、階層構造に集中して執筆ができる
参考リンク
RStudioのインストール
Markdown記法
RStudioの3つのファイル形式
1. R Script
Rのスクリプトと同じもの。スクリプトだけ使うのであれば、Rと大差がない。これだけ使うのであれば、RStudioを使う意味はない。
2. R Notebook
ノート作成に向いている。基本的にHTMLへの出力のためのもの。PDF、Wordにも出力できる。R Markdownと違い作者名や日時等は挿入されない(手動で挿入はできる)。手動で不足情報は補えるため、NotebookとMarkdownには大きな差はない。拡張子も同じRmdである。
3. R Markdown
こちらはレポート提出などを前提とした書式。R Notebookとの違いもほとんどないため、R Markdownで文書作成をするのかよい。
R Markdownのデータの置き場所>
Rではsetwd()
で指定するが、RStudioではこの作業が不要である。データファイルとR Studioで作成するR Markdownのファイルを同じフォルダに入れておくだけでよい。 例えば、以下のようにしておく。
Rの最初のつまづき所がワーキングディレクトリの場所指定だと思うので、煩雑な作業がないだけでも相当優しい。
R Markdownファイルの作成
[File]→[New File]→[R Markdown]文書作成のダイアログが表示される。
タイトルと著者を入れる。
タイトルと著者は後から簡単に変えられるので、untitleのままで作成して問題ない。
アウトプット形式をHTML、PDF、Wordの3つの中から選ぶ。こちらも簡単に変更できるので、特に何も考えがHTMLで問題ない。
R Markdown作成
ヘッダー
ファイルの書式。
--- title: "Test Doc" author: "Sohei IDE" date: "2018年10月24日" output: html_document ---
htmlをwordに書き換えると出力がWordに変更できるが、html_documentという標記であっても、Wordに出力は可能である。
Rコマンドとチャンク
```{r} summary(cars) ```
実行コマンドを書き込む部分。この
```{r}
と```
で囲まれた部分をチャンク(chunk)と呼ぶ。{R}をつけるのがポイント。
R Markdownの保存
拡張子を"Rmd"として保存する。
Rは大文字がオフィシャルの拡張子だが"rmd"でも構わない。
最初に保存をするときには、エンコードを決める必要がある。
Rのデフォルトの"CP932"を選択するのが無難。
UTF-8(いわゆるUTF-8N)でもよいと思うが、日本語(マルチバイト文字)が何度か文字化けをしたので、UTF-8はあまり良くないのかもしれない。
仮に文字化けをしたは場合には、テキストエディタで開くと正しいエンコードで開けるはずなので、テキストエディタでコピー、RStudioへペーストをすると直る。それ以降は、RStudioで文字化けはしないはずなので、エンコードに失敗した時には、この方法をとってみることをお勧めする。
コマンドを部分的に実行
コマンドを書く際には間違い、不完全なものを書くことになるので、最初からknitを実行できるわけではない。
分析一つひとつを確認するには、下の再生ボタンの形をしたものをクリックすると実行ができる。
このような部分をRStudioでは実行すると以下のような形になる。
これはRにもともと含まれている自動車(car)のデータ。
研究ノートの一例
研究ノートの一例を示しておこう。
何の分析か、結果はどうだったかなどを書く。
アスタリスク2つで囲うとMarkdownでは太字になるので後からみると見やすい。
個人的には記述統計などの基礎的な分析はRStudioで行っている。この際にR Markdownが非常に役に立つ。
回帰分析をするにしても、まずは分散分析やクロス集計表で関連を確認する必要がある。
数十個、数百個の分析を繰り返すこともまれではないため、コマンドライン(CUI)であることが時短にもなるし、研究ノートも同時にとれるので、一石二鳥である。
レンダリング
最終的にHTMLやWordなどに変換するのがレンダリングである。
Knitをすると、執筆した文章をみることができる。
レポートを作成する場合はWordへの変換がよいが、研究ノートはHTMLがよい。
R Notebookの場合はknitではなくPreviewボタンになる。
R Markdownの新しいファイルを作成した時に表示されるサンプルをレンダリングしたのが以下のもの。
Rのコマンドもすべて実行された形でHTMLになる。
ちなみに新しいファイルを作成すると、サンプルが必ず表示されるが、必要がないので削除する。
R Markdownの使い道
最終時な分析をRで行わない時もR Markdownは使い道がある。例えば、クロス集計表、分散分析、相関係数などの基礎分析はSPSSなどのGUIアプリで行うと非常に手間がかかる。代替案として、SPSSのシンタックスもあるが、SPSSのシンタックスは煩雑であり、書式も覚えにくいため、Rのコマンドの方が手早く書ける。また、研究ノートも同時にとることができるという利点もある。
もちろん、最終分析がRでできるなら、Rですべて計算すれば非常にスムーズであるのは言うまでもない。
Rの作業フォルダを決める
RScriptを使用する際だけに行う作業。 Rを動かすには、作業フォルダを決める必要があり、
setwd()
で指定するが、RStudioではこのコマンドは使わない。代わりにGUIで指定する。
[Tools]→[Global Options]
Default workimg directleyを指定する。
図では
c:/R
。この設定は自由。Dropboxなどのクラウドサービスのフォルダを指定すると、バックアップがとれ、複数のPCで作業ができるという利点がある。ノーマルなRでは複雑なフォルダの指定は手間だったが、RStudioではそれが可能である。Rのバージョンアップをした時には、R versionのダイアログを変更すると、新しいRが使用できる。
本稿はRStudio Version 1.1.456を基に執筆した。
このコンテンツはWeb上で開催している統計学勉強会で使用したテキストを基に再構成したものである。
Copyright (c) 2018 Ide Sohei All Rights Reserved