怎樣將excel表格導入R語言
A. 如何將excel中的數據導入到R軟體中進行熱圖的製作和分析
一般的軟體都有導入這個功能,我用的表單大師在表單那一項點入數據之後,右上角就有插入excel相關數據的功能。
B. r語言怎麼導入excel數據做折線圖
把所有點兒的坐標都用(x,y)的形式寫好了,然後在CAD里畫樣條曲線(spline),把所有在EXCEL里寫好的所有點兒都貼到命令欄里就可以了.
無需新建模板,直接點擊設計器菜單文件>打開,打開Excel文件,就可以將Excel文件轉為模板,如下圖:
註:若要導入Excel2007有必要將poi2007_fat.jar拷貝至%FR_HOME%WebReportWEB-INFlib 下,jdk的版本至少是jdk1.5之上。
此外:導入時Excel中的圖片無法導入到模板中,有必要再次添加。
C. R語言Excel文件
R語言Excel文件
Microsoft Excel是使用最廣泛的電子表格程序,它是以.xls或.xlsx格式存儲數據。 R可以使用某些excel特定的包直接讀取這些文件的內容。一些常用的軟體包有 - XLConnect,xlsx,gdata等。在這個篇文章中,我們將使用xlsx軟體包。 R也可以使用這個包寫入excel文件。
安裝xlsx軟體包
可以在R控制台中使用以下命令來安裝xlsx軟體包。它可能會要求安裝一些這個包所依賴的附加包。按照相同的命令與所需的包名來安裝附加的包。
install.packages("xlsx")
R
驗證並載入「xlsx」軟體包
使用以下命令來驗證和載入xlsx包。參考以下代碼 -
# Verify the package is installed.
any(grepl("xlsx",installed.packages()))
# Load the library into R workspace.
library("xlsx")
R
當腳本運行時,得到以下輸出 -
[1] TRUE
Loading required package: rJava
Loading required package: methods
Loading required package: xlsxjars
Shell
註: 如果第一個輸出結果為:FALSE,請 install.packages("xlsx") 語句重新載入安裝。
准備xlsx文件用作為輸入
打開Microsoft excel。將以下數據復制並粘貼到名為sheet1的工作表中。
id name salary start_date dept
1 Rick 623.3 1/1/2012 IT
2 Dan 515.2 9/23/2013 Operations
3 Michelle 611 11/15/2014 IT
4 Ryan 729 5/11/2014 HR
5 Gary 843.25 3/27/2015 Finance
6 Nina 578 5/21/2013 IT
7 Simon 632.8 7/30/2013 Operations
8 Guru 722.5 6/17/2014 Finance
Txt
如下所示 -
如下所示 -
還將以下數據復制並粘貼到另一個工作表,並將此工作表重命名為city。
name city
Rick Seattle
Dan Tampa
Michelle Chicago
Ryan Seattle
Gary Houston
Nina Boston
Simon Mum
Guru Dallas
如下所示 -
將Excel文件另存為「input.xlsx」,應該將此文件保存在R工作區的當前工作目錄中。
讀取Excel文件
使用read.xlsx()函數讀取input.xlsx,如下所示,結果作為數據幀存儲在R環境中。
# Read the first worksheet in the file input.xlsx.
data <- read.xlsx("input.xlsx", sheetIndex = 1)
print(data)
R
當我們執行上述代碼時,會產生以下結果 -
id name salary start_date dept
1 1 Rick 623.30 2012-01-01 IT
2 2 Dan 515.20 2013-09-23 Operations
3 3 Michelle 611.00 2014-11-15 IT
4 4 Ryan 729.00 2014-05-11 HR
5 NA Gary 843.25 2015-03-27 Finance
6 6 Nina 578.00 2013-05-21 IT
7 7 Simon 632.80 2013-07-30 Operations
8 8 Guru 722.50 2014-06-17 Finance
D. 用Excel和R語言來實現!急急急!!!價格可升
1.將Excel文件內容導入R語言
library(readxl)
x<-read_excel("E:/1月文件夾/1月10日數據.xlsx",sheet="worksheet") #非常省時間
2.選取Excel工作表的特定行或特定列,條件選取
方法1:x1<-x[which((x$online.spend>0)|(x$age>=20)),"credit.score"] #選取x數據框內欄位online.spend大於零或age大於20的行,欄位選取「credit.score」列
方法2:x1<-subset(x,(online.spend>0)|(age>=20))
3.選取Excel工作表的特定行,特定行的內容在一個數據集內。
groupnumber<-c(10,12,13,43)
選取x數據框內滿足groupnumber向量的行
x2<-x[x$員工編號 %in% groupnumber,] $員工編號這里不用雙引號
4.刪除x數據框的某列
x3<-x[,which(colnames(x)!="email")] #將數據框x的列名為email的列刪除
E. 怎樣向R語言中導入excel中整理好的數據呢
R中有一個R包叫做xlsx,可以幫你解決這個問題;安裝之後,可以通過調用read.xlsx函數,類似於read.table函數,直接讀入excel數據,給你個簡單的示例:
read.xlsx()函數中,file後面指定excel文件名,sheetIndex指定讀取的是sheet幾,encoding='UTF-8'是為了能夠識別中文字元。
F. r語言如何導入excel數據
install.packages('xslx')
library(xlsx)
Sys.setlocale("LC_ALL", "zh_cn.utf-8")
a=read.xlsx2('d:/1.xlsx',1,header=F)
head(a)顯示前六行
class(a$y)/str(a)查看列/全集數據類型
a$y=as.numeric(a$y)轉換數據類型
G. 如何用r語言處理excel數據
把Excel數據保存為.csv格式,就可以直接用read.csv()讀取了;
如果要讀取.xls這樣的格式,要安裝相應的r包才能用。
H. 有了處理excel數據的R語言代碼如何應用
數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。
以下是此博客中將涉及的主題列表:
數據科學與機器學習導論為什麼要使用Python進行數據科學和機器學習?用於數據科學和機器學習的Python庫用於統計的Python庫用於可視化的Python庫用於機器學習的Python庫深度學習的Python庫用於自然語言處理的Python庫數據科學與機器學習導論
當我開始研究數據科學和機器學習時,總是有這個問題困擾我最大。是什麼導致圍繞這兩個話題的熱門話題?
嗡嗡聲與我們生成的數據量有很大關系。數據是驅動ML模型所需的燃料,並且由於我們處在大數據時代,因此很清楚為什麼將數據科學視為該時代最有希望的工作角色!
我會說數據科學和機器學習是技能,而不僅僅是技術。它們是從數據中獲得有用的見解並通過建立預測模型解決問題所需的技能。
從形式上來講,這就是兩者的定義方式。
數據科學是從數據中提取有用信息以解決實際問題的過程。
機器學習是使機器學習如何通過提供大量數據來解決問題的過程。
這兩個域是高度互連的。
機器學習是數據科學的一部分,它利用ML演算法和其他統計技術來了解數據如何影響和發展業務。
為什麼要使用Python?
Python在用於實現機器學習和數據科學的最流行的編程語言中排名第一。讓我們了解為什麼。
易於學習:Python使用非常簡單的語法,可用於實現簡單的計算,例如將兩個字元串添加到復雜的過程中,例如構建復雜的ML模型。更少的代碼:實施數據科學和機器學習涉及無數的演算法。得益於Python對預定義包的支持,我們不必編寫演算法。為了使事情變得更容易,Python提供了一種「在編碼時檢查」的方法,從而減輕了測試代碼的負擔。預建庫:Python有100多個預建庫,用於實現各種ML和深度學習演算法。因此,每次您要在數據集上運行演算法時,只需要做的就是用單個命令安裝和載入必要的程序包。預先構建的庫的示例包括NumPy,Keras,Tensorflow,Pytorch等。與平台無關:Python可以在多個平台上運行,包括Windows,macOS,Linux,Unix等。在將代碼從一個平台轉移到另一個平台時,您可以使用諸如PyInstaller之類的軟體包,該軟體包將解決所有依賴性問題。大量的社區支持:除擁有大量支持者外,Python還擁有多個社區,團體和論壇,程序員可以在其中發布他們的錯誤並互相幫助。Python庫
Python在AI和ML領域普及的唯一最重要的原因是,Python提供了數千個內置庫,這些庫具有內置功能和方法,可以輕松地進行數據分析,處理,處理,建模等。 。在下一節中,我們將討論以下任務的庫:
統計分析數據可視化數據建模與機器學習深度學習自然語言處理(NLP)統計分析
統計是數據科學和機器學習的最基本基礎之一。所有ML和DL演算法,技術等均基於統計的基本原理和概念。
Python附帶了大量的庫,僅用於統計分析。在此博客中,我們將重點介紹提供內置函數以執行最復雜的統計計算的頂級統計軟體包。
這是用於統計分析的頂級Python庫的列表:
NumPySciPyPandas統計模型NumPy
NumPy或數值Python是最常用的Python庫之一。該庫的主要功能是它支持用於數學和邏輯運算的多維數組。NumPy提供的功能可用於索引,分類,整形和傳輸圖像和聲波,這些圖像和聲波是多維實數數組。
以下是NumPy的功能列表:
執行簡單到復雜的數學和科學計算對多維數組對象的強大支持以及用於處理數組元素的函數和方法的集合傅里葉變換和數據處理常式執行線性代數計算,這對於機器學習演算法(例如線性回歸,邏輯回歸,樸素貝葉斯等)是必需的。SciPy
SciPy庫建立在NumPy之上,是一組子軟體包的集合,可幫助解決與統計分析有關的最基本問題。SciPy庫用於處理使用NumPy庫定義的數組元素,因此它通常用於計算使用NumPy無法完成的數學方程式。
這是SciPy的功能列表:
它與NumPy數組一起使用,提供了一個平台,提供了許多數學方法,例如數值積分和優化。它具有可用於矢量量化,傅立葉變換,積分,插值等子包的集合。提供完整的線性代數函數堆棧,這些函數可用於更高級的計算,例如使用k-means演算法的聚類等。提供對信號處理,數據結構和數值演算法,創建稀疏矩陣等的支持。Pandas
Pandas是另一個重要的統計庫,主要用於統計,金融,經濟學,數據分析等廣泛領域。該庫依賴於NumPy數組來處理Pandas數據對象。NumPy,Pandas和SciPy在執行科學計算,數據處理等方面都嚴重依賴彼此。
我經常被要求在Pandas,NumPy和SciPy中選擇最好的,但是,我更喜歡使用它們,因為它們彼此之間非常依賴。Pandas是處理大量數據的最佳庫之一,而NumPy對多維數組具有出色的支持,另一方面,Scipy提供了一組執行大多數統計分析任務的子包。
以下是Pandas的功能列表:
使用預定義和自定義索引創建快速有效的DataFrame對象。它可用於處理大型數據集並執行子集,數據切片,索引等。提供用於創建Excel圖表和執行復雜數據分析任務的內置功能,例如描述性統計分析,數據整理,轉換,操作,可視化等。提供對處理時間序列數據的支持統計模型
StatsModels Python軟體包建立在NumPy和SciPy之上,是創建統計模型,數據處理和模型評估的最佳選擇。除了使用SciPy庫中的NumPy數組和科學模型外,它還與Pandas集成以進行有效的數據處理。該庫以統計計算,統計測試和數據探索而聞名。
以下是StatsModels的功能列表:
NumPy和SciPy庫中找不到的執行統計檢驗和假設檢驗的最佳庫。提供R樣式公式的實現,以實現更好的統計分析。它更隸屬於統計人員經常使用的R語言。由於它廣泛支持統計計算,因此通常用於實現廣義線性模型(GLM)和普通最小二乘線性回歸(OLM)模型。包括假設檢驗(零理論)在內的統計檢驗是使用StatsModels庫完成的。因此,它們是用於統計分析的最常用和最有效的Python庫。現在讓我們進入數據科學和機器學習中的數據可視化部分。
數據可視化
圖片說出一千多個單詞。我們都聽說過關於藝術方面的引用,但是,對於數據科學和機器學習也是如此。
數據可視化就是通過圖形表示有效地表達來自數據的關鍵見解。它包括圖形,圖表,思維導圖,熱圖,直方圖,密度圖等的實現,以研究各種數據變數之間的相關性。
在本博客中,我們將重點介紹最好的Python數據可視化軟體包,這些軟體包提供內置函數來研究各種數據功能之間的依賴關系。
這是用於數據可視化的頂級Python庫的列表:
Matplotlib是Python中最基本的數據可視化軟體包。它支持各種圖形,例如直方圖,條形圖,功率譜,誤差圖等。它是一個二維圖形庫,可生成清晰明了的圖形,這對於探索性數據分析(EDA)至關重要。
這是Matplotlib的功能列表:
Matplotlib通過提供選擇合適的線條樣式,字體樣式,格式化軸等功能,使繪制圖形變得極為容易。創建的圖形可幫助您清楚地了解趨勢,模式並進行關聯。它們通常是推理定量信息的工具。它包含Pyplot模塊,該模塊提供了與MATLAB用戶界面非常相似的界面。這是Matplotlib軟體包的最佳功能之一。提供面向對象的API模塊,以使用GUI工具(例如Tkinter,wxPython,Qt等)將圖形集成到應用程序中。Matplotlib
Matplotlib庫構成了Seaborn庫的基礎。與Matplotlib相比,Seaborn可用於創建更具吸引力和描述性的統計圖。除了對數據可視化的廣泛支持外,Seaborn還附帶一個面向數據集的內置API,用於研究多個變數之間的關系。
以下是Seaborn的功能列表:
提供用於分析和可視化單變數和雙變數數據點以及將數據與其他數據子集進行比較的選項。支持針對各種目標變數的線性回歸模型的自動統計估計和圖形表示。通過提供執行高級抽象的功能,構建用於構造多圖網格的復雜可視化。帶有許多內置主題,可用於樣式設置和創建matplotlib圖Ploty
Ploty是最知名的圖形Python庫之一。它提供了互動式圖形,以了解目標變數和預測變數之間的依賴性。它可以用於分析和可視化統計,財務,商業和科學數據,以生成清晰明了的圖形,子圖,熱圖,3D圖表等。
這是使Ploty成為最佳可視化庫之一的功能列表:
它具有30多種圖表類型,包括3D圖表,科學和統計圖,SVG地圖等,以實現清晰的可視化。藉助Ploty的Python API,您可以創建由圖表,圖形,文本和Web圖像組成的公共/私有儀錶板。使用Ploty創建的可視化以JSON格式序列化,因此您可以在R,MATLAB,Julia等不同平台上輕松訪問它們。它帶有一個稱為Plotly Grid的內置API,該API可讓您直接將數據導入Ploty環境。Bokeh
Bokeh是Python中交互性最強的庫之一,可用於為Web瀏覽器構建描述性的圖形表示形式。它可以輕松處理龐大的數據集並構建通用圖,從而有助於執行廣泛的EDA。Bokeh提供定義最完善的功能,以構建互動式繪圖,儀錶板和數據應用程序。
這是Bokeh的功能列表:
使用簡單的命令幫助您快速創建復雜的統計圖支持HTML,筆記本和伺服器形式的輸出。它還支持多種語言綁定,包括R,Python,lua,Julia等。Flask和django也與Bokeh集成在一起,因此您也可以在這些應用程序上表達可視化效果它提供了對轉換為其他庫(如matplotlib,seaborn,ggplot等)中編寫的可視化文件的支持因此,這些是用於數據可視化的最有用的Python庫。現在,讓我們討論用於實現整個機器學習過程的頂級Python庫。
機器學習
創建可以准確預測結果或解決特定問題的機器學習模型是任何數據科學項目中最重要的部分。
實施ML,DL等涉及對數千行代碼進行編碼,當您要創建通過神經網路解決復雜問題的模型時,這可能變得更加麻煩。但值得慶幸的是,我們無需編寫任何演算法,因為Python隨附了多個軟體包,僅用於實現機器學習技術和演算法。
在此博客中,我們將重點介紹提供內置函數以實現所有ML演算法的頂級ML軟體包。
以下是用於機器學習的頂級Python庫的列表:
Scikit-learnXGBoostElI5Scikit-learn
Scikit-learn是最有用的Python庫之一,是用於數據建模和模型評估的最佳庫。它附帶了無數功能,其唯一目的是創建模型。它包含所有有監督的和無監督的機器學習演算法,並且還具有用於集合學習和促進機器學習的定義明確的功能。
以下是Scikit學習的功能列表:
提供一組標准數據集,以幫助您開始使用機器學習。例如,著名的Iris數據集和Boston House Price數據集是Scikit-learn庫的一部分。用於執行有監督和無監督機器學習的內置方法。這包括解決,聚類,分類,回歸和異常檢測問題。帶有用於特徵提取和特徵選擇的內置功能,可幫助識別數據中的重要屬性。它提供了執行交叉驗證以評估模型性能的方法,還提供了用於優化模型性能的參數調整功能。XGBoost
XGBoost代表「極端梯度增強」,它是執行Boosting Machine Learning的最佳Python軟體包之一。諸如LightGBM和CatBoost之類的庫也同樣配備了定義明確的功能和方法。建立該庫的主要目的是實現梯度提升機,該梯度提升機用於提高機器學習模型的性能和准確性。
以下是其一些主要功能:
該庫最初是用C ++編寫的,被認為是提高機器學習模型性能的最快,有效的庫之一。核心的XGBoost演算法是可並行化的,並且可以有效地利用多核計算機的功能。這也使該庫足夠強大,可以處理大量數據集並跨數據集網路工作。提供用於執行交叉驗證,參數調整,正則化,處理缺失值的內部參數,還提供scikit-learn兼容的API。該庫經常在頂級的數據科學和機器學習競賽中使用,因為它一直被證明優於其他演算法。ElI5
ELI5是另一個Python庫,主要致力於改善機器學習模型的性能。該庫相對較新,通常與XGBoost,LightGBM,CatBoost等一起使用,以提高機器學習模型的准確性。
以下是其一些主要功能:
提供與Scikit-learn軟體包的集成,以表達功能重要性並解釋決策樹和基於樹的集成的預測。它分析並解釋了XGBClassifier,XGBRegressor,LGBMClassifier,LGBMRegressor,CatBoostClassifier,CatBoostRegressor和catboost所做的預測。它提供了對實現多種演算法的支持,以便檢查黑盒模型,其中包括TextExplainer模塊,該模塊可讓您解釋由文本分類器做出的預測。它有助於分析包括線性回歸器和分類器在內的scikit學習通用線性模型(GLM)的權重和預測。深度學習
機器學習和人工智慧的最大進步是通過深度學習。隨著深度學習的介紹,現在可以構建復雜的模型並處理龐大的數據集。幸運的是,Python提供了最好的深度學習軟體包,可幫助構建有效的神經網路。
在此博客中,我們將專注於提供用於實現復雜的神經網路的內置功能的頂級深度學習軟體包。
以下是用於深度學習的頂級Python庫的列表:
TensorFlow是用於深度學習的最佳Python庫之一,是一個用於跨各種任務進行數據流編程的開源庫。它是一個符號數學庫,用於構建強大而精確的神經網路。它提供了直觀的多平台編程界面,可在廣闊的領域中實現高度擴展。
以下是TensorFlow的一些關鍵功能:
它允許您構建和訓練多個神經網路,以幫助適應大型項目和數據集。除支持神經網路外,它還提供執行統計分析的功能和方法。例如,它帶有用於創建概率模型和貝葉斯網路(例如伯努利,Chi2,Uniform,Gamma等)的內置功能。該庫提供了分層的組件,這些組件可以對權重和偏差執行分層的操作,並且還可以通過實施正則化技術(例如批標准化,丟包等)來提高模型的性能。它帶有一個稱為TensorBoard的可視化程序,該可視化程序創建互動式圖形和可視化圖形以了解數據功能的依賴性。Pytorch
Pytorch是一個基於Python的開源科學計算軟體包,用於在大型數據集上實施深度學習技術和神經網路。Facebook積極地使用此庫來開發神經網路,以幫助完成各種任務,例如面部識別和自動標記。
以下是Pytorch的一些主要功能:
提供易於使用的API與其他數據科學和機器學習框架集成。與NumPy一樣,Pytorch提供了稱為Tensors的多維數組,與NumPy不同,它甚至可以在GPU上使用。它不僅可以用於對大型神經網路進行建模,而且還提供了一個界面,具有200多種用於統計分析的數學運算。創建動態計算圖,以在代碼執行的每個點建立動態圖。這些圖有助於時間序列分析,同時實時預測銷售量。Keras
Keras被認為是Python中最好的深度學習庫之一。它為構建,分析,評估和改進神經網路提供全面支持。Keras基於Theano和TensorFlow Python庫構建,該庫提供了用於構建復雜的大規模深度學習模型的附加功能。
以下是Keras的一些關鍵功能:
為構建所有類型的神經網路提供支持,即完全連接,卷積,池化,循環,嵌入等。對於大型數據集和問題,可以將這些模型進一步組合以創建完整的神經網路它具有執行神經網路計算的內置功能,例如定義層,目標,激活功能,優化器和大量工具,使處理圖像和文本數據更加容易。它帶有一些預處理的數據集和經過訓練的模型,包括MNIST,VGG,Inception,SqueezeNet,ResNet等。它易於擴展,並支持添加包括功能和方法的新模塊。自然語言處理
您是否曾經想過Google如何恰當地預測您要搜索的內容?Alexa,Siri和其他聊天機器人背後的技術是自然語言處理。NLP在設計基於AI的系統中發揮了巨大作用,該系統有助於描述人類語言與計算機之間的交互。
在此博客中,我們將重點介紹提供內置功能以實現基於高級AI的系統的頂級自然語言處理包。
這是用於自然語言處理的頂級Python庫的列表:
NLTKspaCyGensimNLTK(自然語言工具包)
NLTK被認為是分析人類語言和行為的最佳Python軟體包。NLTK庫是大多數數據科學家的首選,它提供易於使用的界面,其中包含50多種語料庫和詞彙資源,有助於描述人與人之間的互動以及構建基於AI的系統(例如推薦引擎)。
這是NLTK庫的一些關鍵功能:
提供一套數據和文本處理方法,用於文本分析的分類,標記化,詞干,標記,解析和語義推理。包含用於工業級NLP庫的包裝器,以構建復雜的系統,以幫助進行文本分類並查找人類語音的行為趨勢和模式它帶有描述計算語言學實現的綜合指南和完整的API文檔指南,可幫助所有新手開始使用NLP。它擁有龐大的用戶和專業人員社區,它們提供全面的教程和快速指南,以學習如何使用Python進行計算語言學。spaCy
spaCy是一個免費的開源Python庫,用於實現高級自然語言處理(NLP)技術。當您處理大量文本時,重要的是要了解文本的形態學意義以及如何將其分類以理解人類語言。通過spaCY可以輕松實現這些任務。
這是spaCY庫的一些關鍵功能:
除了語言計算外,spaCy還提供了單獨的模塊來構建,訓練和測試統計模型,從而更好地幫助您理解單詞的含義。帶有各種內置的語言注釋,可幫助您分析句子的語法結構。這不僅有助於理解測試,還有助於查找句子中不同單詞之間的關系。它可用於對包含縮寫和多個標點符號的復雜嵌套令牌應用令牌化。除了非常強大和快速之外,spaCy還提供對51種以上語言的支持。Gensim
Gensim是另一個開源Python軟體包,其建模旨在從大型文檔和文本中提取語義主題,以通過統計模型和語言計算來處理,分析和預測人類行為。無論數據是原始數據還是非結構化數據,它都有能力處理龐大的數據。
以下是Genism的一些主要功能:
它可用於構建可通過理解每個單詞的統計語義來有效分類文檔的模型。它帶有諸如Word2Vec,FastText,潛在語義分析之類的文本處理演算法,這些演算法研究文檔中的統計共現模式,以過濾掉不必要的單詞並構建僅具有重要功能的模型。提供可以導入並支持各種數據格式的I / O包裝器和讀取器。它具有簡單直觀的界面,可供初學者輕松使用。API學習曲線也很低,這解釋了為什麼許多開發人員喜歡此庫。
I. r語言中怎麼導入excel數據
以下擴展包可以讀取xlsx文件: CRAN - Package xlsx awalker89/openxlsx · GitHub CRAN - Package RODBC 通過 odbcConnectExcel2007 連接到xlsx表格,然後通過SQL選擇表格中的數據 hadley/readxl · GitHub 最新的一個擴展包,可以跨平台、無依賴地讀取xls, xlsx中的表格數據。
J. 如何才能拿R讀取Excel文件
R語言讀取excel文件文件其實有很多的包可以做到,最常用的就是xlsx和readxl, 首先,安裝並載入讀取excel文件所用的包:
install.packages("xlsx") library(xlsx)
或者,
install.packages("readxl") library(readxl)
兩個包的基本介紹
xlsx是用R把excel文件中的工作表以data.frame的格式讀入R語言,他有兩個常用函數,其中read.xlsx2通常會比read.xlsx讀取的速度更快一些,因為它的好多工作是利用Java完成的,所以速度有所提升,但是在讀取子數據集的時候沒有read.xlsx穩定性好。
read.xlsx(file, sheetIndex, sheetName=NULL, rowIndex=NULL, startRow=NULL, endRow=NULL, colIndex=NULL, as.data.frame=TRUE, header=TRUE, colClasses=NA, keepFormulas=FALSE, encoding="unknown", ...)
read.xlsx2(file, sheetIndex, sheetName=NULL, startRow=1, colIndex=NULL, endRow=NULL, as.data.frame=TRUE, header=TRUE, colClasses="character", ...)
註:
sheetIndex:工作表單號
rowIndex:行號,就是你想讀取那些行
header:表頭,就是有沒有列名。比如姓名,年齡,學號等
startRow:比如你想從第五行開始讀取,就設置startRow = 5
readxl包可以用來讀取xls和xlsx格式的文件
read_excel(path, sheet = 1, col_names = TRUE, col_types = NULL, na = "", skip = 0)
註:
sheet:讀取的工作表
col_names: 如果是FALSE的話,就表示第一行不是列名,R會自動給你取成x1,x2...
colt_types: blank,numeric,date,text
na: 缺失值,默認空著的單元是缺失值,你也可以自己指定,比如認為999是缺失值