대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

programing

대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

lovejava 2023. 7. 18. 21:23

대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

큰 data.table을 가지고 있으며 ~200k 행과 200개 열에 많은 결측값이 흩어져 있습니다.NA 값을 0으로 최대한 효율적으로 기록하고 싶습니다.

두 가지 옵션이 있습니다.
1: data.frame으로 변환하여 다음과 같은 것을 사용합니다.
2: 일종의 쿨한 data.table 하위 설정

저는 1타입의 상당히 효율적인 솔루션으로 만족할 수 있습니다.data.frame으로 변환한 다음 다시 data.table로 변환하는 데 시간이 오래 걸리지 않습니다.

다음은 데이터를 사용한 솔루션입니다. 표:=교환원, 앤드리와 램낫의 대답을 기반으로 합니다.

require(data.table)  # v1.6.6
require(gdata)       # v2.8.2

set.seed(1)
dt1 = create_dt(2e5, 200, 0.1)
dim(dt1)
[1] 200000    200    # more columns than Ramnath's answer which had 5 not 200

f_andrie = function(dt) remove_na(dt)

f_gdata = function(dt, un = 0) gdata::NAToUnknown(dt, un)

f_dowle = function(dt) {     # see EDIT later for more elegant solution
  na.replace = function(v,value=0) { v[is.na(v)] = value; v }
  for (i in names(dt))
    eval(parse(text=paste("dt[,",i,":=na.replace(",i,")]")))
}

system.time(a_gdata = f_gdata(dt1)) 
   user  system elapsed 
 18.805  12.301 134.985 

system.time(a_andrie = f_andrie(dt1))
Error: cannot allocate vector of size 305.2 Mb
Timing stopped at: 14.541 7.764 68.285 

system.time(f_dowle(dt1))
  user  system elapsed 
 7.452   4.144  19.590     # EDIT has faster than this

identical(a_gdata, dt1)   
[1] TRUE

참고로 f_dowle은 dt1을 업데이트했습니다.로컬 복사본이 필요한 경우 명시적으로 전화를 겁니다.copy전체 데이터 세트의 로컬 복사본을 만들려면 함수가 필요합니다. data.table'ssetkey,key<-그리고.:=쓰기 시 복사하지 않습니다.

다음으로, f_dowle이 어디에서 시간을 보내고 있는지 알아보겠습니다.

Rprof()
f_dowle(dt1)
Rprof(NULL)
summaryRprof()
$by.self
                  self.time self.pct total.time total.pct
"na.replace"           5.10    49.71       6.62     64.52
"[.data.table"         2.48    24.17       9.86     96.10
"is.na"                1.52    14.81       1.52     14.81
"gc"                   0.22     2.14       0.22      2.14
"unique"               0.14     1.36       0.16      1.56
... snip ...

거기서, 나는 집중할 것입니다.na.replace그리고.is.na몇 개의 벡터 복사본과 벡터 스캔이 있는 곳.작은 na.replace C 함수를 업데이트하면 쉽게 제거할 수 있습니다.NA벡터의 참조로.그럼 적어도 제가 생각하는 20초는 반으로 줄어들 겁니다.R 패키지에 그런 기능이 있습니까?

이유f_andrie전체를 복사하기 때문에 실패할 수 있습니다.dt1또는 전체만큼 큰 논리 행렬을 만듭니다.dt1,몇 번.다른 두 가지 방법은 한 번에 하나의 열에서 작동합니다(간단히 살펴보긴 했지만).NAToUnknown).

EDIT (Ramnath가 코멘트로 요청한 보다 우아한 솔루션):

f_dowle2 = function(DT) {
  for (i in names(DT))
    DT[is.na(get(i)), (i):=0]
}

system.time(f_dowle2(dt1))
  user  system elapsed 
 6.468   0.760   7.250   # faster, too

identical(a_gdata, dt1)   
[1] TRUE

처음부터 그렇게 했으면 좋겠어요!

EDIT2(1년 이상 지난 지금)

또한 있습니다.set()호출의 (작은) 오버헤드를 방지하기 때문에 루프되는 열이 많은 경우 더 빠를 수 있습니다.[,:=,]고리 모양으로 set루프 가능:=.봐?set.

f_dowle3 = function(DT) {
  # either of the following for loops

  # by name :
  for (j in names(DT))
    set(DT,which(is.na(DT[[j]])),j,0)

  # or by number (slightly faster than by name) :
  for (j in seq_len(ncol(DT)))
    set(DT,which(is.na(DT[[j]])),j,0)
}

제가 생각해 낼 수 있는 가장 간단한 방법은 다음과 같습니다.

dt[is.na(dt)] <- 0

이것은 효율적이며 함수와 기타 글루 코드를 작성할 필요가 없습니다.

전용 기능(nafill그리고.setnafill)에서 이러한 목적으로 사용할 수 있습니다.data.table패키지(버전 > = 1.12.4):

열을 병렬로 처리하여 이전에 게시된 벤치마크를 처리하고, 타이밍과 지금까지 가장 빠른 접근 방식을 비교할 수 있으며, 40개의 코어 머신을 사용하여 확장할 수도 있습니다.

library(data.table)
create_dt <- function(nrow=5, ncol=5, propNA = 0.5){
  v <- runif(nrow * ncol)
  v[sample(seq_len(nrow*ncol), propNA * nrow*ncol)] <- NA
  data.table(matrix(v, ncol=ncol))
}
f_dowle3 = function(DT) {
  for (j in seq_len(ncol(DT)))
    set(DT,which(is.na(DT[[j]])),j,0)
}

set.seed(1)
dt1 = create_dt(2e5, 200, 0.1)
dim(dt1)
#[1] 200000    200
dt2 = copy(dt1)
system.time(f_dowle3(dt1))
#   user  system elapsed 
#  0.193   0.062   0.254 
system.time(setnafill(dt2, fill=0))
#   user  system elapsed 
#  0.633   0.000   0.020   ## setDTthreads(1) elapsed: 0.149
all.equal(dt1, dt2)
#[1] TRUE

set.seed(1)
dt1 = create_dt(2e7, 200, 0.1)
dim(dt1)
#[1] 20000000    200
dt2 = copy(dt1)
system.time(f_dowle3(dt1))
#   user  system elapsed 
# 22.997  18.179  41.496
system.time(setnafill(dt2, fill=0))
#   user  system elapsed 
# 39.604  36.805   3.798 
all.equal(dt1, dt2)
#[1] TRUE

library(data.table)

DT = data.table(a=c(1,"A",NA),b=c(4,NA,"B"))

DT
    a  b
1:  1  4
2:  A NA
3: NA  B

DT[,lapply(.SD,function(x){ifelse(is.na(x),0,x)})]
   a b
1: 1 4
2: A 0
3: 0 B

참고로 gdata나 data.matrix에 비해 속도가 느리지만 data.table 패키지만 사용하고 숫자가 아닌 항목도 처리할 수 있습니다.

다음은 다음을 사용하는 솔루션입니다.NAToUnknown에 시대에gdataㅠㅠㅠㅠ 는 Andrie의을 사용하여 했습니다.저는 Andrie의 솔루션을 사용하여 거대한 데이터 테이블을 생성했으며 Andrie의 솔루션과 시간 비교도 포함했습니다.

# CREATE DATA TABLE
dt1 = create_dt(2e5, 200, 0.1)

# FUNCTIONS TO SET NA TO ZERO   
f_gdata  = function(dt, un = 0) gdata::NAToUnknown(dt, un)
f_Andrie = function(dt) remove_na(dt)

# COMPARE SOLUTIONS AND TIMES
system.time(a_gdata  <- f_gdata(dt1))

user  system elapsed 
4.224   2.962   7.388 

system.time(a_andrie <- f_Andrie(dt1))

 user  system elapsed 
4.635   4.730  20.060 

identical(a_gdata, g_andrie)  

TRUE

R에서 빠른 작동의 비결은 벡터(또는 후드 아래의 벡터인 배열)를 활용하는 것으로 알고 있습니다.

는 이솔션에저사다다니용합음을는서루▁a▁of다를 사용합니다.data.matrix은 것은그입니다.array하지만 조금은 바보처럼 행동합니다.data.frame배열이기 때문에 매우 간단한 벡터 대체를 사용하여 다음을 대체할 수 있습니다.NAs:

시스템을 탈거하기 위한 약간의 도우미 기능NA본질은 코드 한 줄입니다.실행 시간을 측정하기 위해 이 작업을 수행합니다.

remove_na <- function(x){
  dm <- data.matrix(x)
  dm[is.na(dm)] <- 0
  data.table(dm)
}

약간의 도우미 기능을 사용하면data.table일정한 크기의

create_dt <- function(nrow=5, ncol=5, propNA = 0.5){
  v <- runif(nrow * ncol)
  v[sample(seq_len(nrow*ncol), propNA * nrow*ncol)] <- NA
  data.table(matrix(v, ncol=ncol))
}

작은 샘플에 대한 시연:

library(data.table)
set.seed(1)
dt <- create_dt(5, 5, 0.5)

dt
            V1        V2        V3        V4        V5
[1,]        NA 0.8983897        NA 0.4976992 0.9347052
[2,] 0.3721239 0.9446753        NA 0.7176185 0.2121425
[3,] 0.5728534        NA 0.6870228 0.9919061        NA
[4,]        NA        NA        NA        NA 0.1255551
[5,] 0.2016819        NA 0.7698414        NA        NA

remove_na(dt)
            V1        V2        V3        V4        V5
[1,] 0.0000000 0.8983897 0.0000000 0.4976992 0.9347052
[2,] 0.3721239 0.9446753 0.0000000 0.7176185 0.2121425
[3,] 0.5728534 0.0000000 0.6870228 0.9919061 0.0000000
[4,] 0.0000000 0.0000000 0.0000000 0.0000000 0.1255551
[5,] 0.2016819 0.0000000 0.7698414 0.0000000 0.0000000

완전성을 위해 NA를 0으로 대체하는 또 다른 방법은 다음과 같습니다.

f_rep <- function(dt) {
dt[is.na(dt)] <- 0
return(dt)
}

결과와 시간을 비교하기 위해 지금까지 언급된 모든 접근 방식을 통합했습니다.

set.seed(1)
dt1 <- create_dt(2e5, 200, 0.1)
dt2 <- dt1
dt3 <- dt1

system.time(res1 <- f_gdata(dt1))
   User      System verstrichen 
   3.62        0.22        3.84 
system.time(res2 <- f_andrie(dt1))
   User      System verstrichen 
   2.95        0.33        3.28 
system.time(f_dowle2(dt2))
   User      System verstrichen 
   0.78        0.00        0.78 
system.time(f_dowle3(dt3))
   User      System verstrichen 
   0.17        0.00        0.17 
system.time(res3 <- f_unknown(dt1))
   User      System verstrichen 
   6.71        0.84        7.55 
system.time(res4 <- f_rep(dt1))
   User      System verstrichen 
   0.32        0.00        0.32 

identical(res1, res2) & identical(res2, res3) & identical(res3, res4) & identical(res4, dt2) & identical(dt2, dt3)
[1] TRUE

따라서 새로운 접근 방식은 다음보다 약간 느립니다.f_dowle3하지만 다른 모든 접근법보다 빠릅니다.하지만 솔직히 말해서, 이것은 제가 데이터의 직관에 반하는 것입니다. table Syntax는 이것이 왜 작동하는지 전혀 모르겠습니다.누가 나를 깨우쳐 줄 수 있습니까?

fifelse 신제품기에서 합니다.data.table 1은 § 1.12.6보다 더 .NAToUnknown에 시대에gdata패키지:

z = data.table(x = sample(c(NA_integer_, 1), 2e7, TRUE))
system.time(z[,x1 := gdata::NAToUnknown(x, 0)])

#   user  system elapsed 
#  0.798   0.323   1.173

system.time(z[,x2:= fifelse(is.na(x), 0, x)])

#   user  system elapsed 
#  0.172   0.093   0.113

여러 열로 일반화하려면 다음 방법을 사용할 수 있습니다(이전 표본 데이터를 사용하지만 열을 추가함).

z = data.table(x = sample(c(NA_integer_, 1), 2e7, TRUE), y = sample(c(NA_integer_, 1), 2e7, TRUE))

z[, names(z) := lapply(.SD, function(x) fifelse(is.na(x), 0, x))]

속도를 테스트하지 않았습니다.

> DT = data.table(a=LETTERS[c(1,1:3,4:7)],b=sample(c(15,51,NA,12,21),8,T),key="a")
> DT
   a  b
1: A 12
2: A NA
3: B 15
4: C NA
5: D 51
6: E NA
7: F 15
8: G 51
> DT[is.na(b),b:=0]
> DT
   a  b
1: A 12
2: A  0
3: B 15
4: C  0
5: D 51
6: E  0
7: F 15
8: G 51
>

언급URL : https://stackoverflow.com/questions/7235657/fastest-way-to-replace-nas-in-a-large-data-table

'programing' 카테고리의 다른 글

ASP.NET 코어에서 Swagger의 기본 URL을 변경하는 방법 (0)	2023.07.18
장고 앱을 완전히 제거하는 방법은 무엇입니까? (0)	2023.07.18
Python에서 IP 주소를 검증하는 방법은 무엇입니까? (0)	2023.07.18
무한 반복기에 대한 표현이 있습니까? (0)	2023.07.18
C++에서 어레이 또는 std:: 벡터를 사용하면 성능 차이가 어떻게 됩니까? (0)	2023.07.18

현재글대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

각종 프로그래밍 정보를 다루는 블로그입니다.

Android, Excel, jQuery, C, Python, sql-server, Git, mariadb, JSON, spring-boot, ASP.NET, Wordpress, angularJS, MongoDB, ajax, reactjs, bash, Oracle, Swift, MySQL,

Today :
Yesterday :

lovejava

대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

'programing' 카테고리의 다른 글

'programing'의 다른글

티스토리툴바

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

대용량 데이터에서 NA를 가장 빠르게 대체할 수 있는 방법.표

'programing' 카테고리의 다른 글

'programing'의 다른글

관련글

티스토리툴바