R 중급 한글 인코딩 셋 에러 난 것 ????? 문자열 검색 정규화 표현식

     Linux R에서 사용하는 기본적인 인코딩 셋은 UTF-8 이다.  하지만, 엑셀은 CP949 이다.     DB 엔진은 EUC-KR이다.  이런 경우는 매우 특수한 경우인데,  데이터 마이그레션 과정중에서   CP949인코딩 셋 데이터를  변환하지 않고,  EUC-KR에 잘못 넣으면,    내역이 아래 그림과 같은 오류가 발생 한다. 


> # 한글 인글 인코딩 깨진것 검색
>   library(stringr)
>   library(dbplyr)
>   Search <- data.frame(text = c("한글 인코딩 깨진것 검색","??????/COMP ????[??]", "equi" ))
>   Search %>% 
     filter(str_detect(text, "한글"))
                     text
1 한글 인코딩 깨진것 검색  

# 오류 내용
>   Search %>% 
     filter(str_detect(text, "?"))
에러: Problem with `filter()` input `..1`.
 Input `..1` is `str_detect(text, "?")`.
x Syntax error in regexp pattern. (U_REGEX_RULE_SYNTAX, context=`?`)
Run `rlang::last_error()` to see where the error occurred.
>   Search %>% 
     filter(str_detect(text, '\\?'))
                  text
1 ??????/COMP ????[??]
>   localeToCharset()
[1] "UTF-8"  "EUC-KR"



  위의 녹색과 같이 정규화 표현식을 찾아서 걸러 내는 방법이 있다. 일반적으로 많이 쓰이는 기능이니,  이것을 활용 하면 매우 좋다. 

댓글 없음:

댓글 쓰기

공무 스케줄 AI Agem에 대한 생각

     지금 상황이 아비 규환이다.  어느 부서든 회사가 인수 합병되고 나서  투자를 기획하는 경영기획이 특히 않이 정신이 없고, 우리부서도 전부 미국 필리 조선소로 인원이 나가 있어,  사실상 10년 이상 고기량자는 거의 없다.   우리부서에 남아...