주니어 기초 코딩공부/빅데이터 찍먹

캐글 CSV 파일을 활용한 인덱스 작성

jju_developer 2023. 6. 7. 16:17
728x90

안녕하세요 jju_developer입니다.

 

이번시간에는 

캐글 관련하여 배운 수업내용을 정리하여 공유드립니다.

 

정보통신기술 ICT의 발달로 매 순간 어마어마한 데이터가 쏟아져 나오고 있습니다.

종래의 방법으로는 수집, 저장, 가공, 분석이 어려운 방대한 규모의 데이터입니다

이를 흔히 빅데이터라고 부르는데, 이 빅데이터를 제대로 분석하면 정말 많은 문제들을 해결할 수 있습니다. 

그렇기 때문에 데이터를 분석하고 예측 모델을 도출해 낼 수 있는 전문가의 가치가 높이 치솟고 있습니다. 

이번 수업시간에서는 데이터분석 전문가들이 사용하는 툴 캐글(Kaggle)에 대해 소개하고 간단히 사용하는 방법에

대해 알려드리고자 합니다.

 

우선 케글 웹사이트에 가입을 해봅시다

 

케글 회원가입 클릭!

케글 회원가입

캐글은 전 세계 각국에서 이용하고 있는 데이터분석 경진대회 플랫폼이리고 합니다.

전 세계 데이터 분석가들이 주어진 과제들을 얼마나 정확하게 예측하는지를 겨루는 것이다.

캐글은 수많은 데이터 분석가들이 이용하고 있으며,
캐글 사용자들은 캐글을 통해 온라인상에서 자신들의 의견을 공유하고, 그 결과를 즉시 평가하며 경쟁할 수 있습니다.
캐글에 분석 결과를 업로드하면 정확도를 기준으로 수분 내로 온라인에서 채점이 끝나며 참가자 간 순위가 매겨집니다.

 

즉, 캐글은 자신의 데이터분석능력을 측정하고 이를 향상시킬 수 있는 이상적인 환경이라고 볼 수 있습니다.
캐글에서는 서로의 능력을 향상시키기 위한 Discussion 코너와 Notebook 코너가 존재합니다.
◇ Discussion 코너: 참가자끼리 자신이 알아낸 것을 공유하고 의견을 나눔
◇ Notebook 코너: 자신의 코드를 그대로 공유할 수 있으며 이에 대해 코멘트를 달거나 투표가 가능

 

데이터 분석 대회 뿐만 아니라 데이터 분석을 위한 데이터 셋, 파이썬, R 기반 개발 환경, 초보 데이터 분석가들을 위한 무료 강의 등 다양한 기능을 제공하기 때문에 해당 사이트에 들어가서 둘러보시는 것이 좋겠습니다.

 

저는 맥쌤이 미리 다운로드하여 놓은 캐글의 데이터를 불러와서 키바나에 띄우는 작업을 했습니다.

다운로드한 두 개의 엑셀 파일에는 여러 방대한 데이터가 들어있습니다.

 

1. 데이터 다운로드

>> 엑셀 데이터 다운로드

2. 키바나 접속 http://localhost:5601/

 

3.  키바나 -> 머신러닝 -> 파일 드롭
>> 다운로드 받았던 엑셀파일 드롭

실제로 credit card 말고 두번째 movie 데이터를 가져왔습니다.

 

 

4. import를 누른 후 Advanced 클릭하여 인덱스의 이름을 생성해 줍니다.

import를 누르면 완료됨을 볼 수 있습니다.

다시 키바나의 Discover로 가서

방금 만든 인덱스를 선택해 줍니다.

 

5. Kibana > Discover 메뉴를 확인

"No results match your search criteria"라는 메시지와 함께 아무 데이터도 보이지 않는 이유는 날짜를 바꾸지 않았기 때문입니다.

 

6. 날짜를 100년 전으로부터 지금까지 검색으로 바꾸고
업데이트를 해보겠습니다.

 

7. Dev Tool로 이동 

GET tmdb_5000_movies2/_search
{
 "size": 0,
 "aggs": {
 "rdate": {
 "stats": {
 "field": "release_date"
       }
     }
   }
}

 

1916년 가장 오래된 정보 ~최신 2016 09월까지의 데이터가 있음을 확인할 수 있습니다.

 

다음시간에는 해당 데이터를  키바나에서 엘라스틱서치 인덱스를 이용하는 방법에 대해서 알아보겠습니다.

 

수고하셨습니다 😊

728x90