기타

데이터 수집 관련 사이트 모음

양쏘쏘 2021. 10. 8. 20:00
728x90
반응형

데이터가 돈이 되는 시대에서 데이터 수집은 생각보다 규제가 많습니다. 

때문에 데이터를 수집하더라도 2차 창작이 가능한지 등 라이센스에 대해 확인하는 것이 필요합니다. 

통계자료의 경우 의견제시의 근거로도 쓰일 수 있기 때문에 아래 사이트들은 한번쯤 봐두는 것을 추천합니다. 

 

1. 공공데이터포털

한국데이터산업진흥원,통계청 등과 연계되어있는 사이트로 파일데이터나 오픈 API로 제공되는 데이터를 받을 수 있음

오픈 API의 경우 XML, JSON, CSV 형식으로 제공

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

 

2. 국가 통계 포털(통계청 연계)

다른 사이트보다는 UI가 직관적이긴한데 데이터는 대부분 숫자 위주여서 그래프화시키는 자료로 사용하기 좋을 듯함

https://kosis.kr/index/index.do

 

KOSIS 국가통계포털

내가 본 통계표 최근 본 통계표 25개가 저장됩니다. 닫기

kosis.kr

 

3. 서울 열린데이터광장

서울시에서 운영하는 사이트로 보건,행정,인구 등 다양한 정보를 제공해줌.

CSV, JSON,엑셀로 제공해주고 사이트 내에서 차트로도 보여주고있기 때문에 확인이 편리함.

https://data.seoul.go.kr/

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

 

4. 경기데이터 드림

지역 데이터이긴한데 서울보다는 다소 한정적인 데이터를 제공해주는 것 같음.

https://data.gg.go.kr/portal/data/dataset/searchDatasetPage.do

 

데이터셋 목록 | 경기데이터드림

경기도의 모든 공공데이터를 개방합니다.

data.gg.go.kr

 

5. E-나라지표

보고서 느낌으로 그래프와 함께 간략한 설명도 있어서 이해하는데 도움이 됨.

https://www.index.go.kr/main.do

 

e-나라지표 메인화면

 

www.index.go.kr

 

Open API는 개별 키값을 발급받아서 url 경로로 요청을 보내면 데이터가 출력되기 때문에 HTML 파싱이나 

크롤링에 대한 이해가 있다면 데이터를 긁어올 때 훨씬 수월할 것 같습니다. 

엑셀파일(.xls,xlsx), CSV, XML,JSON 형식에 대해서도 이해하고 이 내용들을 어떻게 파싱해서

DB로 옮길건지도 고민해봐야합니다. 

엑셀파일의 경우 자바로 라이브러리 활용해서 읽는 방법을 설명했었는데

그 외의 형식은 비교적 간단하기 때문에 파이썬을 사용하는 것이 편합니다. 

처리속도나 메모리 측면에서는 파이썬이 더 유리하다고 생각되는데 자바로도 처리는 가능합니다.

자바나 파이썬으로 DB 연동까지 하고 데이터를 읽어오면서 바로 SQL까지 짜서 넣어주면 간단합니다. 

아래 글은 이전에 엑셀파일 읽어오는 라이브러리 사용방법 관한 글인데 참고하시길 바랍니다.

 

엑셀 파일 읽기

 

[Java] 엑셀 파일(.xls) 읽기

자바에서 엑셀 파일(.xls)을 읽어오는 방법입니다. 이클립스에서 poi 라이브러리 다운로드 및 추가 방법은 아래 글을 참고해주세요 https://yangsosolife.tistory.com/7 [Java] POI 라이브러리 다운로드 자바에

yangsosolife.tistory.com

 

728x90