데이터가 돈이 되는 시대에서 데이터 수집은 생각보다 규제가 많습니다.
때문에 데이터를 수집하더라도 2차 창작이 가능한지 등 라이센스에 대해 확인하는 것이 필요합니다.
통계자료의 경우 의견제시의 근거로도 쓰일 수 있기 때문에 아래 사이트들은 한번쯤 봐두는 것을 추천합니다.
1. 공공데이터포털
한국데이터산업진흥원,통계청 등과 연계되어있는 사이트로 파일데이터나 오픈 API로 제공되는 데이터를 받을 수 있음
오픈 API의 경우 XML, JSON, CSV 형식으로 제공
2. 국가 통계 포털(통계청 연계)
다른 사이트보다는 UI가 직관적이긴한데 데이터는 대부분 숫자 위주여서 그래프화시키는 자료로 사용하기 좋을 듯함
https://kosis.kr/index/index.do
3. 서울 열린데이터광장
서울시에서 운영하는 사이트로 보건,행정,인구 등 다양한 정보를 제공해줌.
CSV, JSON,엑셀로 제공해주고 사이트 내에서 차트로도 보여주고있기 때문에 확인이 편리함.
4. 경기데이터 드림
지역 데이터이긴한데 서울보다는 다소 한정적인 데이터를 제공해주는 것 같음.
https://data.gg.go.kr/portal/data/dataset/searchDatasetPage.do
5. E-나라지표
보고서 느낌으로 그래프와 함께 간략한 설명도 있어서 이해하는데 도움이 됨.
https://www.index.go.kr/main.do
Open API는 개별 키값을 발급받아서 url 경로로 요청을 보내면 데이터가 출력되기 때문에 HTML 파싱이나
크롤링에 대한 이해가 있다면 데이터를 긁어올 때 훨씬 수월할 것 같습니다.
엑셀파일(.xls,xlsx), CSV, XML,JSON 형식에 대해서도 이해하고 이 내용들을 어떻게 파싱해서
DB로 옮길건지도 고민해봐야합니다.
엑셀파일의 경우 자바로 라이브러리 활용해서 읽는 방법을 설명했었는데
그 외의 형식은 비교적 간단하기 때문에 파이썬을 사용하는 것이 편합니다.
처리속도나 메모리 측면에서는 파이썬이 더 유리하다고 생각되는데 자바로도 처리는 가능합니다.
자바나 파이썬으로 DB 연동까지 하고 데이터를 읽어오면서 바로 SQL까지 짜서 넣어주면 간단합니다.
아래 글은 이전에 엑셀파일 읽어오는 라이브러리 사용방법 관한 글인데 참고하시길 바랍니다.
'기타' 카테고리의 다른 글
[팁] Google Search Console에 사이트 추가하기, 색인 확인 (2) | 2024.05.22 |
---|---|
[애드핏] 조건,신청방법,심사기간,설정 방법 (0) | 2021.11.01 |
[팁] 자동로그인 비밀번호 보기 (0) | 2021.02.22 |