2025-12-30


찰스 체핀스(Charles Cheffins)(1807-1861)
오픈공간데이터
로빈 윌슨(Robin Wilson)의 블로그
GitHub: epibayes/john-snow-data
공간데이터사이언스
데이터사이언스는 원(raw) 데이터로부터 지식, 이해, 통찰을 획득하기 위해 수학 및 통계학, 컴퓨터 과학, 도메인(분야) 지식에서 발전해 온 이론, 기술, 방법론 등을 융합적으로 활용하는 간학문적 영역
지식, 이해, 통찰을 효과적으로 소통하고, 현실 문제 해결에 대안을 제시
https://www.docsumo.com/blogs/data-extraction/structured-vs-unstructured-vs-semistructured
| 구분 | 정형 데이터 | 비정형 데이터 | 반정형 데이터 |
|---|---|---|---|
| 형태 | 행과 열이 있는 구조화된 데이터, 고정된 스키마 | 구조가 전혀 없거나 일정하지 않은 데이터 | 어느 정도 구조를 가지지만 고정된 스키마가 없는 데이터 |
| 예시 | 테이블 데이터, 데이터 프레임, 스프레스 시트 | 텍스트 문서, 이미지, 동영상, 음성, SNS 글 | XML, JSON, HTML, 센서 데이터 |
| 저장 방식 | 관계형 DB, 데이터 웨어하우스 | 파일 시스템, 분산 저장(HDFS 등) | NoSQL DB, 문서 지향 DB |
| 처리 용이성 | SQL 등으로 처리 용이, 분석 자동화 용이 | 전처리 필요(텍스트 마이닝, 영상 처리 등) | 정제 후 분석 가능, 중간 난이도 |
| 장점 | 검색 및 분석이 빠르고 정확 | 다양한 형태의 정보 반영 가능 | 구조와 유연성을 동시에 제공 |
| 단점 | 표현력 제한, 새로운 유형 데이터 반영 어려움 | 처리 및 분석이 복잡, 저장 용량 큼 | 표준화 부족, 추가 가공 필요 |
구조는 존재
구분 규칙({ }, [ ], :) 존재
기계가 파싱(parsing)하기 용이
완전한 비정형(자유 텍스트, 이미지 등)은 아님
스키마는 유연
관계형 DB처럼 고정된 컬럼 정의를 강제하지 않음
같은 데이터셋 안에서도 레코드마다 필드를 다르게 하거나 새 필드 추가 등이 용이
정형 데이터처럼 엄격히 표준화된 구조는 아님
탐색적 데이터 분석(exploratory data analysis, EDA)
통계학(+ 수학) 위주
변형(transformation), 요약(summarization), 시각화(visualization)
머신러닝(machine learning, ML)
컴퓨터과학(+ 수학) 위주
전통적 머신러닝: 의사결정 트리, 랜덤 포레스트, 서포트 벡터 머신
인공신경망 기반 다양한 딥러닝 기법
LLM(large language model, 대규모 언어 모델): 생성형 AI
결합: “LLM-기반 EDA”




정의: 데이터와의 상호작용을 통해 다음을 행하는 과정
데이터 구조 이해
패턴 탐지 및 이례적 현상 확인
모형 평가 및 가설 설정
핵심 기법
변형: 데이터의 구조를 변경하여 요약 및 시각화가 용이하게 하는 과정
요약: 데이터를 요약해주는 통계값의 산출 및 정리
시각화: 데이터의 다양한 측면을 검토할 수 있게, 데이터를 그래픽으로 전환하는 과정
샤를 조제프 미나르(Charles Joseph Minard)(1781-1870)
정의
특징
데이터 기반 학습: 알고리즘이 주어진 데이터에서 규칙 및 패턴을 스스로 찾아냄
일반화 능력: 학습한 패턴을 새로운 데이터에 적용할 수 있음
반복적 성능 개선: 더 많은 데이터와 더 나은 알고리즘을 통해 성능 향상 가능
응용 분야: 이미지 인식, 음성 인식, 추천 시스템, 자연어 처리, 자율 주행, 의료 진단 등
| 학습 유형 | 설명 | 대표 기법 | 예시 |
|---|---|---|---|
| 지도학습 (supervised learning) |
입력과 정답(label)을 함께 학습하여 새로운 입력의 출력을 예측 | 선형회귀, 로지스틱회귀, 서포트 벡터 머신(SVM), 의사결정 트리, 랜덤 포레스트, 인공신경망 | 집값 예측, 이메일 스팸 분류 |
| 비지도학습 (unsupervised learning) |
정답(label) 없이 데이터의 구조 및 패턴을 학습 | K-평균 군집화, 계층적 군집화, 주성분분석 | 고객 세분화, 문서 주제 파악 |
| 강화학습 (reinforcement learning) |
환경과 상호작용하며 보상(reward)을 극대화하는 행동 학습 | Q-러닝, SARSA, 심층강화학습(DQN) | 알파고, 자율주행, 로봇제어 |
| 준지도학습 (semi-supervised learning) |
일부만 정답(label)이 있는 데이터 학습 | 라벨 전파, 준지도 신경망 | 의료 데이터 분석 |
| 자기지도학습 (self-supervised learning) |
데이터의 일부를 가려놓고 예측하게 하여 스스로 학습 | Word2Vec, BERT, GPT류 모델 | 언어 모델, 이미지 특징 학습 |

https://medium.com/@ajaymaurya_72779/basic-questions-on-eda-analysis-for-data-science-ec61ddab61d6
해들리 위컴(Hadley Wickham)
해들리 위컴(Hadley Wickham)
https://commons.wikimedia.org/wiki/File:Data-Science-Landscape.jpg




정의
핵심 가치
개방성(openess): 연구 결과(논문, 데이터, 코드)에 누구나 접근
재현가능성(reporducibility): 동일한 데이터와 방법으로 결과 검증
참여와 협업(participation & collaboration): 연구자 뿐만 아니라 시민, 기업, 정부 등이 연구 과정에 참여
투명성과 책무성(transparency & accountability): 과학 연구의 신뢰성을 높이고 사회적 영향력 강화
17세기: 근대 과학의 시작
19-20세기: 학술 출판 체제 확립
학술지가 표준화되고, 연구자들이 업적을 남기는 주요 수단이 됨
상업 출판사의 부상으로 구독료 장벽이 생겨 연구 접근성이 제한됨
1990년대: 오픈액세스 운동
2010년대: 오픈사이언스 개념 확립
2020년대: 국제적 제도화
UNESCO 오픈사이언스 권고안(2021년)
각국 정부와 연구재단이 연구 데이터 관리 계획, 연구성과 공개 의무화를 강화
| 범주 | 정의 | 목적 및 효과 |
|---|---|---|
| 오픈데이터 | 연구에서 수집된 데이터 공개 | 재현성 확보, 연구 검증, 데이터 재활용 |
| 오픈소스 | 연구 코드, 소프트웨어, 알고리즘의 공개 | 투명성 강화, 공동 발전, 수정 및 확산 가능 |
| 오픈방법론 | 연구 절차, 설계, 분석 방법의 공유 | 연구 과정 신뢰성 제고, 재현 연구 용이 |
| 오픈동료평가 | 논문 심사 과정 공개(심사 의견, 심사자 신원 등) | 평가의 공정성 및 투명성 강화, 책임성 제고 |
| 오픈액세스 | 연구 결과물(논문 등)을 무료로 공개 | 누구가 자유롭게 접근 및 활용, 지식 확산 |
| 오픈교육자원 | 교재, 강의자료, 콘텐츠 공유 | 교육 기회 확대, 학습 자원 개방 및 재사용 |
가용성(availability): 데이터가 실제로 공개되어 있어야 함. 전체 데이터셋이, 적절한 포맷으로, 가능한한 온라인으로 접근 가능해야 함
재사용(reuse): 다름 사람들이 데이터를 가져다가 자유롭게 사용, 수정, 분석, 응용할 수 있어야 함
상호운영성(interoperability): 여러 데이터 소스 또는 시스템 간에 데이터가 상호 연동될 수 있는 형식이어야 함
보편적 참여/포용성(universal participation): 차별 없이 데이터에 접근할 수 있어야 함
정의
누구나 접근 가능한 API(application programming interface, 응용프로그래밍 인터페이스)
데이터나 기능을 외부 개발자 및 사용자가 자유롭게 활용할 수 있도록 공개된 API
특징
표준 프로토콜(REST, JSON, XML 등)
인증키(API 키) 발급을 통해 관리 가능
문서화가 잘 되어 있어야 활용 가능
활용
정부/공공: 공공데이터포털의 API, KOSIS API, 기상청 날씨 API 등
학문/연구: World Bank API 등
민간/서비스: 구글맵스 API, 네이버 API, 오픈스트리트맵 API 등
https://cloud.google.com/apigee/docs/api-platform/tutorials/create-api-proxy-openapi-spec?hl=ko
“오픈소스 = 협업과 혁신의 엔진”
정의
의의
연구 재현성 확보
연구 비용 절감 및 효율적 개발
전 세계 연구자 및 개발자 간 협업 촉진
폐쇄형 소프트웨어에 대한 의존도 감소
연혁
오픈소스 소프트웨어의 정의와 라이선스를 관리 및 보급하는 국제 비영리 단체
1998년 설립, 본부는 미국
목적
오픈소스의 정의(Open Source Definition, OSD) 수립 및 관리
오픈소스 라이선스 승인 및 검정(OSI Approved License)
오픈소스 철학과 실천을 전 세계로 확산
OSD의 10대 조건
라이선스 승인: 7대 권장 라이선스
Apache License 2.0: 기업 친화적, 특허 권리 명시, 상용 소프트웨어와 호환성 높음
BSD 2-Clause “Simplified” License: 짧고 단순, 제한이 거의 없음
BSD 3-Clause “New” or “Revised” License: 2-Clause 버전에 “홍보 금지” 조건 추가
GNU General Public License (GPL) v2.0: 강력한 copyleft 성격(2차 저작물도 동일 라이선스 필요)
GNU General Public License (GPL) v3.0: 특허, Tivoization(기기 제한) 문제 대응을 추가
MIT License: 가장 간단하고 보편적, 누구나 자유롭게 사용, 수정, 배포 가능
Mozilla Public License 2.0: 소스 공개 요구 범위가 파일 단위로 한정, 기업 및 개발자 모두에 적합


“연구 과정을 공유하여 재현가능한 과학 구현”
정의
연구에서 사용된 설계, 절차, 분석기법(코드 포함), 알고리즘, 프로토콜 등을 공개
다른 연구자가 동일한 과정을 따라 할 수 있도록 투명한 문서화 제공
의의
재현성과 신뢰성 고양
블랙박스 연구를 줄이고 검증 가능한 과학으로 발전
방법 공유를 통한 연구 커뮤니티 간 협업 촉진
활용
실험 프로토콜 공유 플랫폼(예: Protocols.io)
데이터 분석 워크플로(workflow) 공개(예: Github, Jupyter Notebook, Quarto 등)
임상시험, 사회조사에서의 연구 설계 매뉴얼 공개
“오픈교육자원 = 모두에게 열려 있는 지식의 공유와 확산”
정의
교육, 학습, 연구에 활용되는 자료를 개방형 라이선스로 제공
누구나 자유롭게 접근, 사용, 수정, 재배포할 수 있는 교재, 강의자료, 멀티미디어 콘텐츠 등
의의
교육 기회의 평등성 확대
교재 비용 절감 → 학습 장벽 낮춤
교육 콘텐츠의 지속적 개선과 공동 제작 촉진
평생학습과 글로벌 학습 공동체 강화
“오픈액세스는 연구 성과를 개방해 지식의 확산과 민주화를 실현한다.”
정의
의의
지식의 민주화: 모든 연구자가 동등하게 접근 가능
연구 확산 촉진: 인용 증가, 협업 기회 확대
공공 투자 회수: 세금으로 수행된 연구 결과를 대중과 공유
교육 및 혁신 강화: 학습자, 스타트업, 정책 입안자 등 다양한 주체가 활용 가능
Creative Commons
창의적 공유 라이선스 혹은 저작물 자유 이용 라이선스
“지식 공유의 표준”
의미
저작물이 어떻게 공유 및 재사용될 수 있는지 명확히 규정하는 표준 라이선스 체계
이것을 운영하고 있는 비영리 단체(본부: 미국 샌프란시스코, 2001년 설립)
사용
오픈액세스, 오픈데이터, 오픈교육자료 등에서 가장 널리 활용
연구, 교육, 출판, 예술 분야에서 글로벌 표준
CC0 (퍼블릭 도메인 기증)
CC BY (저작자 표시)
CC BY-SA (저작자 표시 + 동일조건 변경허락)
CC BY-NC (저작자 표시 + 비상업적 이용)
CC BY-NC-SA (저작자 표시 + 비상업적 이용 + 동일조건 변경허락)
CC BY-ND (저작자 표시 + 변경금지)
CC BY-NC-ND (저작자 표시 + 비상업적 이용 + 변경금지)
https://openeconomics.zbw.eu/en/knowledgebase/interests-of-others-in-your-own-research-data/

“LK-99는 ‘초전도체’ 아냐”…사이언스 “짧고 화려했던 삶 끝나”
국내 연구진이 지난달 22일 개발했다고 주장한 상온상압 초전도체 ’LK-99’에 대해 ’초전도체가 아니다’라는 검증 연구결과가 최근 2~3일 사이 집중적으로 쏟아졌다. 국제 학술지 ’네이처’가 앞서 LK-99에 대한 과학계의 ’회의론’을 제기한 데 이어 이번엔 국제 학술지 ’사이언스’가 LK-99에 대해 ’짧고 화려했던 삶(The short, spectacular life)’이라는 표현을 쓰며 “온라인에서의 명성이 곤두박질치기 시작했다”라고 8일(현지시간) 보도했다.
(동아사이언스, 2023년 8월 9일)
정의
동일한 데이터와 방법(분석 코드, 알고리즘, 환경 등)을 사용했을 때 동일한 결과를 다시 얻을 수 있는 연구
연구자가 데이터와 분석 절차를 투명하게 공개하여, 다른 연구자가 그대로 따라 했을 때 같은 결과가 산출되는 것이 핵심
배경과 필요성
현대 과학 연구에서 복잡한 데이터 처리와 프로그래밍을 많이 활용하면서, 단순히 논문에 기술된 설명만으로는 결과를 다시 얻기 어려워 짐
연구 데이터, 코드, 워크플로를 공개하여 연구의 투명성(transparency)과 신뢰성(reliability)을 높이려는 움직임이 생겨남
오픈사이언스 운동과 밀접히 관련
특징
https://www.technologynetworks.com/informatics/articles/repeatability-vs-reproducibility-317157
https://ttw-rtd.readthedocs.io/en/latest/reproducible-research/reproducible-research.html
재현성(reproducibility)
복제성(replicability)
강건성(robustness)
일반화(generalization)





https://practicalgeoskills.blogspot.com/2020/04/map-projections-meaning-and-examples.html

PROJ.4 문자열: +proj=robin +lon_0=150 +x_0=0 +y_0=0 +datum=WGS84 +units=m +no_defs
























https://www.usgs.gov/media/images/spectral-bandpasses-all-landsat-sensors
https://gsp.humboldt.edu/olm/Courses/GSP_216/lessons/composites.html


“29일(현지시각) BBC와 Nesweek 등 외신은 미국 툴레인대 고고학 연구팀이 멕시코 남동부 캄페체주에서 마야인들이 세운 피라미드와 원형극장, 도로, 운동장 등 6,764개의 건축물을 발견했다고 보도했다. 이러한 연구 결과는 영국 케임브리지대 고고학 학술지 ‘앤티쿼티’ 최신호에 실렸다.” (2024년 10월 29일)
https://www.zdnet.com/article/am-vs-fm-the-battle-brewing-in-lidar-technology/
https://store.clearpathrobotics.com/blogs/blog/how-to-choose-a-lidar








https://sangillee.snu.ac.kr/