데이터 저널리즘과 인포그래픽

데이터를 맛있게 요리하기

[caption id="attachment_12182" align="aligncenter" width="578"]CC BY-SA O'REILLY CC BY-SA O'REILLY[/caption]

1. 데이터 저널리즘

 데이터 저널리즘은 각종 통계자료와 같은 데이터를 활용한 저널리즘 취재/보도 형태를 지칭하는 말로 CAR가 대표적인 방법론이다. 최근 빅데이터 트렌드 속에서 데이터 분석 및 가공의 과정을 통해 새로운 사회적 의미를 도출되고 있다는 점에서 착안. 저널리즘에 이를 적용한 저널리즘적 데이터 분석으로 그 의미가 좁혀지고 있다.

 과거의 '데이터' 에 대한 이해는 가득한 ‘데이터 시트’에 한정되었다. 하지만 디지털을 통해 모든 정보를 0과 1로 표현 가능해진 오늘날에는 문서, 사진, 음성, 영상 등의 모든 유형의 정보와 자료들을 포함한다. 따라서 재난, 선거,  비리와 같은 사회의 다양한 이야기를 ‘데이터’로 축적할 수 있게 되었다.

Data_driven_journalism_process

데이터에 대한 새로운 인식은 저널리즘에게 새로운 가능성을 열어준다. 과거 저널리스트의 생물학적 지각과 직관에 의지했던 전통적인 ‘nose for news’에 의한 프로세스를 넘어, IT 전문가들이 데이터를 생산, 가공, 분석하던 자동화된 체계적인 프로세스를 이용한 뉴스 생산이 가능해졌다. 이러한 뉴스 생산 프로세스를 데이터 저널리즘이라고 부르며, 얽히고 섥힌 무수히 많은 데이터 속에 감춰진 복잡한 이야기들을 추출하고 인포그래픽과 같은 효과적인 방법으로 표현할 수 있게 된다. 한스 로슬링의 Gapminder가 선보이는 통계 데이터 시각화 작업들이 이와 유사한 사례다.

2. 데이터 저널리즘의 효과

본격적인 데이터 저널리즘의 시작으로 많은 이들이 wikileaks의 미국 외교 전문 및 아프간 무전 기록 폭로사건을 꼽는다. 저널리즘은 이제까지 접하지 못한 막대한 분량의 데이터를 두고, 당시 새롭게 떠오르던 빅데이터 시각화 기법을 적용하였다. 이를 통해 미군 무전 기록 속에서 빈출 단어를 필터링하고, 사제 폭발물 피해 데이터의 GIS와 시계열 분석을 통해 폭발사건의 유형과 흐름을 분석하였다. 그리고 그 분석 결과를 시각화하여 대중들에게 제공함으로 효과적인 보도기법을 시도하였다.

이후, 데이터 저널리즘적 접근을 강화한 탐사보도 전문 언론 Propublica는 공립학교의 AP수업 이수율과 각 지역의 소득을 연계하여 분석한 The Opportunity Gaps과 같이 데이터 속에 가리워졌던 사회적 의미와 새로운 이야기를 보도하는 역량을 선보임으로 데이터 저널리즘을 발전시키고 있다.

[caption id="attachment_12183" align="aligncenter" width="499"] CC BY-NC-ND PROPUBLICA[/caption]

3. 데이터 저널리즘과 인포그래픽

새로운 저널리즘 프로세스인 데이터 저널리즘은 아직 개념이 정립되고 있기에 정의와 방법론이 명확하지 않으며, 많은 이들이 인포그래픽(스)와 혼동하는 경우가 많다. 인포그래픽(스)는 데이터 시각화 혹은 시각화된 스토리텔링 기법으로 데이터 저널리즘 ‘결과물’의 한 유형이다. 주로 문자 컨텐츠 중심의 미디어였던 신문사와 인터넷 언론들을 중심으로 이용된다.

데이터 저널리즘을 통해 창출된 이야깃거리를 표현하는 방법으로는 문자 위주의 기사문, 영상, 인포그래픽, 그리고 웹/앱 서비스(사이트, 어플리케이션) 등의 다양한 방법이 가능하다. 이중 인포그래픽이 선호되는 경향이 있어 혼동을 일으키는 것으로 보인다. 인포그래픽을 통한 뉴스 스토리텔링의 장점은 흥미 유발을 통한 콘텐츠 주목도 상승, 이미지에 고정된 네러티브를 통한 저널리스트의 의도 관철이 대표적이다. 이 두 가지는 위기에 빠진 저널리즘이 처한 뉴스 콘텐츠를 외면하고, 주체적(자의적)으로 뉴스 콘텐츠를 수용/소비/접근하는 수용자 환경을 이겨낼 수 있는 기회를 제공한다는 점에서 매우 유용하다.

4. 참고 사례

  • 매일경제- 티머니 데이터 분석 사례 (2005.11)데이터 저널리즘에 대한 개념이 제시되기 이전에 국내에서 시도된 빅데이터 분석 사례로, 매일경제가 외부 연구진의 도움으로 100억 건의 티머니 데이터를 분석하였다. 분석을 통해 다양한 이야기를 창출되었고, ‘평균’적인 서울 시민의 하루의 제시, GIS분석을 통한 지역별 유동인구 시각화, 유동인구 통계를 범죄 데이터에 연계한 최초의 분석 사례들을 내놓았다.

전체 시리즈 검색
http://goo.gl/1A4G46

보통 서울 사람의 하루
http://news.mk.co.kr/newsRead.php?year=2005&no=430787
http://news.mk.co.kr/newsRead.php?year=2005&no=430801

유동인구기반 범죄 데이터 분석
http://news.mk.co.kr/newsRead.php?year=2005&no=437801

지리학적 분석물
http://news.mk.co.kr/newsRead.php?year=2005&no=438082
http://news.mk.co.kr/newsRead.php?year=2005&no=432428

  • 연합뉴스
    인터렉티브 뉴스 전담팀을 구성. 연합뉴스 데이터 사이트. 누구든 데이터를 올리면 인터렉티브 뉴스 포맷으로 콘텐츠 제작이 가능한 도구를 제공한다. 단, 사용자가 올린 데이터를 공개하지 않는다.
    http://data.yonhapnews.co.kr
    h
    ttp://www.yonhapnews.co.kr/medialabs/

  • 뉴스타파
    비영리 탐사보도 전문 언론으로 2013년부터 데이터저널리즘 부서를 설치하고 핵심역량으로 키우고 있다. 2012 대선 당시 논란이 되었던 국정원 SNS팀의 실체를 트윗데이터 분석을 통해 밝혀내었으며, 조세피난처에 조성된 국내 자금들을 폭로하는 과정에서 크라우드 소싱 저널리즘읕 도입하는 등의 새로운 시도를 계속하고 있다. 국내 데이터 저널리즘의 1인자인 권혜진 박사가 데이터 저널리즘 에디터를 맡고 있다. 미국 ProPublica이 모델. 주요 인물들이 YTN, MBC와 같은 방송 저널리스트라서 영상 중심의 보도. 인포그래픽 뉴스 형태는 미미하다.

조세피난처의 한국인 – 크라우드 소싱
http://newstapa.com/590
국정원 SNS 데이터
http://newstapa.com/597

  • The Guardian
    영국 주요 일간지 가디언은 유럽지역에서 데이터 저널리즘을 선도하고 있다. 사이먼 로저스가 이끌어온 가디언의 데이터 저널리즘은 데이터 심층 분석을 기반으로 고품질 뉴스 콘텐츠를 지향한다. 가디언은 활용된 데이터를 공개하는 정책을 유지하고 있으며, data set는 guardian data와 data blog에 축적되고 있다.

Gay Rights by State
http://www.guardian.co.uk/world/interactive/2012/may/08/gay-rights-united-states

The Guardian Data / Data Blog
http://www.guardian.co.uk/data http://www.guardian.co.uk/news/datablog

  • Propublica
    데이터 저널리즘에 특화된 비영리 저널리즘. 심층 보도를 강화함으로 메이저 뉴스 콘텐츠를 1년에 3~4개 꼴로 생산한다. 가디언과 같이 data set를 공개하는 정책을 고수한다. 방대한 양의 분석 결과를 인터렉티브 요소를 극대화한 인포그래픽으로 기사화 한다. http://www.propublica.org/investigations/
    http://www.propublica.org/tools/

The Opportunity Gap
http://projects.propublica.org/schools/

  • Data Journalism Award
    Global Editor Network가 주관하고 Google이 후원하는 데이터 저널리즘 시상식. Data-Driven Storytelling Big Media, Data-Driven Storytelling Small Media, Data-Driven Investigations Small Media, Data-Journalism Section or Website, Data-Driven Applications Big Media, Data-Driven Apps Small Media의 총 8개 부문의 우수 사례를 매해 선정한다. http://www.globaleditorsnetwork.org/dja/

  • Knight News Challenge
    저널리즘 부문의 대표적인 후원기관인 knight 재단이 주최하는 뉴스 콘테스트다. 최근에는 공공데이터를 활용한 저널리즘 콘텐츠와 서비스 등을 주제로 진행되었다.
    https://www.newschallenge.org/

Open Gov. Winners
https://www.newschallenge.org/open/open-government/winners/

  • BBC
    대표적인 공영 방송사인 BBC는 Data journalism 파트를 Visual Journalism 분야로 접근하고 있다. 데이터 분석의 시각화 방안으로 인터렉티브 요소를 가미한 영상 및 그래픽을 주로 활용한다.

Fuel price calculator: How much do you pay?
http://www.bbc.co.uk/news/business-21238363

The Great British class calculator: What class are you?
http://www.bbc.co.uk/news/magazine-22000973

  • The New York Times
    뉴욕타임즈는 심층적인 데이터 분석보다는 인포그래픽에 중심을 두고 있다. 2012 미국 대선에서 데이터 저널리즘과 인포그래픽 기반의 선거보도 서비스를 선보였다. Propublica와 함께 미국 지역 데이터 저널리즘을 선도한다.

지역별 인종 분포 지도 – 센서스 자료를 구글 맵 서비스와 결합
http://projects.nytimes.com/census/2010/explorer

The Hunt for the Boston Bombing Suspects
http://goo.gl/s0WUF1

Election 2012
http://elections.nytimes.com/2012/

  • OKFn
    영국에 근거를 두며, open data 운동을 펼치고 있는 Open Knowledge Foundation은 공공데이터 개방의 필요성과 활용을 촉진하기 위한 프로젝트를 꾸준히 진행하고 있다. EJC와 함께 Data Driven Journalism 프로젝트를 이끌고 있다.

Where does my money go?
http://www.wheredoesmymoneygo.org/

Europe's energy
http://energy.publicdata.eu/

  • IBM
    IBM이 IT전문컨설팅으로 주역 사업을 옮기면서 빅데이터 분석에 역량을 집중했다. IBM 내부에서 진행된 여러 프로젝트 중에 시각 커뮤니케이션 연구소의 many-eyes.com은 공공데이터 시각화 플랫폼으로 누구든 데이터를 올리고 데이터 시각화가 가능하다.

www.Many-Eyes.com  - 정식 서비스

http://www-958.ibm.com/software/analytics/labs/manyeyes/ - 2013 베타 서비스

5. 주로 쓰이는 도구와 인포그래픽 유형

  • Google Fusion Tables

  • Timeline JS

  • 트리맵

  • 버블차트

  • 워들스

  • 태그 클라우드

  • 워드 트리

6. 용어 정리

  • Data-Driven Journalism: European Journalism Centre와 OKFn이 공동 연구를 통해 주창한 개념. 데이터를 적극적으로 활용하는 뉴스 생산 프로세스를 지칭한다. 최근, 상위 개념인 Data Journalism이 Data Driven Journalism으로 의미가 좁혀지는 경향이 보인다. 참고: www.datadrivenjournalism.net

  • C.A.R. : Computer Assisted Reporting. 언론사에 전산/컴퓨터 시스템이 적용됨에 따라 취재과정에 컴퓨터를 활용하는 것을 의미. 도입초기에는 이메일을 이용한 인터뷰까지 포괄하는 말이었으나, 엑셀과 같은 스프레드시트 프로그램을 이용한 데이터 분석, 기초적인 GIS(Geographic Information System) 활용과 간단한 사회관계망 분석을 주로 의미한다.

  • 빅데이터 : 기존의 데이터 분석/관리 도구의 역량을 뛰어넘는 막대한 양의 데이터를 말한다. 3V, 4V 등의 빅데이터를 정의하려는 시도가 있었으나 이러한 표현은 정의보다는 빅데이터의 속성을 표현하는 것에 적절한 것으로 생각된다. 아직 명시적인 정의나 속성은 없는 상황이다.

  • 데이터 시각화 : 빅데이터 환경에서 데이터 분석 결과를 보다 효과적으로 표현하기 위해 시도되는 방법론. 동적인 시각 요소를 활용하는 경우가 많으며, 수용자의 조작에 반응하는 형태의 인터렉티브 요소를 가미하는 경우도 있다.

  • 데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다. 통계학의 기법부터 패턴 인식에 이르는 다양한 계량 기법을 사용한다.

  • 데이터 큐레이션 : 단순한 빅데이터 분석이 아닌, 패턴 분석/긍정-부정 판단/실시간 감시 등의 자동화된 분석 기술을 활용하여 미래 예측/맞춤형 서비스/실시간 대응 등의 새로운 가치를 창출하는 빅데이터 기술과 방법론.

이 글은 코드나무(codenamu.org)의 공공데이터 읽어주는 사람들 프로젝트 - '공공데이터 읽어주는 남과 여'의 초기 기획과정에 작성한 문서입니다. 프로젝트의 두 작업자(임영제, 이예연)가 데이터 저널리즘과 인포그래픽에 대해 같은 이해와 공감대를 형성하기 위해 쓰여졌으며, 데이터 저널리즘의 성격과 최근 사례, 뉴스 포맷으로의 인포그래픽의 속성과 장점을 주로 다루고 있습니다.

작성된 시점은 2013년 7월 말입니다. 원문 문서의 링크는 http://goo.gl/oS4UUF 이고, 누구나 코멘트를 달 수 있습니다. 앞으로 내용 수정이나 소개할만 한 사례와 도구를 지속적으로 업데이트하겠습니다.

CC BY 임영제
이 글은 크리에이티브 커먼즈 저작자표시 2.0 대한민국 라이선스에 따라 이용할 수 있습니다.