public bigdata

[기사정리] 시사인-빅데이터가 잡아낸 시민 움직임 본문

개인/독서

[기사정리] 시사인-빅데이터가 잡아낸 시민 움직임

public bigdata 2018. 5. 4. 01:38

시사인IN 제 547호- 빅데이터가 잡아낸 천만 서울 시민 움직임

 


1. 기사를 선택한 이유 : 데이터 그 자체를 보면 다양한 차원의 정보가 2차원 테이블에 함축되어 있기 때문에 데이터 자체로는 정보를 알기 어렵다 다양한 분석을 통해서도 숨겨진 정보를 찾아낼 수 있지만 인포그래픽을 통해 정보를 알아낼 수 있다.


2. 데이터 : 데이터는 서울시 다산콜센터가 접수한 민원 데이터이며 완료 처리된 민원이다(1511~ 171231) 26개 대분류, 소분류 183 한달에 약 10만건 3369만개 data


3. 기사주제 : 지방선거에 출마하는 후보의 경우 유권자들이 무엇을 불편해 하는지 알고 싶을 것이다. 그러나 구마다 민원이 골목마다 다르므로 발로 뛰어서는 알 수가 없다.


 1) 가설설정 (가설설정에는 배경지식 또는 이해, 직관이 필요합니다)

   > 생애주기형 복지4대의제 보육, 교육, 주거, 노인문제, 모든 세대의 일자리, 생활밀착 미세먼지 등이 높은 민원 비중을 보일 것이라 생각

 2) 결과

   > 예상과 달리 정비, 교통, 청소민원, 소분류 불법주정차 등이 많았으며 불법주정차에 38.8%가 몰린다 전체 민원의 143만건을 차지한다.

   > 불법주정차 민원을 살펴보면 1마포서교동(홍대앞) : 홍대앞은 번화가이며 골목길이 다수있다

   >2위 용산구 한남동 주택단지 일대

   >3신림동 : 신림동의 경우 지도에서 엄청 짙은 색으로 칠해져 있는데 언뜻보면 이지역이 가장 민원이 많이 발생하는 경우라고 생각할 수 있으나, 주제가 정치인이 선거를 대비해 민원이 얼마나 많이 발생하는지가 중요하기 때문에 3위 신림동에서 가장 많은 민원이 있다고 착각할 수 있다(민원의 발생 밀도가 높은것이지 민원이 제일 많이 발생하는 것이 아니므로 주의해야 한다)

   >3위는 접수시간대도 튄다, 오후 8시 오후 11시 등에 가장 민원접수가 많다


 3)정리

   > 여기서 후보자는 완벽한 정보를 가졌을까?

   > 주요 4대의제가 민원접수가 많을 것으로 생각했으나 생각보다 낮았다 [그 이유는 시사인 제목에 링크를 통해 확인하시길 바란다]

   > 민원은 직관적인 데이터를 말해준다, 복잡하거나 더 중요하거나 오래 걸리는 문제는 이런 단순 민원접수로 오지 않는 것으로 판단된다. [자세한 정보는 기사를 통해 확인]

   > 네트워크 그래프를 통해서 주요 키워드도 잡아낼 수 있다 [기사확인]


 4) 결론(저의 생각)

   >데이터 시각화를 통해서 2차원 테이블안에 숨겨진 정보에 대한 원인과 상황을 파악해낼 수 있다

   > 하지만 데이터에 백그라운드 없이는 착각의 늪에 빠진다[위의 신림동 문제]

   > 예상과 다른 결과로부터 새로운 통찰을 얻을 수 있다 [데이터 분석 또는 인포그래픽 시각화시 할 때 예상과 다른 결과가 나올 수 있지만 예상한 결과와 다르다고 해서 틀린 것이 아닌 새로운 문제점과 원인을 찾을 수 있는 새로운 통찰을 얻을 수 있다]

   > 정치인이 정말 필요한 여론을 이 자료로부터 얻을 수 있는지는 기사를 통해 확인 바란다

- 출처 시사인 최예린 기자

http://www.sisain.co.kr/?mod=news&act=articleView&idxno=31596