https://blog.naver.com/n69/222967663669
오늘 모 대학에 갔다. 후배 한 명이 내가 작업하고 있는 『주례주소周禮注疏』 에 대한 색인, 그리고 개념을 연계시키는 데이터 작업(텍스트 내에서 하나의 개념에 대한 네트워크를 그려주고, 어떤 지점을 클릭하면 그에 해당하는 부분에 대한 정보를 안내해 주는 시스템이다)을 해주면 어떻겠냐는 이야기를 했기 때문이다. 아래에서 이야기할 데이터 전문가와는 결이 좀 다르다. 출판업계에서 일했던 그에게는 어떻게 하면 책으로 볼 수 있는 내용을 부록처럼 체계화해서 편의를 제공할 것인가가 문제다. 그가 뒤늦게 공부하며 있는, K선생의 연구실을 찾아갔다. 셋이 이런저런 이야기를 하다, 함께 식사하면서 또 온갖 이야기가 오고 갔지만, 디지털 인문학에 대한 내 생각만 간단히 정리하기로 한다. 데이터를 어떻게 가공하는지에 대한 차이.
(1) 데이터를 가지고 그것을 가공하는 것을 원천기술처럼 자랑하며 트렌드를 타고 있는 사람들에 대해 나는 꽤 회의적이다. 정치학과에서 그런 작업을 하는 젊은 친구들을 이해할 수 없었기 때문이다. 통계를 돌릴 기술이 필요하고 중요한 의미가 되는 선거, 세대 정치문화 등에 대한 분석이라면 당연히 데이터와 통계가 중요한 것이지만 그렇지 않은 영역들에 적용시키는 방식이 그렇다. 예를 들면, “XX시기의 한일 SNS를 통해 본 한일 양국 관계” 같은 논문을 쓴다는 친구다. 이해할 수 없었던 점은 이랬다 : 그들은 몇 가지 개념을 선별해 그 사용빈도를 가지고 시기별 특징을 빅데이터처럼 구성하려고 한다. 뭐 그건 좋다. 그런데 문제는 데이터를 추출하고 연관시키는 프로그래밍을 하는데 능숙할 그런 친구가 정작 한일 관계에 관해서 잘 모른다는 것이다. 자기 초점을 맞추려는 목적의식도 분명치 않고, 한일 관계를 깊이 있게 이해할(이해의 단계를 넘어 전반적인 구도를 조망할) 자기두뇌 안에 담긴 의식·지식의 조직화가 결여되어 있다. 그런 친구가 작업하는 것은, 예상해 보자면, 어떤 식이든 주관적 관점을 하나 깔아두고(뭐, 누구든 그렇다), 조금 어설프게 아는 지식들(학과 공부, 신문과 방송, SNS 유행)을 가지고 이런저런 개념어 대입해서 분석하는 일이 된다.
내 회의는 무작위적이고 맹목적으로 데이터를 돌리거나, 정확히 선별되었는지도 의심스러운 ‘어휘’·’개념’·’유행어’를 가지고 각 개념들의 통계나 양적인 연관관계가 분석되었다 한들, 그가 놓친 것이 얼마나 많을 것이며, 유의미한 분석을 그 정도 역량에서 과연 추출할 수 있는가에 있다. 세상 바뀌는 트렌드 속에서 그게 중요하다고 여기저기서 소란스럽게 떠드니 핫하긴 한데, 그래서 인문학과 사회과학에서 ‘데이터’관련 밥그릇의 영역이 생겼으니, 그 중대성에 대해 그 영역 전공자들이 강조할 수밖에 없는 점도 이해하고(명확한 목적의식이 제도를 만든다기보다는 우연히 생긴 제도가 줄 수 있는 밥그릇이 관계자에게 이런저런 의미를 부여하게 만드는 경우가 많은 법이다), 그것의 활용 가능성 자체를 부정하는 것도 아닌데, 그들끼리 맨날 기술이나 발전시켜서 뭐가 나올지는 모르겠다. 올드한 방식으로 작업하는 나 같은 입장에서는 직관으로 해결할 수 있을 법한 일을 뭐 그렇게까지 하는지 참 새로운 것이고. 논문 참 쉽게 쓴다 싶다.
네트에 접속된 불특정 다수들이 날씨·계절·정치적인 상황 등등에 따라 어떤 행위 양식을 취하는가를 빅데이터로 분석하는 일은 적어도 들쑥날쑥 무정형해 보이는 주식시장 같은 세계에서 일정한 경향성이나 패턴을 읽어간다는 점에서 유용할 수도 있을 듯한데, 그런 식의 게임이 아니라 전문적인 개념이나 특정한 텍스트들을 가지고 그런 일을 한다면?
(2) 오래된 방식으로 공부하는 사람들: 어쨌든 대체로 자기의 연구의 초점은 분명하다고 할 수 있고, 그 분야에서 일정한 능력을 쌓으면서 주요한 문헌을 선별하며 작업하는 이들이다. 그들이 데이터와 무관한 것도 아니다. (1)이 자기가 주요하다고 생각하는 개념을 선별하거나 최대한의 데이터를 집어넣고 어떻게 연관관계를 체계화하고 그 방식을 효율적으로 만들지에 관해 고민하는만큼, (2)도 데이터를 다루며 고민한다.
현대 학자들이 데이터가 부족해서 문제가 될 것은 없다. 당장 어떤 논문을 쓰고 중심 주제와 키워드가 있다면, 그것을 전문적인 사이트를 비롯한 온갖 곳에서 검색해서 선별해내는 작업을 한다. 기타 자기가 가지고 있는 pdf나 문서화된 데이터를 어떤 프로그램에 때려 넣고 모조리 검색해서 연관관계를 구성하기도 한다. 당연히 무정형적인 엄청난 용례가 나오지만, 어떤 주제에 몰입한 사람은 자기의 뚜렷한 목적에 따라 필요한 것을 추출하고 체계화해 가면서 작업할 수 있다. 물론 그런 작업에서의 데이터의 선별과 구성 역시, 전적으로 연구자의 안목과 레벨에 의해 제약되는 것이고, 주관성/자의성/편의성으로부터 자유롭지 못하다.
(3) 최고 레벨: (1)과 (2)를 종합한다. 제대로 알지도 못하면서 컴퓨터 프로그램을 짜고 이런저런 개념을 마구마구 긁어대는 방식을 목적의식적으로 통제할 줄 안다. 한편으로는 당장의 질적 작업에 몰입해 필요에 따라 데이터를 편의적으로 선별하는 방식을 수정할 수도 있다. 자기가 연구하는 주제와 관련된 여러 가지 개념들을 기계장치를 빌어 여러 각도로 관계지우며 데이터로 실험해 보고, 자기 목적에 따라 뚜렷하게 설계하여 자기 눈에서 볼 수 없었던 예외들로 문제를 확장하는 방식.
서로 얘기하다 내린 시시한 결론은 이랬다 : (3)과 같은 이는 정말 있을지 의문이고, (1)과 (2)가 서로 만나서 싸워야 한다는 것.
2023.01.02. 스크랩