이 글은 디지털 인문학 시대에 역사학이 직면한 새로운 도전에 대한 깊이 있는 탐구를 제공합니다. 저자는 디지털 기술이 역사 연구에 가져온 혁신적인 변화와 편리함을 인정하면서도, 그 이면에 존재하는 한계와 문제점을 날카롭게 지적하며 균형 잡힌 시각을 유지합니다. 특히 중국 고대사 연구를 중심으로 데이터베이스 검색, 의제 설정, 통계 분석이라는 세 가지 측면에서 구체적인 사례와 함께 심층적인 논의를 전개합니다.
- 데이터베이스 검색의 명암:
저자는 역사 문헌 데이터베이스를 활용한 데이터 검색이 보편화되면서 연구자들이 이전보다 훨씬 방대하고 다양한 자료에 접근할 수 있게 되었다고 평가합니다. 이는 특히 명말 청초와 같이 문헌 자료가 풍부한 시기를 연구하는 데 있어 큰 도움이 됩니다. 그러나 동시에 다음과 같은 문제점을 제기합니다.
검색어 설정의 어려움: 역사적 사건이나 인물에 대한 다양한 명칭과 표현 방식으로 인해, 어떤 단어를 검색어로 사용해야 할지 결정하는 것이 쉽지 않습니다.
방대한 검색 결과의 비효율성: 수많은 검색 결과 중 대다수가 연구 주제와 무관한 경우가 많아, 유의미한 정보를 선별하는 데 많은 시간과 노력이 소요됩니다.
문자적 한계: 중국 전통 역사 문헌은 문학적 표현과 은유가 많아, 문자 그대로의 의미와 실제 역사적 사실 간의 차이가 존재합니다. 이러한 특성으로 인해 컴퓨터는 문헌의 맥락과 숨겨진 의미를 파악하는 데 한계를 보이며, 이는 특히 문헌의 표면적 의미가 역사적 사실을 직접적으로 반영하지 않을 때 더욱 두드러집니다.
저자는 이러한 한계를 극복하기 위해 데이터베이스 검색에만 의존하기보다는, 주요 역사 문헌을 꼼꼼히 읽고 분석하는 전통적인 연구 방법의 중요성을 강조합니다. 또한, 기술 전문가와의 협력을 통해 검색 알고리즘을 개선하고, 역사적 맥락을 고려한 정보 추출 기술을 개발해야 한다고 주장합니다.
- 의제 설정: 주관성과 객관성의 조화:
저자는 데이터베이스를 활용하여 기존 연구에서 발견하지 못한 새로운 역사적 사실을 발견하고, 복잡한 역사 현상 속에 숨겨진 패턴을 파악할 수 있다는 가능성을 제시합니다. 그러나 이러한 가능성이 현실화되기 위해서는 다음과 같은 전제 조건이 충족되어야 한다고 지적합니다.
풍부한 사료: 방대한 양의 역사적 기록, 특히 풍부한 문서 자료가 존재해야 정보량이 충분한 데이터베이스를 구축할 수 있습니다. 그러나 중국 고대사는 근현대사에 비해 자료가 부족하고 단편적인 경우가 많아 이러한 조건이 충족되기 어렵습니다.
문자적 의미와 역사적 사실의 일치: 컴퓨터는 현재 기술 수준에서 문자 그대로의 의미를 해석하는 데 능숙하지만, 문헌의 숨겨진 의미를 파악하는 데는 한계가 있습니다. 따라서 역사적 사실이 문헌에 명시적으로 드러나야만 컴퓨터가 효과적으로 정보를 분석할 수 있습니다.
저자는 역사 연구에서 주관성과 객관성의 조화로운 균형을 강조하며, 데이터베이스 분석을 통해 새로운 의제를 설정하는 데 있어 연구자의 주관적 판단과 해석이 중요한 역할을 한다고 주장합니다. 즉, 연구자는 단순히 데이터베이스 분석 결과에 의존하기보다는, 자신의 역사적 지식과 통찰력을 바탕으로 유의미한 연구 질문을 설정하고, 데이터를 비판적으로 검토해야 합니다. 특히, “독서를 통해 깨달음을 얻는다(读书得间)”는 왕국유(王國維)의 말을 인용하며, 역사 문헌을 꼼꼼히 읽고 분석하는 과정에서 기존 연구에서 간과된 중요한 질문을 발견할 수 있다고 강조합니다.
- 통계 분석: 정밀성과 한계:
저자는 CBDB(중국 역대 인물 전기 프로젝트)와 같은 관계형 데이터베이스가 다양한 역사적 요소들을 유기적으로 연결하여 통계 분석을 수행함으로써, 개별 연구자가 도달하기 어려운 결론을 도출할 수 있다고 평가합니다. 그러나 동시에 이러한 데이터베이스가 역사적 사실을 정확하게 반영하는 데 있어 여전히 한계가 존재한다고 지적합니다.
자료의 대표성 문제: 중국 고대사는 자료가 단편적이고 불완전한 경우가 많아, 데이터베이스를 통한 통계 분석 결과가 전체 역사를 대표한다고 보기 어렵습니다. 특히, 문헌 기록의 우연성과 시대적 한계, 그리고 기록 방식의 차이로 인해 데이터의 대표성과 신뢰성에 문제가 발생할 수 있습니다.
정보의 왜곡과 단순화: 역사적 사실을 정량화하는 과정에서, 특히 “예” 또는 “아니오”와 같은 이분법적인 분류는 역사적 사실의 복잡성과 다양성을 단순화하고 왜곡할 위험성이 있습니다. 예를 들어, 송말 원초 지식인의 신왕조에 대한 태도를 분석할 때, 단순히 “仕”와 “不仕”로 구분하는 것은 개인의 정치적 신념, 시대적 상황, 개인적 관계 등 다양한 요소를 고려하지 못하는 한계를 지닙니다.
개별 자료의 특수성 간과: 역사적 기록은 저마다 고유한 맥락과 특성을 지니고 있습니다. 그러나 데이터베이스는 이러한 개별 자료의 특성을 무시하고, 단순히 데이터를 결합하고 분석하는 경향이 있습니다. 예를 들어, 재정 기록의 경우, 기록 시점, 통계 기준, 측정 단위 등이 모두 달라, 단순히 숫자만 비교하는 것은 오류를 초래할 수 있습니다.
저자는 이러한 한계를 극복하기 위해 데이터베이스 분석 결과에만 의존하기보다는, 개별 자료의 맥락과 특성을 면밀히 검토하고, 다양한 자료를 종합적으로 분석하는 것이 중요하다고 강조합니다.
결론:
저자는 디지털 인문학 시대에 역사학이 직면한 새로운 도전을 해결하기 위해 역사학과 컴퓨터 과학 등 타 분야와의 적극적인 협력이 필요하다고 주장합니다. 또한, 디지털 기술의 한계를 명확히 인식하고, 이를 보완하기 위한 방안을 모색해야 한다고 강조합니다. 즉, 데이터베이스와 같은 디지털 도구는 역사 연구를 위한 유용한 도구일 뿐이며, 역사학자의 통찰력과 비판적 사고를 대체할 수 없다는 점을 역설합니다.
결론적으로, 이 글은 디지털 인문학 시대에 역사학이 나아가야 할 방향에 대한 심도 있는 통찰을 제공하며, 역사학자들에게 새로운 시대에 걸맞은 연구 방법론을 모색하고, 디지털 기술을 비판적으로 수용할 것을 촉구합니다.
출처: “한국어로 요약해.”. Gemini Advanced 2.0 Experimental Advanced. 2025.01.01.
바로의 요약:
1. 키워드 중심의 데이터 검색
1.1. 동의이음어를 어떻게 처리할 것인가? ex) “瞿元立”“瞿洞观”等17种不同
1.2. 문자와 실체가 다른 경우는 어떻게 할 것인가? ex) 从南宋至元代,在“乡”之下,超过80%却仍记载着已经退出历史舞台的“里”,至于当时实际运行之中的“都”与“保”,则甚少记载 // “坊”在宋元方志的文本中有多重含义
1.3. 용어, 비유, 대명사 등을 어떻게 처리할 것인가? ex) 常以“某氏”“某丈”之类简称
2. 문제 발굴
꼼꼼히 읽는 방식(读书得间)을 통한 문제 제기가 약화되어 역사적 맥락이 단절됨. 특히 역사 훈련 초기 단계의 읽기가 문제임.
3. 통계 분석
3.1. 보편성을 보장할 수 없음.
3.2. 다층적이고 다양한 역사적 활동을 단순한 데이터로 만듬.
3.3. 사료의 맥락성을 반영하지 못함.
바로: 전통적인 사료 읽기 훈련을 한 입장에서 전통적인 읽기가 역사학 훈련 초기 뿐만이 아니라, 끊임 없이 필요하다는 입장에는 완전히 동의함. 다만, 제기하고 있는 문제의 대부분이 현재의 기술로 해결 가능한 문제로 보임. 예를 들어서, 키워드 중심의 검색 문제는 데이터를 똑바로 만들지 못한 문제로 보이며, 이미 20~30년전 기술로 해당 내용을 온전한 기계가독형데이터로 만들 수 있음. 그 결과 통계 분석의 근간이 되는 데이터가 온전하지 않게 됨에 따라서 통계도 불완전한 문제가 당연히 발생함. 현대를 대상으로 하는 연구도 모든 데이터를 모으는 것은 불가능함. 그나마 조금 더 많은 기계가독형데이터가 있고, 부족한 부분을 보완하기 위하여 노력하고 있을 뿐임…… 그런데 보편성의 문제는 전통적인 읽기와 연구로도 해결되는 문제인지 의문임. 큰 스승(大师)의 통찰에는 언제나 감탄하게 되는 면이 있지만, 그렇다고 큰 스승의 모든 말이 곧 법칙인 것은 아니지 않음?!