본문 바로가기

인재개발학과 활동상황/인재개발학과

10월 29일(금) Kaufman 교수 발표-전문가/초심자 에 의한 평가


Assessing creativity: Experts vs Novices.

10월 29일 미국 Cal State_SanBernadino 심리학과 교수인 James Kaufman 교수의 발표가 있었습니다. 

발표내용을 정리하였으니 참고하시기 바랍니다.





내용정리 

Consensual Assessment Technique

창의성은 우리 주변에서 나타나는 가장 근본적인 문제이다. 미국에서의 가장 큰 시험인 SAT, GRE, tremendous impact에서 창의성은 전혀 이 시험문제에서 나타나지 않는다. 창의성은 common measurement가 없기 때문에 평가하는 것 자체가 힘들었었다. 그러던 중 CAT(Consensual Assessment Technique)는 80년대에 개발된 측정 방법으로 산물로서의 창의성을 판단하는데 사용된 방법이다. 이 방법은 절대평가가 아니라 상대적으로 주어진 조건으로 조사하는 상대평가를 사용해서 rank를 세울 수 있다.

 

창의성은 많은 다른 영역에서 나타난다. 예를 들어, 시나, 음악, 그림, 작곡, 발명에서도 이론적으로 창의적인 산물들이 나타난다. CAT는 모든 다른 종류의 산물들에 평점을 매겨서 평가를 할 수 있다는 것이 특징이다. 그렇다면 어떤 측면의 창의성에 있어서 초점을 맞추고 관심을 둘 것인가? 40개에서 500개의 시들이 있다면 어떻게 평가할 것인가? 에 대한 질문을 할 수 있게 된다. 이 질문의 기저는 산물은 서로 비교될 수 있다는 것이다. 그리고 그러한 창의적 산물에 등급을 매기는 것은 전문가들이 하도록 추천되어왔던 것이 사실이다. 그것이 의미하는 것은 무엇인가?

 

그렇다면 우리는 전문가에 대한 기준을 다시 세울 필요가 있다. 전문가란? 누가 전문가인가? 시의 영역으로 국한시켜 이야기해보면 시에 대한 전문가는 시에 대한 전문적인 지식을 가지고 있는 사람이다. 하지만 이러한 전문가를 표집 하여 시를 평가하도록 하는 것은 시간과 돈을 들어간다. 이러한 현실적인 문제는 우리가 “어떤 전문가가 적절한가? 수준이 다소 낮은 전문가로 접근하는 것은 불가능한가?” 라는 질문을 하게 한다.

 

Different Experts

이러한 질문에 대한 연구의 일환으로 100개의 시와 이야기 그리고 개인적인 서사 글을 전문가로 하여금 등급을 매기도록 요청했다. 이 때 창의적인 작가나 편집가, 창의성을 연구하는 심리학자들, 창의성 글쓰기 교사들로 구성되어 있는 13명의 전문가들이 참여했다. 이 전문가들은 모두 100편의 글을 읽은 뒤에 6점 척도를 사용하여(1-not very creativity, 6-very creative) 평가를 했고 영역에 따른 신뢰도는 다음과 같다. poetry-0.87, Fiction- 0.94, narrative- 0.96. 영역간 전문가들간 상관도 높게 나왔다. 

이번 실험을 통해서 전문가들 사이에는 거의 대부분 동의하는 결과를 확인할 수 있었다. 다만 시의 영역에 있어서는 일치도가 다소 낮았다.

Experts and gifted novices

이상적인 창의력 테스트에 있어서 어느 누가 어떤 분야에 있어서 창의적인지를 알아보고자 하는 시험이 있었는데, 정말 사람마다 창의력이 다르다는 것을 알았다.

그림을 100명에게 그려보게 했을 때, 모두가 다르게 그림을 그렸던 것이다. 그렇다면 전문가가 아닌 novice 들도 창의성을 평가할 수 있을까? 라는 질문을 하게 된다.그래서 전문가의 영역을 재능이 있는 초보자로까지 확대해 보기로 했다. 고등학생들 중에서 작문에 특별히 창의적으로 실력이 있는 사람들을 대상으로. (실험에서는 New Jersey Governor's school of the Arts학교의 학생을 대상으로 했다.) 그 결과는 비록 전문가는 아니어도 창의성에 있어서 매우 높은 수준에 있는 재능 있는 고등학생들과 전문가들 사이에는 상관이 높았다. 다시 말해 창의적이고 재능 있는 학생들은 보다 정확하게 창의성이 있는지 없는지의 여부를 판단했다는 것을 보여주었다.

시에 관심이 전혀 없고 지식도 전혀 없는 사람들과 전문가들이 시에 대해서 평가를 했을 때, 전문가와 평범한 사람들 사이에 상관은 둘 다 높았다.

다음으로는 전문가와 보통 수준의 초보자들의 경우에는 어떠한 차이가 있을 까? 그들은 각각 205개의 시와 이야기들을 가지고 106명의 대학생들에게 그 시를 평가하도록 했다. 그들은 시를 전공하지도 않았고 특별히 시에 대한 관심도 가지고 있지 않았다. 그리고 전문가의 경우에는 10명의 전문시인에게 이 글을 평가하도록 요청했다. 각각의 그룹 당 초기 알파계수는 전문가가 .83, 초보자가 .94로 꽤 좋게 나왔다. 하지만 이 결과는 spearman-Brown공식을 적용하면 달라진다. 전문가들은 여전히 높은 신뢰도를 보이지만 초보자들의 신뢰도가 .58로 낮아지게 되는 것이다. 또한 전문가들과 학생들과 시에 대한 평가에 있어서 상관은 .22로 그다지 서로 의견의 일치를 보이지 않았다.

영화에 대한 선호도에 있어서 전문가와 평범한 사람들의 평가는 다르다는 것을 보면 이해가 쉬울 것이다.

그래서 우리는 또 다시 수준 낮은 전문가-초보자간에 다른 영역에서는 동의를 보이는지를 확인하기 위해서 10명의 전문 소설가에게 이야기 평가를 요청했다. 초기연구에서는 동일하게 전문가는 .92 초보자는 .93의 높은 알파계수를 보였지만 정확도에 대한 신뢰도에 있어서 초보자는 다시 .53로 떨어졌다. 하지만 시에 비해서는 소설의 영역에서 초보자들이 전문가들에게 .71에 해당하는 동의를 보였다. 따라서 우리는 어떤 영역에 있어서는 거의 모든 사람이 등급을 매기는 것이 가능하고 어느 영역에서는 전문가가 필요하다고 결론을 내릴 수 있다. 하지만 거의 동등한 능력을 가진 사람이 평가를 할 때 어느 정도 타당도가 있다고 하겠다.


질문시간>_<

질문: 그동안 Self rating scales에 대한 비평이 많았는데.. 특히 각각의 영역에서 창의성과 관련된 행동이 많은데 그러한 것들을 어떻게 다 확보했는가?

답변: 과거 창의성 일반화에 대해서 연구한 것을 바탕으로 창의성이 특히나 많이 나타나는 예술이나 이야기 창작, 시 창작과 같이 특정 영역을 여러 분야로 나누어서 창의성을 보니까 괜찮은 것 같다.

질문: 일반 초보자들이 더 모르기 때문에 다 비슷하게 얘기하고, 전문가로 올라갈수록 주장이 다르기 때문이 일치가 어렵지 않나?

답변: product의 레벨이 따라서, 레벨이 높으면 초보자들은 모르는 거고, 전문가들은 product가 정교할수록 상이한 이야기 할 수 있지만, 쉬우면 전문가들도 동일한 결과를 이야기할 수 밖에 없다.

질문: 왜 신뢰도만 얘기하고 타당도에 대해서는 왜 이야기 하지 않는가?

대답: 일반적으로 말해서, 창의성의 모든 종류의 평가에서 이슈가 되고 있음 ‘타당도의 경우 창의성 자체가 산물의 증거니까, 이 자체로서 준거타당도로 바뀌는 것으로 봐야 한다. 여기에 대해서 반대하는 사람들도 있는데, 여기서는 절대 평가 아닌 정확히 상대평가만 하고 있다는 것에 초점을 맞춰야할 것이다.

질문: 많은 창의성평가는 상대평가다. 이렇게 봤을 때 그 평가가 과연 이것이 내부적으로만 본 ranking이지, 외부적으로 봤을 때도 척도 상으로도 타당도가 있다고 볼 수 있나?

대답: 이 중에서 나름 수렴타당도가 있다. 그래서 그럭저럭 넘어는 가지만 문제가 있는 것은 사실이다.

질문: 초보자들과 전문가들의 창의성에 대한 평가가 유사하다고 말했다. 초보자들이 모르기 때문에 전문가들보다 평가를 잘 못할 것이라고 생각했는데 그게 아닌가?

답변: 그게 사실 산물의 수준에 따라서 다르게 이야기한다. 산물이 쉬우면 초보자들이나 전문가들이나 말할 수 있는 내용이 동일하지만, 산물이 정교하고 어렵다면 초보자들은 말하기가 힘들어져서 정말 말을 못하는 것이 사실이다.


질문: 초보자들은 창의성을 평가하는 데 있어서 일관성을 유지하는데 있어서 문제가 있지 않을까?

답변: 행동수준을 어느 일정수준을 그대로 유지하는 것 자체가 힘들기는 하다. 각 세션이 끝나면 조사를 끝내버리기도 하기 때문이다. 상대평가를 끝까지 한 건지, 아니면 자신이 기존에 가지고 있었던 지식을 가지고 ideal concept를 가지고 했는지를 확인하는 것은 사실 불가능하다.

: 전문가들이 창의성을 평가할 만큼 창의적이냐? 예를 들어 입법부/행정부/사법부의 3종류에서 전문가들은 일반적으로 입법부형 성향을 가지고 있다고 하는데, 실제로는 그렇지 않은 사람이 많지 않은가?

-입법부형-가정을 의심하고 앞뒤 살펴보는 성향> 창의적이다.

-행정부-주어진 것만 열심히 하는 성향

-사법부-꼼꼼한 성향

답변: 우리가 쉽게 expert를 여러 명 구할 수 있다면 이 또한 조사해볼 수 있지만 현실적으로 힘들다.