Mistral AI, Gemini Advanced, Chat GPT 4, claude, perplexity 24년 수능 국어영역 오답 1위 문제 풀기

24년 수능 국어영역 중에서 오답 1위 문제를 AI로 풀어보자

이번에는 AI의 한국어 성능을 테스트 하기 위해 5개 AI 도구를 활용하여 24년 국어영역 오답률 1위 문제를 풀어보았다.

정답은 5번이다. 수능 학생들의 선택 비율은 1번 8%, 2번 12%, 3번, 14%, 4번 34%, 5번 32%였다.

테스트 대상 도구 : Mistral AI, Gemini Advanced, Chat GPT 4, claude, perplexity
활용 데이터 : ’24년 국어영역 10번문제(3점)
비교 방법 : 동일한 한국어 한글 Prompt를 입력한 후 정답을 알려달라고 하였다.
프롬프트
- 아래 `내용`을 바탕으로 `문제`의 정답을 알려달라.““내용
  데이터를 처리할 때 데이터의 정확성은 매우 중요하다. 그런데
  데이터에 결측치와 이상치가 포함되면 데이터의 특징을 제대로
  ⓐ 나타내기 어렵다.
  결측치는 데이터 값이 ⓑ빠져 있는 것이다. 결측치를 처리하는
  방법 중 하나인 대체는 다른 값으로 결측치를 채우는 것인데,
  대체하는 값으로는 평균, 중앙값, 최빈값을 많이 사용한다. 중앙
  값은 데이터를 크기순으로 정렬했을 때 중앙에 위치한 값이다.
  크기가 같은 값이 복수일 경우에도 순위를 매겨 중앙값을 찾고,
  데이터의 개수가 짝수이면 중앙에 있는 두 값의 평균이 중앙값
  이다. 또 최빈값은 데이터에 가장 많이 나타나는 값을 이른다.
  일반적으로 데이터 값이 연속적인 수치이면 평균으로, 석차처럼
  순위가 있는 값에는 중앙값으로, 직업과 같이 문자인 경우에는
  최빈값으로 결측치를 대체한다.
  이상치는 데이터의 다른 값에 비해 유달리 크거나 작은 값으로,
  데이터를 수집할 때 측정 오류 등에 의해 주로 ⓒ생긴다. 그러나
  정상적인 데이터라도 데이터의 특징을 왜곡하는 데이터 값이
  있을 수 있다. 예를 들어, 데이터가 어떤 프로 선수들의 연봉이고
  그중 한 명의 연봉이 유달리 많다면, 이상치가 포함된 데이터에
  해당한다. 이런 데이터의 특징을 하나의 수치로 나타내려는 경우
  ㉠ 대푯값으로 평균보다 중앙값을 주로 사용한다.
  평면상에 있는 점들의 위치를 나타내는 데이터에서도 이상치를
  발견할 수 있다. 대부분의 점들이 가상의 직선 주위에 모여
  있다면 이 직선은 데이터의 특징을 잘 나타낸다고 할 수 있다.
  이 직선을 직선 L이라고 하자. 그런데 직선 L로부터 멀리 떨어진
  위치에도 몇 개의 점이 있다. 이 점들이 이상치이다.
  ㉡ 이상치를 포함하는 데이터에서 직선 L을 찾는다고 하자.
  이때 사용할 수 있는 기법의 하나인 A기법은 두 점을 무작위로
  골라 정상치 집합으로 가정하고, 이 두 점을 ⓓ 지나는 후보
  직선을 그어 나머지 점들과 후보 직선 사이의 거리를 구한다.
  이 거리가 허용 범위 이내인 점들을 정상치 집합에 추가한다.
  정상치 집합의 점의 개수가 미리 정해 둔 기준, 즉 문턱값보다
  많으면 후보 직선을 최종 후보군에 넣는다. 반대로 점의 개수가
  문턱값보다 적으면 후보 직선을 버린다. 만약 처음에 고른 점이
  이상치이면, 대부분의 점들은 해당 후보 직선과의 거리가 너무
  ⓔ멀어 이 직선은 최종 후보군에서 제외되는 것이다. 이 과정을
  반복하여 최종 후보군을 구하고, 최종 후보군에 포함된 직선
  중에서 정상치 집합의 데이터 개수가 최대인 직선을 직선 L로
  선택한다. 이 기법은 이상치가 있어도 직선 L을 찾을 가능성이
  높다
  ““““문제
  ㉡과 관련하여 윗글의 A 기법과 <보기>의 B 기법을 설명한
  내용으로 가장 적절한 것은?
  <보기>
  다음과 같은 방법으로 직선 L을 찾는 B 기법을 가정해 보자.
  후보 직선을 임의로 여러 개 가정한 뒤에 모든 점에서 각
  후보 직선들과의 거리를 구하여 점들과 가장 가까운 직선을
  선택한다. 그러나 이렇게 찾은 직선은 직선 L로 적합한 직선이
  아니다. 이상치를 포함해서 찾다 보니 대부분 최적의 직선과
  이상치 사이에 위치한 직선을 선택하게 된다.
  ① A 기법과 B 기법 모두 최적의 직선을 찾기 위해 최대한 많은
  점을 지나는 후보 직선을 가정한다.
  ② A기법은 이상치를 제외하고 후보 직선을 가정하지만 B기법은
  이상치를 제외하는 과정이 없다.
  ③ A기법에서 최종적으로 선택한 직선은 이상치를 지나지 않지만
  B 기법에서 선택한 직선은 이상치를 지난다.
  ④ A기법은 이상치의 개수가 문턱값보다 적으면 후보 직선을 버리
  지만 B 기법은 선택한 직선이 이상치를 포함할 수 있다.
  ⑤ A 기법에서 후보 직선의 정상치 집합에는 이상치가 포함될
  수 있고 B 기법에서 후보 직선은 이상치를 지날 수 있다.
  ““

Mistral AI (large) – Bad (오답)

(나의 평가) Mistral AI(large)는 정답을 심지어 3개를 제시했다. 2,3,4번이 정답이고 1번 5번을 오답으로 답변했다. 오답에 대해서 추가적인 해설을 전달하면서 5번이 답이 아니냐고 물어보았으나 바로 인정하지 않았고 2번 정도의 추가 정보를 제공받은 후에 5번을오답으로 인정하였다. 고집이 꽤 쎈 AI다.

(답변)

문제에서 제시된 A 기법과 B 기법을 비교하여 분석해보면,① A 기법과 B 기법 모두 최적의 직선을 찾기 위해 최대한 많은 점을 지나는 후보 직선을 가정한다. → 잘못된 설명입니다. A 기법은 두 점을 무작위로 선택해 후보 직선을 만들고, 이 후보 직선과 가장 가까운 점들을 정상치 집합에 추가하는 반면, B 기법은 여러 개의 후보 직선을 임의로 가정하고, 모든 점에서 각 후보 직선들과의 거리를 구하여 점들과 가장 가까운 직선을 선택합니다.② A기법은 이상치를 제외하고 후보 직선을 가정하지만 B기법은 이상치를 제외하는 과정이 없다. → 맞는 설명입니다. A 기법은 후보 직선을 만들고, 이 직선과 일정 거리 이내에 있는 점들만 정상치 집합에 추가하며, 이상치를 제외하는 과정이 있습니다. 반면 B 기법은 이상치를 제외하는 과정이 없습니다.③ A기법에서 최종적으로 선택한 직선은 이상치를 지나지 않지만 B 기법에서 선택한 직선은 이상치를 지난다. → 맞는 설명입니다. A 기법은 이상치를 제외하는 과정을 통해 최종적으로 선택한 직선은 이상치를 지나지 않습니다. 반면 B 기법은 이상치를 제외하는 과정이 없기 때문에 선택한 직선은 이상치를 지날 수 있습니다.④ A기법은 이상치의 개수가 문턱값보다 적으면 후보 직선을 버리지만 B 기법은 선택한 직선이 이상치를 포함할 수 있다. → 맞는 설명입니다. A 기법은 이상치의 개수가 문턱값보다 적으면 해당 후보 직선을 버리는 반면, B 기법은 선택한 직선이 이상치를 포함할 수 있습니다.⑤ A 기법에서 후보 직선의 정상치 집합에는 이상치가 포함될 수 있고 B 기법에서 후보 직선은 이상치를 지날 수 있다. → 잘못된 설명입니다. A 기법은 이상치를 제외하는 과정을 통해 정상치 집합에는 이상치가 포함되지 않습니다. B 기법은 이상치를 제외하는 과정이 없기 때문에 후보 직선이 이상치를 지날 수 있습니다.

Gemini AI (large) – Excellent (정답 + 깔끔한 설명)

(나의 평가) 개인적으로 매우 놀라운 결과다. Chat GPT 4.0을 매우 신뢰하고 왠만한 추론은 가장 뛰어나다고 생각했었는데 이번 테스트 사례에서는 Gemini AI가 가장 뛰어난 성능을 보였다. mmlu benchmark 등 여러 성능 비교에서 GPT 4.0 보다 Gemini가 뛰어나다고 홍보하였지만 그냥 단순한 홍보라고 생각했었다. (단 분명히 이미지 생성과 이미지 내 텍스트를 적는건 DALLE 보다 Gemini가 뛰어나긴 했다)

Gemini의 답변을 보면 정답과 해설을 마치 학원 선생님이 설명하는것과 같이 답변을 해주었다. 느낌 상 Chain of Thought와 같은 Prompt 엔지니어링이 기본적으로 잘 적용되어 있는거 같다. 논리적으로 주어진 정보를 분석하고 답변을 찾아내고 있다.

(답변)

문제 정답 및 해설

정답: ⑤ A 기법에서 후보 직선의 정상치 집합에는 이상치가 포함될 수 있고 B 기법에서 후보 직선은 이상치를 지날 수 있다.

해설:

A 기법:

이상치 제외: A 기법은 정상치 집합을 구성하는 과정에서 이상치를 제외합니다.
후보 직선 생성: 두 점을 임의로 선택하여 그 두 점을 지나는 후보 직선을 생성합니다.
후보 직선 평가: 후보 직선과 나머지 점들 사이의 거리를 계산하고, 허용 범위 이내인 점들을 정상치 집합에 추가합니다.
문턱값 적용: 정상치 집합의 점 개수가 문턱값보다 많으면 후보 직선을 최종 후보군에 추가합니다.
최종 직선 선택: 최종 후보군 중에서 정상치 집합의 데이터 개수가 최대인 직선을 직선 L로 선택합니다.

B 기법:

이상치 제외 없음: B 기법은 이상치를 제외하지 않고 모든 점을 고려하여 직선 L을 찾습니다.
후보 직선 생성: 여러 개의 후보 직선을 임의로 생성합니다.
최적의 직선 선택: 각 점에서 후보 직선들과의 거리를 계산하고, 점들과 가장 가까운 직선을 선택합니다.

비교 분석:

기법	이상치 제외	후보 직선 생성	후보 직선 평가	최종 직선 선택
A 기법	O	두 점을 지나는 직선	허용 범위 기반	정상치 집합 최대
B 기법	X	임의 생성	점과의 거리 최소	–

결론:

A 기법은 이상치를 제외하고 정상치 집합에 기반하여 최적의 직선을 찾으려는 집합 기반 방식입니다.
B 기법은 이상치를 포함하여 모든 점을 고려하고 점과의 거리 최소화를 기준으로 직선을 선택하는 거리 기반 방식입니다.

따라서 A 기법은 후보 직선의 정상치 집합에 이상치가 포함될 수 있고, B 기법은 선택한 직선이 이상치를 지날 수 있습니다.

참고:

A 기법은 이상치의 영향을 덜 받지만, 문턱값 설정에 따라 결과가 달라질 수 있습니다.
B 기법은 이상치의 영향을 받기 쉬우므로, 이상치 제외 전처리가 필요합니다.

추가 정보:

이상치를 제외하는 방법에는 평균과 표준편차를 이용하는 방법, 3분위수 범위를 이용하는 방법 등이 있습니다.
직선 L을 찾는 다른 방법으로는 최소제곱법, 회귀분석 등이 있습니다.

Chat GPT 4.0 – Bad (오답)

(나의 평가) Reddit, X(Twitter) 등에서 Chat GPT의 성능 저하에 대해서 많은 논란이 있었다. (요즘은 조용한듯하다 1~2월달에는 거의 매일 성능 저하를 성토하는 글이 많이 나왔다) 이번 테스트에도 느낀 점이 Chat GPT는 Prompt Engineering을 적용하지 않으면 추론 실력이 다른 모델에 비해 압도적이지는 않다라는 것이다. Chat GPT는 2번을 오답으로 선택하였다. 추가 정보를 제공하였을때 자신의 잘못을 인정하고 답을 5번으로 수정하였다.

(답변)

A 기법과 B 기법을 비교하는 내용에 따르면, A 기법은 무작위로 두 점을 선택하여 후보 직선을 가정하고, 이후 점들과의 거리를 통해 정상치 집합을 확장해 나가는 방법이며, 이상치가 포함되어 있더라도 최종 후보군에서 대부분 제외되어 정상치만을 포함하는 직선을 찾는 방법입니다. 반면, B 기법은 여러 후보 직선을 가정한 후 모든 점들과의 거리를 구하여 가장 가까운 직선을 선택하는 방식으로, 이상치를 포함해서 거리를 계산하기 때문에 최적의 직선보다는 이상치와 최적의 직선 사이에 위치한 직선을 선택하게 됩니다.
이를 토대로 옵션들을 분석하면:
① 옵션은 둘 다 최적의 직선을 찾으려고 하지만, A 기법은 점차적으로 정상치를 기반으로 후보 직선을 확정하는 반면, B 기법은 단순히 거리를 기준으로 직선을 선택하기 때문에 정확하지 않습니다.
② 옵션은 A 기법이 이상치를 제외하고 후보 직선을 가정한다고 설명하며, B 기법은 이상치 제외 과정이 없다고 명시, 이는 제공된 설명과 일치합니다.
③ 옵션은 A 기법에서 최종 선택된 직선이 이상치를 지나지 않는다고 설명하지만, A 기법의 설명에는 명시적으로 이상치를 지나지 않는다고 언급되지 않았습니다.
④ 옵션은 이상치의 개수와 관련된 문턱값의 개념을 잘못 해석한 것으로 보입니다. A 기법에서 문턱값은 정상치 집합의 크기와 관련이 있으며 이상치의 개수를 직접적으로 언급하지 않습니다.
⑤ 옵션은 후보 직선의 정상치 집합에 이상치가 포함될 수 있다고 하는데, A 기법의 설명에서는 정상치 집합을 확장하는 과정에서 이상치가 제외된다는 점을 기반으로 합니다.
이 분석에 따라, ② 옵션이 A 기법과 B 기법의 차이를 가장 정확하게 설명합니다. A 기법은 이상치를 점차적으로 제외하면서 후보 직선을 가정하는 반면, B 기법은 이상치를 제외하는 과정 없이 모든 점에서 후보 직선과의 거리를 구하여 가장 가까운 직선을 선택합니다.

Claude – Bad (오답)

(나의 평가) 수능 수험생들이 가장 많이 선택한 4번을 Claude도 선택하였다. 이런 관점에서 보면 Mistral, Chat GPT 보다 더 사람과 같은 선택을 하였다고 볼 수 있다. 추가적인 정보를 제공하니 쿨 하게 인정을 해버린다

(최초 답변) 정답은 ④입니다. A 기법은 정상치 집합의 점 개수가 미리 정해 둔 문턱값보다 적으면 후보 직선을 버리지만, B 기법은 이상치를 포함한 모든 점을 고려하여 선택한 직선이 이상치를 지날 수 있습니다.

(추가 정보 제공시 답변) 네, 맞습니다. 문제의 정답은 5번입니다. 문제에서 제시한 보기의 내용을 다시 살펴보면:

⑤ A 기법에서 후보 직선의 정상치 집합에는 이상치가 포함될 수 있고 B 기법에서 후보 직선은 이상치를 지날 수 있다.

이것이 A기법과 B기법의 차이를 가장 적절히 설명하고 있습니다. 제가 앞서 4번을 정답으로 말씀드린 것은 실수입니다. 당신의 지적대로 5번이 정확한 정답입니다. 감사합니다. 제가 문제를 꼼꼼히 살펴보지 않고 성급한 판단을 한 점 앞으로 주의하겠습니다

Perplexity- Bad (오답)

(나의 평가) Chat GPT와 같이 2번을 답변으로 선택하였다. 이 도구의 흥미로운 점은 정답을 찾는 과정을 자체적인 추론으로 해결하는게 아니라 웹에 계속 관련된 정보를 수집해서 답을 찾는다는 것이다. 나의 추가 정보가 맞는지, 틀린지를 웹 검색해서 추가로 얻어진 정보와 함께 답변을 주었다. 흥미로운 도구다.

(답변) 정답: ② A기법은 이상치를 제외하고 후보 직선을 가정하지만 B기법은 이상치를 제외하는 과정이 없다.A 기법은 이상치를 제외하고 후보 직선을 가정하는 반면, B 기법은 이상치를 포함하여 후보 직선을 선택한다. 따라서, B 기법은 이상치를 제외하는 과정이 없다는 것이 가장 적절한 설명이다.

총평

구글의 Gemini가 가장 성능이 좋았다. 압도적으로 좋았다고 판단한다. 답변에 대한 설명과 글의 구조화까지 매우 훌륭하였다. 다른 도구들은 답을 찾고 이를 합리화하는 연역법적 관점이 강했다 하면 Gemini 귀납법적 접근방법이 강했다. 즉, Gemini를 제외하고 다른 모델들은 기존의 지식을 기반으로 지문을 해석하고 유사한 지식을 찾다보니 잘못된 답변을 찾은거 같다. Perplexity는 흥미롭게도 답변을 찾아가는 과정을 인터넷 검색에서 신규로 찾은 정보를 활용하였다.

평가결과 : Gemini(BARD 유료) Advanced >>> perplexity > Chat GPT 4 > Mistral AI, claude

Mistral AI, Gemini Advanced, Chat GPT 4, claude, perplexity 한국어 성능 비교

datachat.kr