AI 메모리 성능, 최고 수준 입증

Memory.Inc, LongMemEval-S 94.8% 달성

Memory.Inc가 대표적인 AI 메모리 성능 벤치마크인 LongMemEval-S에서 94.8%를 달성했습니다.
이는 서비스 출시 전 단계에서 기록한 실제 성능이며, 공개된 주요 AI 메모리 시스템들과 비교해도 최고 수준(SOTA)의 결과입니다.

LongMemEval-S는 AI가 긴 대화 속에서도 필요한 정보를 얼마나 정확하게 기억하고, 여러 대화에 흩어진 맥락을 바탕으로 답할 수 있는지를 평가하는 대표적인 메모리 벤치마크입니다.

메모리는 일반적인 검색 테스트처럼 문서 하나에서 답을 찾는 문제가 아닙니다. 여러 대화 세션에 흩어진 정보를 바탕으로, 사용자가 과거에 말한 내용, 어시스턴트가 이전에 답변한 내용, 시간이 지나며 바뀐 정보, 사용자의 취향, 시간 순서와 상대 날짜까지 종합해 답해야 합니다.

쉽게 말해, 단순히 “비슷한 문장을 잘 찾는가”가 아니라 AI가 실제 사용자와 오래 대화할 때 필요한 기억 능력을 평가하는 테스트입니다.

종류

Memory.Inc

Mastra OM

Supermemory

Zep

Full Context

single-session-user

95.7%

98.6%

97.1%

92.9%

81.4%

single-session-assistant

100.0%

82.1%

96.4%

80.4%

94.6%

single-session-preference

96.7%

73.3%

70.0%

56.7%

20.0%

knowledge-update

97.4%

85.9%

88.5%

83.3%

78.2%

temporal-reasoning

95.5%

85.7%

76.7%

62.4%

45.1%

multi-session

83.5%

79.7%

71.4%

57.9%

44.3%

전체

94.8%

84.23%

81.6%

71.2%

60.2%

  • 표는 좌우로 스크롤해 전체 내용을 확인할 수 있습니다.

  • Supermemory의 95% 공개 점수는 Recall@15 with aggregation 기준으로, 한 질문에 여러 검색 결과를 함께 활용한 방식입니다. 위 표에서는 정확한 비교를 위해 일반적인 LongMemEval-S QA accuracy 기준 점수를 사용했습니다

  • MemKraft, MemPalace 등은 LongMemEval-S 500문항 전체가 아닌, 일부 하위 기준 또는 다른 평가 방식의 점수이므로 표에서 제외했습니다.


AI 메모리에서 진짜 어려운 것은 “많이 저장하는 것”이 아닙니다.

중요한 것은 정확히 기억하는 것입니다.
그리고 더 중요한 것은 바뀐 정보를 최신 상태로 유지하는 것입니다.

사용자가 예전에는 A라고 말했다가 나중에 B로 바꿨다면, AI는 A를 계속 기준으로 답하면 안 됩니다. 최신 정보인 B를 기준으로 답해야 합니다.
예산이 바뀌고, 취향이 바뀌고, 일정이 바뀌고, 프로젝트 방향이 바뀌어도 AI는 그 변화를 따라가야 합니다.

Memory.Inc는 단순한 대화 저장소가 아니라, 개인과 팀의 맥락을 최신 상태로 유지하기 위한 AI 메모리 시스템입니다.

서비스 출시 후에는 벤치마크를 직접 실행하고 검증할 수 있도록 평가 코드를 오픈소스로 공개할 예정입니다.

Memory.Inc는 AI가 더 정확하게 기억하고, 더 오래 맥락을 유지할 수 있는 메모리 인프라를 만들고 있습니다.