구글넷에서는 신경망 안에 또 다른 신경망이 있는 인셉션 구조를 제안했다.

(a)를 보면 이전 층의 출력을 입력으로 받아 합성곱과 풀링을 한 후 이를 이어붙인다 (concat) 동작만 보면 기존의 CNN과 비슷하지만 구글넷의 특징은 한번에 여러 종류의 필터를 같이 사용한다는 것이다.
한 번에 한 종류의 필터만 사용하는 CNN과 다르게 구글넷은 (1,1), (3,3), (5,5)의 크기가 다른 세 가지 필터를 병렬로 사용한다.
<aside>
💡이 점이 무슨 차이점을 가져올까?
⇒ 아래에 자동차가 있는 두 이미지가 있다. 여기에 (3,3) 크기의 필터를 하나만 사용하여 이미지의 특징을 찾는다고 해보자.

위처럼 같은 물체일지라고 서로 다른 비율로 위치할 경우 한 종류의 필터를 사용하는 것이 효율적이지 않다는 것을 생각할 수 있다.
이러한 아이디어에 따라 구글넷은 다른 크기의 필터를 가진 인셉션 모듈 9개가 직렬로 배치되어 입력 이미지의 서로 다른 영역의 특징을 찾아 축적한다.
</aside>