KEEM

  • 홈
  • 블로그
  • 갤러리
  • 프로필
© Powered by 6-keem
2025-09-22
AI

自然言語処理

第2回 資料 翻訳
自然言語処理


이전 글이 없습니다
다음 글이 없습니다

자연언어란

일본어, 영어 등 인간이 일상적으로 사용하는 언어로 사고, 커뮤니테이션, 기록에 사용됨

  • 여러 기능을 가지고 있음

음성

  • 입과 귀를 사용하고 모든 자연언어가 가지고 있는 수단

문자

  • 눈 등의 기관을 사용하며 이 수단을 가지지 않는 자연어도 존재, 문자를 사용하여 기록한 언어를 텍스트(テキスト)라 칭함

텍스트(テキスト)란

문자의 연속, 문자열, 문자 데이터로 세분화 정도에 의해 종류가 나뉘어짐

  • ⽂字,単語,⽂,⽂章
  • ⽂書=⼊れ物に収まっているテキスト(+α)

구조를 가지며 큰 구조의 텍스트(テキスト)는 작은 구조의 텍스트(テキスト)로 구성되며 통상 어떠한 내용(의미)를 나타냄

어휘와 문법

  • 텍스트 → 의미, 의미 → 텍스트를 구성할 때 사용됨

문자(⽂字)란

언어 표기를 위해 사용되는 기호로 최소 단위의 텍스트(テキスト)

발음이나 의미를 나타냄 (발음 : 표음문자, 발음 + 의미 : 표의문자)

⽂字コード : 문자에 대응하는 수치

  • JIS, シフトJIS, EUC, Unicode
  • UTF-8

단어(単語)란

최소 언어 단위 텍스트(テキスト)로 단어, 토큰으로 불림

구성을 가지고 최소단위의 단어, 형태소, 단일어(単純語), 短単位語

  • ⾃然≠⾃+然,⾔語≠⾔+語,処理≠処+理
    복수의 형태소에서 구성된 단어, 합성어(복합어), ⻑単位語
  • ⾃然⾔語処理=⾃然+⾔語+処理
    어떠한 내용이나 문법적인 기능을 나타냄
  • 내용어(자립어), 기능어(부속어)

문(⽂)이란

하나 이상의 단어로부터 구성된 텍스트(テキスト)

  • 문장과 단어 사이에는 구절(句や節)이라는 언어 단위도 있음
  • 구성 요건에 따라 단문(単⽂), 복문(複⽂), 중문(重⽂)으로 나뉨

한 구획의 내용을 나타낸다

  • 말미에 「。」가 쓰이는 경우가 많음
  • 배치(타이틀 등)로 나타내는 경우도 있음

문장(⽂章)이란

하나 이상의 문(⽂)에서 구성된 텍스트(テキスト)로 정리된 사고나 화제를 표현하는 것

  • 단락 : 하나의 토픽을 나타냄
  • 마디(절) : 문서에서 뽑아낸 문장

텍스트 구조

단어의 모임, 또는 단계적으로 모여진 그것들의 총체

모임의 판단재료로 위치관계, 의존관계가 있음

텍스트의 의미

텍스트가 나타내는 내용

  • 단어 → 개념이나 관계
  • 문장 → 개념이나 관계에서 되는 구조

개념과 관계의 그래프개념과 관계의 그래프

어휘

어떤 범위의 텍스트 (주로 단어)와 짝을 이루는 의미의 총체

텍스트의 이해나 생성에 사용됨

  • 어휘뿐만 아니라 문법, 문맥, 상식도 사용됨

語彙語彙

문법

텍스트를 구성하는 규칙으로 텍스트의 이해나 생성에 사용됨

⽂法⽂法