엔티티의 주관적 속성 식별
게시 됨: 2022-05-13엔티티의 UGC 주관적 속성 식별
이 최근 부여된 특허는 엔티티의 주관적인 속성을 식별하는 것입니다.
엔티티의 주관적인 속성이나 해당 엔티티에 대한 응답에 대한 특허를 본 적이 없습니다.
그것의 중요한 측면은 사용자 생성 콘텐츠라는 것입니다.
우리는 소셜 네트워크, 블로그, 리뷰 웹사이트 등의 인기가 높아짐에 따라 사용자 생성 콘텐츠(UGC)가 웹에서 더욱 보편화되고 있다고 들었습니다.
우리는 종종 다음과 같은 댓글 형태의 사용자 생성 콘텐츠를 봅니다.
- 소셜 네트워크 내에서 두 번째 사용자가 공유한 콘텐츠에 대한 첫 번째 사용자의 댓글
- 칼럼니스트 블로그의 기사에 대한 사용자 댓글
- 콘텐츠 호스팅 웹사이트에 게시된 동영상의 댓글
- 리뷰(예: 제품, 영화)
- 작업(예: 좋아요!, 싫어요!, +1, 공유, 북마크, 재생 목록 등)
- 등등
이 특허에 따라 엔터티(예: 미디어 클립, 이미지, 신문 기사, 블로그 항목, 사람, 조직, 상업 비즈니스 등)에 대한 주관적 속성을 식별하고 예측하는 방법이 제공됩니다.
시작:
- 첫 번째 엔티티에 대한 반응을 기반으로 첫 번째 엔티티에 대한 첫 번째 주관적 속성 세트 식별(예: 웹사이트에 대한 댓글, 첫 번째 엔티티의 승인 시연(예: "좋아요! 등)
- 첫 번째 엔티티 공유
- 첫 번째 엔터티 북마크
- 재생 목록에 첫 번째 항목 추가
- 분류기(예: 지원 벡터 머신, AdaBoost, 신경망, 입력-출력 매핑 집합에 대한 결정 트리, 여기서 입력-출력 매핑 집합은 입력이 특징 벡터 제공 첫 번째 개체의 경우 첫 번째 주관적 속성 집합을 기반으로 출력을 얻습니다.
- 두 번째 엔티티에 대한 주관적 속성의 두 번째 세트를 얻기 위해 훈련된 분류기에 두 번째 엔티티에 대한 특징 벡터를 제공합니다.
개체에 대한 주관적 속성을 식별하고 예측하기 위해 메모리와 프로세서가 제공됩니다.
컴퓨터 판독 가능 저장 매체에는 컴퓨터 시스템이 다음을 포함하는 작업을 수행하게 하는 명령이 있습니다.
- 첫 번째 개체에 대한 반응을 기반으로 첫 번째 개체에 대한 주관적 속성의 첫 번째 집합 식별
- 첫 번째 엔티티에 대한 첫 번째 특징 벡터 얻기
- 입력-출력 매핑의 집합에 대한 분류기를 훈련시키는 것, 여기서 입력-출력 매핑의 집합은 입력이 첫 번째 특징 벡터를 기반으로 하고 출력이 주관적 속성의 첫 번째 집합을 기반으로 하는 입력-출력 매핑을 포함합니다.
- 두 번째 엔터티에 대한 두 번째 특징 벡터 얻기
- 두 번째 개체에 대한 두 번째 주관적 속성 집합을 얻기 위해 두 번째 특징 벡터를 훈련 후 분류기에 제공
엔티티에 대한 주관적 속성 식별에 대한 이 특허는 다음에서 찾을 수 있습니다.
큐레이션 시그널 분석을 통한 주관적 속성 식별
발명가: Hrishikesh Aradhye 및 Sanketh Shetty
양수인: Google LLC
미국 특허: 11,328,218
부여됨: 2022년 5월 10일
출원일: 2017년 11월 6일
추상적인:
엔티티(예: 미디어 클립, 영화, 텔레비전 쇼, 이미지, 신문 기사, 블로그 항목, 사람, 조직, 상업 비즈니스 등)에 대한 주관적 속성을 식별하고 예측하기 위한 시스템 및 방법이 공개됩니다.
일 양태에서, 제1 미디어 아이템에 대한 주관적 속성은 제1 미디어 아이템에 대한 반응에 기초하여 식별되고, 대략 제1 미디어 아이템과의 개인 품질에 대한 관련성 점수가 결정된다.
분류기는 (i) 제1 미디어 아이템에 대한 특징 세트를 포함하는 훈련 입력 및 훈련 입력에 대한 목표 출력을 사용하여 훈련되고, 목표 출력은 제1 미디어 아이템의 주관적 속성에 대한 각각의 관련성 점수를 포함한다.
엔티티의 주관적 속성 식별 및 예측
엔터티(예: 미디어 클립, 이미지, 신문 기사, 블로그 항목, 사람, 조직, 상업 비즈니스 등)의 주관적 속성을 식별하고 예측하는 방법입니다.
주관적인 속성(예: "귀엽다", "재미있는", "대단함" 등)이 정의되고 특정 엔터티에 대한 주관적 속성은 다음과 같이 엔터티에 대한 사용자 반응을 기반으로 식별됩니다.
- 웹사이트의 댓글
- 처럼!
- 다른 사용자와 첫 번째 엔터티 공유
- 첫 번째 엔티티를 북마크하기
- 재생 목록에 첫 번째 항목 추가
- 등
주관적 속성에 대한 관련성 점수는 엔터티에 대해 결정됩니다.
주관적인 속성 "귀엽다"가 비디오 클립에 대한 댓글의 상당 부분에 나타나면 "귀엽다"에 높은 관련성 점수가 할당될 수 있습니다.
엔티티는 식별된 주관적 속성 및 관련성 점수와 연관됩니다(예: 엔티티에 적용된 태그, 관계형 데이터베이스 테이블의 항목을 통해).
위의 절차는 주어진 엔티티 세트(비디오 클립 저장소의 비디오 클립 등)의 각 엔티티에 대해 수행되며 주관적 속성에서 그룹의 엔티티로의 역 매핑이 개인 품질 및 관련성 점수를 기반으로 생성됩니다. .
그런 다음 역 매핑을 사용하여 주어진 주관적 속성(예: 주관적 속성 "재미" 등과 관련된 모든 엔터티)과 일치하는 집합의 모든 엔터티를 식별할 수 있으므로 다음이 가능합니다.
- 키워드 검색 처리를 위한 관련 엔터티의 신속한 검색
- 재생목록 채우기
- 광고 전달
- 분류기에 대한 훈련 세트 생성
- 등등
분류기(예: 지원 벡터 머신[SVM], AdaBoost, 신경망, 결정 트리 등)는 훈련 예제 세트를 제공하여 훈련됩니다. 여기서 훈련 예제에 대한 입력은 다음에서 얻은 특징 벡터를 포함합니다. 특정 엔터티(예: 비디오 클립의 특징 벡터.
여기에는 다음에 대한 숫자 값이 포함될 수 있습니다.
- 색깔
- 조직
- 강함
- 비디오 클립과 연결된 메타데이터 태그
- 등
출력에는 특정 엔터티에 대한 어휘의 각 주관적 속성에 대한 관련성 점수가 있습니다.
그런 다음 훈련된 분류기는 훈련 세트에 없는 개체에 대한 주관적 속성(예: 새로 업로드된 비디오 클립, 아직 코멘트를 받지 못한 뉴스 기사 등)을 예측할 수 있습니다.
이 특허는 개체에 대한 사용자의 반응을 기반으로 "재미있다", "귀엽다" 등과 같은 주관적 속성에 따라 개체를 분류할 수 있습니다.
이 특허는 비디오 클립에 대한 태그와 같은 개체 설명의 품질을 향상시키고 검색 품질 및 광고 타겟팅을 향상시킬 수 있습니다.
주관적 속성을 식별하기 위한 시스템 아키텍처
시스템 아키텍처에는 다음이 포함됩니다.
- 서버 머신
- 엔티티 스토어
- 클라이언트 시스템이 네트워크에 연결됨
네트워크는 공용(예: 인터넷), 사설 네트워크(예: LAN(Local Area Network) 또는 WAN), 또는 이들의 조합일 수 있습니다.
클라이언트 머신은 무선 단말기(스마트폰 등), 개인용 컴퓨터(PC), 랩톱, 태블릿 컴퓨터, 또는 기타 컴퓨팅 또는 통신 장치일 수 있습니다.
클라이언트 머신은 클라이언트 머신의 하드웨어와 소프트웨어를 관리하는 운영 체제(OS)를 실행할 수 있습니다.
브라우저(미도시)는 클라이언트 머신(클라이언트 머신의 OS와 같은)에서 실행될 수 있습니다.
브라우저는 웹 서버가 제공하는 웹 페이지 및 콘텐츠에 액세스할 수 있는 웹 브라우저일 수 있습니다.
클라이언트 컴퓨터는 다음을 업로드할 수도 있습니다.
- 웹 페이지
- 미디어 클립
- 블로그 항목
- 기사 링크
- 등등
서버 머신은 웹 서버와 주관적인 속성 관리자를 포함합니다. 웹 서버와 감정 속성 관리자는 다른 장치에서 실행될 수 있습니다.
엔터티 저장소는 미디어 클립(예: 비디오 클립, 오디오 클립, 비디오와 오디오를 모두 포함하는 클립, 이미지 등) 및 기타 유형의 콘텐츠 항목(예: 웹 페이지, 텍스트- 기반 문서, 레스토랑 리뷰, 영화 리뷰 등) 및 엔터티에 태그를 지정하고, 구성하고, 색인을 생성하기 위한 데이터 구조를 포함합니다.
엔티티 저장소는 주 메모리, 자기 또는 광 스토리지 기반 디스크, 테이프 또는 하드 드라이브, NAS, SAN 등과 같은 저장 장치에 의해 호스팅될 수 있습니다.
엔티티 저장소는 네트워크 연결 파일 서버에서 호스팅될 수 있습니다. 대조적으로, 다른 구현에서 엔티티 저장소는 네트워크를 통해 서버 머신에 연결된 서버 머신 또는 다른 머신의 것과 같은 일부 다른 유형의 영구 저장소에 의해 호스팅될 수 있습니다.
엔터티 저장소에 저장된 엔터티는 클라이언트 시스템에 의해 업로드되는 사용자 생성 콘텐츠를 포함할 수 있으며 다음과 같은 서비스 제공자가 제공하는 콘텐츠를 포함할 수 있습니다.
- 뉴스 기관
- 발행인
- 도서관
- 곧
서버는 엔티티 저장소의 웹 페이지 및 콘텐츠를 클라이언트에 제공할 수 있습니다.
주관적인 속성 관리자:
- 사용자 반응(예: 댓글, 좋아요, 공유, 북마크, 재생 목록 등)을 기반으로 엔터티의 주관적인 속성을 식별합니다.
- 엔터티에 대한 주관적 속성에 대한 관련성 점수를 결정합니다.
- 주관적 속성 및 관련성 점수를 엔터티와 연결
- 색상, 질감 및 강도와 같은 이미지 기능과 같은 기능을 추출합니다. 진폭, 스펙트럼 계수 비율과 같은 오디오 기능; 단어 빈도, 평균 문장 길이, 형식 매개변수와 같은 텍스트 기능; 엔터티와 관련된 메타데이터 등) 개체에서 특징 벡터 생성
- 특징 벡터와 주관적 속성의 관련성 점수를 기반으로 분류기를 훈련합니다.
- 훈련된 분류기를 사용하여 새 엔터티의 특징 벡터를 기반으로 새 엔터티에 대한 주관적 속성을 예측합니다.
주관적인 속성 관리자
주관적 속성 관리자는 주관적 속성 관리자와 동일할 수 있으며 다음을 포함할 수 있습니다.
- 주관적인 속성 식별자
- 관련성 채점기
- 특징 추출기
- 분류기
- 데이터 저장소
.
구성 요소는 결합되거나 추가 세부 사항으로 분리될 수 있습니다.
데이터 저장소는 개체 저장소와 동일하거나 개인 속성 어휘, 처리할 개체, 개체와 관련된 특징 벡터, 개인 속성을 보유하기 위한 다른 데이터 저장소(예: 임시 버퍼 또는 영구 데이터 저장소)일 수 있습니다. 엔터티 또는 이러한 데이터의 일부 조합과 관련된 관련성 점수.
데이터 저장소는 주 메모리, 자기 또는 광 저장소 기반 디스크, 테이프 또는 하드 드라이브 등과 같은 저장 장치에 의해 호스팅될 수 있습니다.
주관적 속성 관리자는 데이터 저장소 및 엔티티 저장소에 저장된 정보 유형을 사용자에게 알리고 사용자가 이러한 정보를 수집하고 주관적 속성 관리자와 공유하지 않도록 선택할 수 있습니다.
주관적 속성 식별자
개인 속성 식별자는 엔티티에 대한 사용자 반응을 기반으로 엔티티에 대한 주관적 속성을 식별합니다.
개인 속성 식별자는 사용자가 소셜 네트워킹 웹사이트에 게시한 엔티티에 대한 사용자 코멘트의 텍스트 처리를 통해 주관적 속성을 식별할 수 있습니다.
주관적 속성 식별자는 다음과 같은 엔터티에 대한 다른 유형의 사용자 반응을 기반으로 엔터티에 대한 주관적 속성을 식별할 수 있습니다.
- '처럼!' 또는 '싫어요!'
- 엔티티 공유
- 엔터티 북마크
- 재생 목록에 항목 추가
- 등등
개인 속성 식별자는 어떤 속성이 엔티티와 연관되는지 결정하기 위해 임계값을 적용할 수 있습니다(예: 주관적 속성은 적어도 N개의 주석에 나타나야 함).
관련성 채점자는 엔터티에 대한 주관적 속성에 대한 관련성 점수를 결정합니다.
예를 들어 주관적 속성 식별자가 소셜 네트워킹 웹사이트에 게시된 미디어 클립에 대한 댓글을 기반으로 주관적 속성 "귀엽다", "재미있음" 및 "멋짐"을 식별한 경우 관련성 채점자는 이 세 가지 주관적 속성 각각에 대한 관련성 점수를 결정할 수 있습니다. 다음을 기반으로 하는 속성:
- 이러한 주관적 속성이 댓글에 나타나는 빈도
- 주관적인 속성을 제공한 특정 사용자
- 등등
예를 들어, 댓글이 40개 있고 "귀엽다"가 20단어에 나타나고 "대박"이 8개 댓글에 나타나면 "귀엽다"에 "대박"보다 높은 관련성 점수가 할당될 수 있습니다.
관련성 점수는 주관적 속성이 나타나는 댓글의 비율에 따라 할당될 수 있습니다(예: "귀엽다"에 0.5점, "멋지다"에 0.2점 등).
관련성 채점자는 가장 관련성이 높은 k개의 주관적 속성만 유지하고 다른 개인 속성은 버릴 수 있습니다.
예를 들어, 개인 속성 식별자가 사용자 댓글에 세 번 이상 나타나는 7가지 감정 속성을 식별한다고 가정합니다. 그 경우에, 관련성 스코어러는, 예를 들어, 가장 높은 관련성 스코어를 갖는 5개의 주관적 속성만을 유지하고 다른 2개의 감정적 속성(예를 들어, 관련성 스코어를 0으로 설정함으로써)을 버릴 수 있다.
관련성 점수는 0.0에서 1.0(포함) 사이의 자연수입니다.
특징 추출기는 다음과 같은 기술을 사용하여 엔터티에 대한 특징 벡터를 얻습니다.
- 주성분 분석
- 준확정 임베딩
- 아이소맵
- 부분 최소 제곱
- 등등
개체의 특징 추출과 관련된 계산은 특징 추출기 자체에서 수행됩니다.
일부 다른 측면에서 이러한 계산은 다음의 실행 가능 라이브러리와 같은 다른 엔터티에 의해 수행됩니다.
- 서버 시스템에서 호스팅하는 이미지 처리 루틴[그림에는 표시되지 않음]
- 오디오 처리 루틴
- 텍스트 처리 루틴
- 등
결과는 기능 추출기에 제공됩니다.
분류기는 엔터티와 연결된 기능 벡터를 입력으로 받아들이고 관련성 점수(예: 0 사이의 실제 숫자)를 출력하는 학습 기계(예: 지원 벡터 기계[SVM], AdaBoost, 신경망, 의사 결정 트리 등)입니다. 및 1 포함 등) 개인 속성 어휘의 각 주관적 속성에 대해.
분류기는 단일 분류기로 구성됩니다.
분류기는 여러 분류기를 포함할 수 있습니다(예: 개인 속성 어휘의 각 주관적 속성에 대한 분류기 등).
개인 속성 어휘의 각 주관적 속성에 대해 긍정적인 예와 부정적인 기준이 조합되어 있습니다.
주관적 속성에 대한 긍정적인 예의 세트는 특정 개인 속성과 관련된 개체에 대한 특징 벡터를 포함할 수 있습니다.
주관적인 속성에 대한 부정적인 예의 집합은 해당 특정 개인 속성과 연관되지 않은 개체에 대한 특징 벡터를 포함할 수 있습니다.
긍정적인 예의 집합과 부정적인 기준의 집합이 크기가 같지 않으면 더 광범위한 집합이 더 작은 그룹의 크기와 일치하도록 샘플링될 수 있습니다.
훈련 후, 분류기는 분류기에 대한 입력으로서 이러한 개체에 대한 특징 벡터를 제공함으로써 훈련 세트에 없는 다른 개체에 대한 주관적인 속성을 예측할 수 있습니다.
주관적 속성 세트는 관련성 점수가 0이 아닌 모든 감정적 속성을 포함하여 분류기의 출력에서 얻을 수 있습니다. 주관적인 점수 그룹은 수치 점수에 가장 작은 임계값을 적용하여 얻을 수 있습니다(최소한 점수가 0.2인 모든 개인 속성을 집합의 구성원으로 고려하여).
엔티티의 주관적 속성 식별
이 방법은 하드웨어(회로, 전용 로직 등), 소프트웨어(범용 컴퓨터 시스템 또는 전용 기계에서 실행되는 것과 같은), 또는 둘 다를 포함할 수 있는 처리 로직에 의해 수행됩니다.
이 방법은 서버 시스템에서 수행되지만 일부 다른 구현은 다른 장치에서 수행될 수 있습니다.
주관적인 속성 관리자의 다양한 구성 요소는 별도의 시스템에서 실행될 수 있습니다(예: 개인 속성 식별자 및 관련성 스코어러는 한 장치에서 실행되는 반면 특성 추출기와 분류기는 다른 장치에서 실행될 수 있음 등).
설명의 편의를 위해 방법을 일련의 행위로 묘사하고 설명합니다.
그러나 행위는 다양한 순서로 발생할 수 있으며 여기에 제시 및 설명되지 않은 다른 행위와 함께 발생할 수 있습니다.
또한, 개시된 내용에 따라 방법을 설치하기 위해 예시된 모든 행위가 요구되지 않을 수 있습니다.
또한, 당업자는 방법이 상태 다이어그램 또는 이벤트를 통해 일련의 상호 관련된 상태로 표현될 수 있음을 이해하고 인식할 것입니다.
또한, 본 명세서에 개시된 방법은 이러한 방법론을 컴퓨팅 장치로 쉽게 전송하고 전송할 수 있도록 제조 물품에 저장될 수 있음을 이해해야 합니다.
본 명세서에 사용된 바와 같이, 제조 물품이라는 용어는 임의의 컴퓨터 판독가능 장치 또는 저장 매체로부터 액세스가능한 컴퓨터 프로그램을 포함하는 것으로 의도된다.
주관적 속성의 어휘가 생성됩니다.
일부 측면에서 주관적 속성 어휘가 정의될 수 있습니다. 대조적으로, 일부 다른 요소에서 개인 속성 어휘는 엔티티에 대한 사용자의 반응에 사용되는 용어 및 구문을 수집하여 자동화된 방식으로 생성될 수 있습니다. 대조적으로, 또 다른 측면에서 어휘는 수동 및 자동화 기술의 조합으로 생성될 수 있습니다.
어휘는 엔티티에 적용될 것으로 예상되는 소수의 주관적인 속성으로 시드됩니다. 사용자 반응에 나타나는 더 많은 용어 또는 구문이 응답의 자동화된 처리를 통해 식별됨에 따라 어휘는 시간이 지남에 따라 확장됩니다.
주관적 속성 어휘는 개인 속성과 관련된 "메타 속성"을 기반으로 계층적으로 구성될 수 있습니다(예: 개인 속성 "재미"는 메타 속성 "긍정"을 가질 수 있는 반면 주관적 포인트 "역겨움"은 가질 수 있음) 메타 속성 "음수" 등).
엔터티 집합 S(예: 엔터티 저장소의 모든 엔터티, 엔터티 저장소의 엔터티 하위 집합 등)가 사전 처리됩니다.
일 양태에서, 엔티티의 사전 처리는 엔티티에 대한 사용자 반응을 식별한 다음 응답에 기초하여 분류기를 훈련하는 것을 포함합니다.
엔티티가 실제 물리적 엔티티인 경우
엔터티가 실제 물리적 엔터티(예: 사람, 레스토랑 등)인 경우 엔터티의 사전 처리는 물리적 엔터티와 연결된 "사이버 프록시"를 통해 수행됩니다(예: 소셜 네트워킹 웹사이트의 배우 팬 페이지, 웹사이트의 레스토랑 리뷰 등); 그러나 주관적인 속성은 엔터티 자체와 연관되는 것으로 간주됩니다(배우의 팬 페이지 또는 레스토랑 리뷰가 아닌 배우 또는 레스토랑과 같은).
get을 수행하는 방법의 예를 자세히 설명합니다.
Atn 집합 S에 없는 엔터티 E가 수신됩니다(예: 새로 업로드된 비디오 클립, 아직 코멘트를 받지 못한 뉴스 기사, 훈련 집합에 포함되지 않은 엔터티 저장소의 엔터티 등).
엔티티 E에 대한 주제 속성 및 관련성 점수를 얻습니다.
제1 예시적인 방법의 구현이 아래에서 상세히 설명되고, 제2 예시적인 방법의 성능이 설명된다.
획득한 주관적 속성 및 관련성 점수는 엔티티 E와 연관됩니다(예: 엔티티에 해당 태그 적용, 관계형 데이터베이스 테이블에 레코드 추가 등).
실행은 다시 계속됩니다.
분류기는 동시에 실행될 수 있는 재교육 프로세스에 의해 재교육될 수 있습니다(예: 루프의 100회 반복 후, N일마다 등).
엔티티 세트 사전 처리
이 방법은 하드웨어(회로, 전용 로직 등), 소프트웨어(범용 컴퓨터 시스템 또는 전용 기계에서 실행되는 것과 같은), 또는 둘 다를 포함할 수 있는 처리 로직에 의해 수행됩니다.
이 방법은 수행되지만 일부 다른 구현에서는 다른 시스템에서 수행될 수 있습니다.
훈련 세트는 빈 세트로 초기화됩니다. 엔터티 E가 선택되고 엔터티 집합 S에서 제거됩니다.
엔티티 E에 대한 주관적 속성은 엔티티 E에 대한 사용자 반응(예: 사용자 댓글, 좋아요!, 북마크, 공유, 재생 목록에 추가 등)을 기반으로 식별됩니다.
주관적 속성의 식별에는 다음과 같은 사용자 의견 처리 수행이 포함됩니다.
- 어휘의 주관적 속성에 대한 사용자 댓글의 단어 일치
- 구문 및 의미 분석과 같은 단어 매칭 및 기타 자연어 처리 기술 결합
- 등
위치 근처에서 발생하는 개체
사용자 반응은 다음과 같은 여러 위치에서 발생하는 엔터티에 대해 집계될 수 있습니다.
- 많은 사용자의 재생 목록에 나타나는 항목
- 공유되어 소셜 네트워킹 웹사이트에서 여러 사용자의 "뉴스피드"에 나타나는 개체
- 등
서로 다른 위치는 다음과 같은 다양한 요인에 따라 관련성 점수에 대한 기여도에 가중치를 둘 수 있습니다.
위치와 관련된 특정 사용자(예: 특정 사용자는 클래식 음악의 권위자일 수 있으므로 뉴스피드의 엔터티에 대한 댓글은 다른 뉴스피드 등의 댓글보다 가중치를 더 많이 받을 수 있음), 텍스트가 아닌 사용자 반응(예: "좋아요!", "싫어요!", "+1" 등).
또한, 엔티티가 나타나는 위치의 수는 주관적 속성 및 관련성 점수를 결정하는 데 사용될 수도 있습니다(비디오 클립에 대한 관련성 점수는 비디오 클립이 수백 개의 사용자 재생 목록 등에 있을 때 증가할 수 있음).
블록은 주관적인 속성 식별자에 의해 수행됩니다.
주관적 속성에 대한 관련성 점수는 엔터티 E에 의해 결정됩니다.
관련성 점수는 개인 속성이 사용자 댓글에 나타나는 빈도, 단어에 주관적 세부 정보를 제공한 특정 사용자(예: 일부 사용자는 경험을 통해 더 정확하다고 알 수 있음)를 기반으로 결정됩니다. 다른 사용자보다 자신의 의견 등).
예를 들어, 댓글이 40개 있고 "귀엽다"가 20단어에 나타나고 "대박"이 8개 댓글에 나타나면 "귀엽다"에 "대박"보다 높은 관련성 점수가 할당될 수 있습니다.
관련성 점수는 주관적 속성이 나타나는 댓글의 비율에 따라 할당될 수 있습니다(예: '귀엽다' 0.5점, '멋지다' 0.2점 등).
한 측면에서 관련성 점수는 [0, 1] 간격으로 정규화됩니다.
일부 측면에 의해, 식별된 주관적 속성은 (가장 높은 관련성 점수를 갖는 k 감정적 속성을 유지하는 것과 같은, 관련성 점수가 임계값 미만인 임의의 개인 속성을 버리는 것과 같은) 관련성 점수에 기초하여 폐기될 수 있다.
주관적인 속성은 일부 측면에서 관련성 점수를 0으로 설정하여 폐기될 수 있다는 점에 유의해야 합니다.
주관적 속성 및 관련성 점수는 엔터티와 연결됩니다.
주관적 속성 및 관련성 점수는 엔터티와 연결됩니다(예: 태그 지정, 관계형 데이터베이스의 테이블 항목 등).
엔터티 E에 대한 특징 벡터를 얻습니다.
일 양태에서, 비디오 클립 또는 정지 이미지에 대한 특징 벡터는 색상, 질감, 강도 등에 대한 숫자 값을 포함할 수 있는 반면, 오디오 클립(또는 사운드가 있는 비디오 클립)에 대한 특징 벡터는 진폭에 대한 숫자 값을 포함할 수 있습니다. , 스펙트럼 계수 등이 있지만 텍스트 문서의 특징 벡터에는 다음이 포함될 수 있습니다.
- 단어 빈도에 대한 숫자 값
- 평균 문장 길이
- 형식 매개변수
- 등등
이것은 기능 추출기에 의해 수행될 수 있습니다.
얻은 특징 벡터와 관련성 점수가 훈련 세트에 추가됩니다.
bock은 엔티티 세트 S가 비어 있는지 여부를 확인합니다. S가 비어 있지 않으면 실행이 계속되고, 그렇지 않으면 실행이 계속됩니다.
분류기는 훈련 세트의 모든 예제에 대해 훈련되어 훈련 예제의 특징 벡터가 분류기에 대한 입력으로 제공되고 주관적 속성 관련성 점수가 출력으로 제공됩니다.
항목에 대한 주관적 속성 및 관련성 점수 얻기
엔터티 E에 대한 특징 벡터가 생성됩니다.
앞서 설명한 바와 같이 동영상이나 정지영상에 대한 특징 벡터는 색상, 질감, 강도 등에 대한 숫자 값을 포함할 수 있습니다. 반면에 오디오 클립(또는 사운드가 포함된 동영상)에 대한 특징 벡터는 숫자 값을 포함할 수 있습니다. 진폭, 스펙트럼 계수 등에 관한 정보입니다. 대조적으로, 텍스트 문서의 특징 벡터에는 단어 빈도, 평균 문장 길이, 서식 매개변수 등에 대한 숫자 값이 포함될 수 있습니다.
훈련된 분류기는 개체 E에 대한 예측된 주관적 속성 및 관련성 점수를 얻기 위해 특징 벡터를 제공합니다.
예측된 주관적 속성 및 관련성 점수는 엔티티 E와 연관됩니다(예: 엔티티 E에 적용된 태그, 관계형 데이터베이스 테이블의 항목을 통해).
개체에 대한 주관적 속성 및 관련성 점수를 얻는 두 번째 방법
이 방법은 하드웨어(회로, 전용 논리 등), 소프트웨어 또는 이 둘의 조합을 포함할 수 있는 처리 논리에 의해 수행됩니다.
이 방법은 서버 시스템에서 수행되지만 일부는 다른 장치에서 수행될 수 있습니다.
엔터티 E에 대한 특징 벡터가 생성됩니다. 훈련된 분류기는 개체 E에 대한 예측된 주관적 속성 및 관련성 점수를 얻기 위해 특징 벡터를 제공합니다.
획득한 예측된 주관적 속성은 사용자(예: 엔티티를 업로드한 사용자)에게 제안됩니다. 예를 들어 사용자가 제안된 속성 중에서 선택하는 웹 페이지를 통해 정제된 개인 속성 세트를 얻습니다. 새 속성 추가 등).
엔터티에 대한 기본 관련성 점수
기본 관련성 점수는 사용자가 추가한 모든 새로운 주관적 속성에 할당됩니다.
기본 관련성 점수는 0.0에서 1.0 사이의 척도에서 1.0일 수 있으며, 기본 관련성 점수는 특정 사용자를 기반으로 할 수 있습니다(예: 사용자가 과거 기록에서 속성을 제안하는 데 매우 능숙한 것으로 알려진 경우 1.0의 점수, 점수 사용자가 속성을 제안하는 데 어느 정도 능숙하다고 알려진 경우 0.8).
차단 분기는 사용자가 제안된 주관적 속성(예: 속성을 선택하지 않음)을 제거했는지 여부를 기반으로 합니다.
엔티티 E는 분류기의 향후 재교육을 위해 제거된 속성의 부정적인 예로서 저장됩니다. 주관적 속성의 정제된 세트 및 해당 관련성 점수는 엔티티 E와 연관됩니다(예: 엔티티 E에 적용된 태그, 관계형 데이터베이스 테이블의 항목을 통해).