識別實體的主觀屬性

已發表: 2022-05-13

識別實體的 UGC 主觀屬性

這項最近授予的專利是關於識別實體的主觀屬性。

我還沒有看到關於實體的主觀屬性或對這些實體的響應的專利。

它的一個關鍵方面是它是用戶生成的內容。

我們被告知,由於社交網絡、博客、評論網站等的日益普及,用戶生成的內容 (UGC) 在網絡上變得越來越普遍。

我們經常看到用戶生成的內容以評論的形式出現,例如:

  • 第一個用戶對社交網絡中第二個用戶共享的內容的評論
  • 用戶評論以回應專欄作家博客中的文章
  • 來自內容託管網站上發布的視頻剪輯的評論
  • 評論(例如產品、電影)
  • 操作(例如喜歡!、不喜歡!、+1、分享、書籤、播放列表等)
  • 以此類推

根據該專利,提供了一種識別和預測實體(例如媒體剪輯、圖像、報紙文章、博客條目、個人、組織、商業企業等)的主觀屬性的方法。

它開始於:

  • 基於對第一實體的反應(例如網站上的評論、對第一實體的批准證明(例如“喜歡!等)”識別第一實體的第一組主觀屬性
  • 共享第一個實體
  • 為第一個實體添加書籤
  • 將第一個實體添加到播放列表
  • 在一組輸入-輸出映射上訓練分類器(例如支持向量機、AdaBoost、神經網絡、決策樹,其中輸入-輸出映射集包括輸入-輸出映射,其輸入為提供特徵向量對於第一個實體,其輸出基於第一組主觀屬性
  • 將第二個實體的特徵向量提供給經過訓練的分類器,以獲得第二個實體的第二組主觀屬性

提供存儲器和處理器來識別和預測實體的主觀屬性。

計算機可讀存儲介質具有使計算機系統執行操作的指令,包括:

  • 基於對第一實體的反應識別第一實體的第一組主觀屬性
  • 獲得第一實體的第一特徵向量
  • 在一組輸入-輸出映射上訓練分類器,其中該組輸入-輸出映射包括輸入-輸出映射,其輸入基於第一特徵向量,其輸出基於第一主觀屬性集
  • 獲得第二個實體的第二個特徵向量
  • 提供給分類器,經過訓練,第二個特徵向量得到第二個實體的第二組主觀屬性

這項關於識別實體主觀屬性的專利=可在以下位置找到:

通過分析策展信號識別主觀屬性
發明人:Hrishikesh Aradhye 和 Sanketh Shetty
受讓人:谷歌有限責任公司
美國專利:11,328,218
授予:2022 年 5 月 10 日
提交日期:2017 年 11 月 6 日

抽象的:

公開了一種用於識別和預測實體(例如媒體剪輯、電影、電視節目、圖像、報紙文章、博客條目、個人、組織、商業企業等)的主觀屬性的系統和方法。

在一個方面,基於對第一媒體項目的反應來識別第一媒體項目的主觀屬性,並且確定與第一媒體項目有關的個人品質的相關性分數。

使用 (i) 訓練輸入來訓練分類器,該訓練輸入包括第一媒體項目的一組特徵和訓練輸入的目標輸出,目標輸出包括第一媒體項目的主觀屬性的相應相關性分數。

識別和預測實體的主觀屬性

識別和預測實體(如媒體剪輯、圖像、報紙文章、博客條目、個人、組織、商業企業等)的主觀屬性的方法。

主觀屬性(例如“可愛”、“有趣”、“真棒”等)被定義,並且特定實體的主觀屬性根據用戶對實體的反應來識別,例如:

  • 對網站的評論
  • 像!
  • 與其他用戶共享第一個實體
  • Boomarking 第一個實體
  • 將第一個實體添加到播放列表
  • ETC

確定實體的主觀屬性的相關性分數

如果主觀屬性“可愛”出現在視頻剪輯的大部分評論中,那麼“可愛”可能會獲得高相關性分數。

然後將實體與所識別的主觀屬性和相關性分數相關聯(例如通過應用於實體的標籤、通過關係數據庫表中的條目等)。

對給定實體集合中的每個實體(例如視頻剪輯庫中的視頻剪輯等)執行上述過程,並根據個人素質和相關性分數生成從主觀屬性到組中實體的逆映射.

然後可以使用逆映射來識別集合中與給定主觀屬性匹配的所有實體(例如與主觀屬性“有趣”相關聯的所有實體等),從而實現:

  • 快速檢索相關實體以處理關鍵字搜索
  • 填充播放列表
  • 投放廣告
  • 為分類器生成訓練集
  • 以此類推

通過提供一組訓練示例來訓練分類器(例如支持向量機 [SVM]、AdaBoost、神經網絡、決策樹等),其中訓練示例的輸入包括從特定實體(例如視頻剪輯的特徵向量。

它可能包含以下數值:

  • 顏色
  • 質地
  • 強度
  • 與視頻剪輯關聯的元數據標籤
  • ETC

輸出具有特定實體詞彙表中每個主觀屬性的相關性分數。

然後,經過訓練的分類器可以預測不在訓練集中的實體的主觀屬性(例如新上傳的視頻剪輯、尚未收到任何評論的新聞文章等)。

該專利可以根據用戶對實體的反應,根據“有趣”、“可愛”等主觀屬性對實體進行分類。

該專利可以提高實體描述的質量,例如視頻剪輯的標籤,提高搜索質量和廣告定位。

識別主觀屬性的系統架構

系統架構包括:

  • 服務器機器
  • 實體店
  • 客戶端計算機連接到網絡

網絡可以是公共的(例如互聯網)、專用網絡(例如局域網(LAN)或廣域網(WAN)),或它們的組合。

客戶端機器可以是無線終端(智能手機等)、個人計算機(PC)、膝上型計算機、平板計算機或任何其他計算或通信設備。

客戶端機器可以運行管理客戶端機器的硬件和軟件的操作系統(OS)。

瀏覽器(未示出)可以在客戶端機器上(例如在客戶端機器的操作系統上)運行。

瀏覽器可以是可以訪問由網絡服務器提供的網頁和內容的網絡瀏覽器。

客戶端機器也可以上傳:

  • 網頁
  • 媒體剪輯
  • 博客條目
  • 文章鏈接
  • 以此類推

服務器機器包括網絡服務器和主觀屬性管理器。 Web 服務器和情緒屬性管理器可以運行在不同的設備上。

實體存儲是能夠存儲實體的持久存儲,例如媒體剪輯(如視頻剪輯、音頻剪輯、包含視頻和音頻的剪輯、圖像等)和其他類型的內容項(如網頁、文本-基於文檔、餐廳評論、電影評論等),以及用於標記、組織和索引實體的數據結構。

實體存儲可以由存儲設備託管,例如主存儲器、基於磁或光存儲的磁盤、磁帶或硬盤驅動器、NAS、SAN 等。

實體存儲可能由網絡連接的文件服務器託管。 相反,在其他實施方式中,實體存儲可以由某種其他類型的持久性存儲器託管,例如服務器機器或通過網絡耦合到服務器機器的不同機器的持久性存儲器。

存儲在實體存儲中的實體可能包括由客戶端機器上傳的用戶生成的內容,並且可能包括由服務提供商提供的內容,例如:

  • 新聞機構
  • 出版商
  • 圖書館
  • 很快

服務器可以將來自實體商店的網頁和內容提供給客戶端。

主觀屬性管理器:

  • 根據用戶反應識別實體的主觀屬性(如評論、Like!、分享、書籤、播放列表等)
  • 確定有關實體的主觀屬性的相關性分數
  • 將主觀屬性和相關性分數與實體相關聯
  • 提取顏色、紋理和強度等圖像特徵等特徵; 音頻特徵,如幅度、頻譜係數比率; 文本特徵,如詞頻、平均句子長度、格式參數; 與實體相關的元數據; 等)從實體生成特徵向量
  • 根據特徵向量和主觀屬性的相關性分數訓練分類器
  • 使用經過訓練的分類器根據新實體的特徵向量預測新實體的主觀屬性

主觀屬性管理器

主觀屬性管理器可以與主觀屬性管理器相同並且可以包括:

  • 主觀屬性標識符
  • 相關性評分器
  • 特徵提取器
  • 分類器
  • 數據存儲
  • .

這些組件可以組合或分離成更多細節。

數據存儲可以與實體存儲相同或不同的數據存儲(例如臨時緩衝區或永久數據存儲)來保存個人屬性詞彙表、要處理的實體、與實體關聯的特徵向量、個人屬性以及與實體相關的相關性分數,或這些數據的某種組合。

數據存儲可以由存儲設備託管,例如主存儲器、基於磁或光存儲的磁盤、磁帶或硬盤驅動器等。

主觀屬性管理器通知用戶存儲在數據存儲和實體存儲中的信息類型,並允許用戶選擇不收集這些信息並與主觀屬性管理器共享。

主觀屬性標識符

個人屬性標識符基於用戶對實體的反應來識別實體的主觀屬性。

個人屬性標識符可以通過用戶對用戶在社交網站上發布的實體的評論的文本處理來識別主觀屬性。

主觀屬性標識符可以基於其他類型的用戶對實體的反應來識別實體的主觀屬性,例如:

  • '像!' 或“不喜歡!”
  • 共享實體
  • 為實體添加書籤
  • 將實體添加到播放列表
  • 以此類推

個人屬性標識符可以應用閾值來確定哪些屬性與實體相關聯(例如主觀屬性應該出現在至少N條評論中等)。

相關性評分器確定關於實體的主觀屬性的相關性評分。

例如,當主觀屬性標識符已經基於對發佈在社交網絡網站上的媒體剪輯的評論識別出主觀屬性“可愛”、“有趣”和“真棒”時,相關性評分器可以確定這三個主觀的每一個的相關性分數屬性基於:

  • 這些主觀屬性出現在評論中的頻率
  • 提供主觀屬性的特定用戶
  • 以此類推

例如,如果有 40 條評論,“可愛”出現在 20 條詞中,“真棒”出現在 8 條評論中,那麼“可愛”可能會獲得比“真棒”更高的相關性分數。

可以根據主觀屬性出現在評論中的比例來分配相關性分數(例如“可愛”的分數為0.5,“真棒”的分數為0.2等)。

相關性評分器可以只保留 k 個最相關的主觀屬性並丟棄其他個人屬性。

例如,假設個人屬性標識符標識了在用戶評論中出現至少 3 次的七個情感屬性。 在這種情況下,例如,相關性評分器可以僅保留具有最高相關性分數的五個主觀屬性而丟棄其他兩個情感屬性(例如通過將它們的相關性分數設置為零等)。

相關性分數是介於 0.0 和 1.0(含)之間的自然數。

特徵提取器使用以下技術獲取實體的特徵向量:

  • 主成分分析
  • 半定嵌入
  • 等離子圖
  • 偏最小二乘
  • 以此類推

與提取實體特徵相關的計算由特徵提取器本身執行。

在其他一些方面,這些計算由另一個實體執行,例如可執行庫:

  • 由服務器機器託管的圖像處理例程[圖中未描繪]
  • 音頻處理例程
  • 文本處理例程
  • ETC

結果被提供給特徵提取器。

分類器是一種學習機器(例如支持向量機 [SVM]、AdaBoost、神經網絡、決策樹等),它接受與實體相關聯的特徵向量作為輸入並輸出相關性分數(例如介於 0 之間的實際數字)和1包括等)個人屬性詞彙的每個主觀屬性。

分類器由單個分類器組成。

分類器可以包括多個分類器(如個人屬性詞彙表中每個主觀屬性的分類器等)。

為個人屬性詞彙表中的每個主觀屬性組裝了一組正面示例和負面標準。

主觀屬性的正例集可以包括與該特定個人屬性相關聯的實體的特徵向量。

主觀屬性的負面示例集可以包括尚未與該特定個人屬性相關聯的實體的特徵向量。

當正例集和負例集的大小不相等時,可以對更廣泛的集進行採樣以匹配較小組的大小。

在訓練之後,分類器可以通過提供這些實體的特徵向量作為分類器的輸入來預測不在訓練集中的其他實體的主觀屬性。

通過包括所有具有非零相關性分數的情感屬性,可以從分類器的輸出中獲得一組主觀屬性。 可以通過將最小閾值應用於數值分數(通過將具有至少例如0.2的分數的所有個人屬性視為集合的成員)來獲得一組主觀分數。

識別實體的主觀屬性

該方法由可以包括硬件(電路、專用邏輯等)、軟件(例如在通用計算機系統或專用機器上運行)或兩者的處理邏輯來執行。

該方法由服務器機器執行,而一些其他實現可能由另一個設備執行。

主觀屬性管理器的各種組件可以在不同的機器上運行(例如個人屬性標識符和相關性評分器可以在一個設備上運行,而特徵提取器和分類器可以在另一個設備上運行等)。

為了解釋的簡單起見,該方法被描述為一系列動作。

但是行為可以以各種順序發生,並且可以與本文未呈現和描述的其他行為一起發生。

此外,並非所有圖示的動作都可能需要安裝所公開的主題的方法。

此外,本領域技術人員將理解和理解,該方法可以通過狀態圖或事件表示為一系列相互關聯的狀態。

此外,應當理解,本說明書中公開的方法能夠存儲在製造物品上,以方便將這種方法運輸和轉移到計算設備。

如本文所用,術語製品旨在涵蓋可從任何計算機可讀設備或存儲介質訪問的計算機程序。

生成了主觀屬性的詞彙表。

在一些方面,可以定義主觀屬性詞彙。 相反,在其他一些因素中,個人屬性詞彙可以通過收集用戶對實體的反應中使用的術語和短語以自動方式生成。 相反,在其他方面,可以通過手動和自動技術的組合來生成詞彙表。

詞彙錶帶有少量預期適用於實體的主觀屬性。 隨著用戶反應中出現的更多術語或短語通過對響應的自動處理得到識別,詞彙量會隨著時間的推移而擴大。

主觀屬性詞彙可以分層組織,可能基於與個人屬性相關的“元屬性”(例如個人屬性“有趣”可能具有元屬性“正面”,而主觀點“噁心”可能具有元屬性“負面”等)。

對一組實體(如實體存儲中的所有實體、實體存儲中的實體子集等)進行預處理。

在一方面,實體的預處理包括識別用戶對實體的反應,然後基於這些反應訓練分類器。

當實體是實際的物理實體時

應該注意的是,當實體是實際的物理實體(例如人、餐廳等)時,實體的預處理通過與物理實體關聯的“網絡代理”(例如社交網站上演員的粉絲頁面、網站上的餐廳評論等); 但是,主觀屬性被認為與實體本身相關聯(例如演員或餐廳,而不是演員的粉絲頁面或餐廳評論)。

詳細描述了用於執行get的方法的示例。

Atn 接收到不在集合 S 中的實體 E(例如新上傳的視頻片段、尚未收到任何評論的新聞文章、實體存儲中未包含在訓練集中的實體等)。

獲得實體 E 的主題屬性和相關性分數。

下面詳細描述第一示例方法的實現,並且描述第二示例方法的性能。

獲得的主觀屬性和相關度得分與實體E相關聯(例如通過對實體應用相應的標籤,在關係數據庫表中添加記錄等)。

執行繼續返回。

應該注意的是,分類器可以通過可能同時執行的重新訓練過程重新訓練(例如在循環的每 100 次迭代之後,每 N 天等)。

預處理一組實體

該方法由可以包括硬件(電路、專用邏輯等)、軟件(例如在通用計算機系統或專用機器上運行)或兩者的處理邏輯來執行。

該方法被執行,而在一些其他實現中可能由另一台機器執行。

訓練集被初始化為空集。 實體 E 被選中並從實體集合 S 中移除。

實體 E 的主觀屬性是基於用戶對實體 E 的反應(例如用戶評論、Like!、書籤、共享、添加到播放列表等)來識別的。

主觀屬性的識別包括對用戶評論進行處理,例如:

  • 將用戶評論中的單詞與詞彙表中的主觀屬性進行匹配
  • 結合詞匹配和其他自然語言處理技術,如句法和語義分析
  • ETC

位置附近出現的實體

對於發生在許多位置的實體,用戶反應可能會被匯總,例如:

  • 出現在許多用戶的播放列表中的實體
  • 已被共享並出現在社交網站上多個用戶的“新聞源”中的實體
  • ETC

不同位置可能會根據各種因素對相關性分數的貢獻進行加權,例如:

與該位置相關聯的特定用戶(例如,特定用戶可能是古典音樂的權威,因此在他們的新聞源中對實體的評論可能比在另一個新聞源中的評論獲得更多權重等)、非文本用戶反應(例如如“喜歡!”、“不喜歡!”、“+1”等)。

此外,實體出現的位置數量也可用於確定主觀屬性和相關性分數(例如,當視頻剪輯在數百個用戶播放列表中時,視頻剪輯的相關性分數可能會增加等)。

該塊由主觀屬性標識符執行。

主觀屬性的相關性分數由實體 E 確定。

根據個人屬性在用戶評論中出現的頻率、在其話語中提供主觀細節的特定用戶(例如某些用戶可能從經驗中知道在他們的評論比其他用戶等)。

例如,如果有 40 條評論,“可愛”出現在 20 條詞中,“真棒”出現在 8 條評論中,那麼“可愛”可能會獲得比“真棒”更高的相關性分數。

相關性分數可以根據出現主觀屬性的評論的比例來分配(例如“可愛”的分數為0.5,“真棒”的分數為0.2等)。

在一方面,相關性分數被歸一化以落在區間 [0, 1] 內。

通過一些方面,可以基於它們的相關性分數來丟棄所識別的主觀屬性(例如保留具有最高相關性分數的k個情感屬性,丟棄任何相關性分數低於閾值的個人屬性等)。

主觀屬性標識符

應該注意,在某些方面,可以通過將其相關性分數設置為零來丟棄主觀屬性。

主觀屬性和相關性分數與實體相關聯

主觀屬性和相關性分數與實體相關聯(例如通過標記、關係數據庫中表中的條目等)。

獲得實體 E 的特徵向量。

一方面,視頻剪輯或靜止圖像的特徵向量可以包含關於顏色、紋理、強度等的數值,而音頻剪輯(或有聲音的視頻剪輯)的特徵向量可以包含關於幅度的數值,光譜係數等,而文本文檔的特徵向量可能包括:

  • 關於詞頻的數值
  • 平均句子長度
  • 格式化參數
  • 以此類推

這可以由特徵提取器執行。

獲得的特徵向量和相關性分數被添加到訓練集中。

塊檢查實體集合 S 是否為空; 如果 S 非空,則繼續執行,否則繼續執行。

分類器在訓練集的所有示例上進行訓練,以便將訓練示例的特徵向量作為輸入提供給分類器,並將主觀屬性相關性分數作為輸出提供。

獲取實體的主觀屬性和相關性分數

生成實體 E 的特徵向量。

如上所述,視頻剪輯或靜止圖像的特徵向量可以包含關於顏色、紋理、強度等的數值。相反,音頻剪輯(或有聲音的視頻剪輯)的特徵向量可以包括數值關於幅度、頻譜係數等。相比之下,文本文檔的特徵向量可以包括關於詞頻、平均句子長度、格式參數等的數值。

訓練後的分類器提供特徵向量來獲得實體 E 的預測主觀屬性和相關性分數。

預測的主觀屬性和相關性分數與實體 E 相關聯(例如通過應用於實體 E 的標籤、通過關係數據庫表中的條目等)。

獲取實體主觀屬性和相關性分數的第二種方法

該方法由處理邏輯執行,該處理邏輯可以包括硬件(電路、專用邏輯等)、軟件或兩者的組合。

該方法由服務器機器執行,而其他一些方法可能由另一個設備執行。

生成實體 E 的特徵向量。 訓練後的分類器提供特徵向量來獲得實體 E 的預測主觀屬性和相關性分數。

獲得的預測主觀屬性被建議給用戶(例如上傳實體的用戶。從用戶那裡獲得一組細化的個人屬性,例如通過用戶從建議屬性中選擇的網頁,並且可能添加新屬性等)。

實體的默認相關性分數

默認的相關性分數被分配給用戶添加的任何新的主觀屬性。

默認相關性分數可能是 1.0,範圍從 0.0 到 1.0,默認相關性分數可以基於特定用戶(例如,當從過去的歷史中知道用戶非常擅長建議屬性時,分數為 1.0,分數0.8 當用戶被認為有點擅長建議屬性等時)。

Block 分支基於用戶是否刪除了任何建議的主觀屬性(例如不選擇屬性)。

實體 E 被存儲為已移除屬性的負面示例,以供將來重新訓練分類器。 精煉的主觀屬性集和相應的相關性分數與實體 E 相關聯(例如通過應用於實體 E 的標籤、通過關係數據庫表中的條目等)。