我註冊了某音帳號之後。。。(內涵推薦演演算法)

2022-06-04 15:01:04

寫在前面

某音作為風靡中外的一款音樂創意短視訊社交軟體,其成功性不言而喻,一直聽說其強大的「威力」,但卻從沒深入研究過,作為人民的先鋒隊,這怎麼行,毅然決然的我,在上週五註冊了一個賬號,但沒想到的是等待我的確是一條不歸路~(以下內容純屬個人經歷與個人看法,沒有任何代表性,圖一樂呵兒)

一個視訊在發出後要面臨什麼?

初入抖音的我很快就被它背後神奇的推薦演演算法,引流手段,DOU+上熱門計劃深深的吸引住了。

抱著試試看的態度,我嘗試發了我第一個視訊。在發之前我也是四處取經,怎麼寫文案,怎麼配背景音樂,怎麼找和文案有呼應的視訊和照片。

最後在我高超的視訊剪輯技術之下(也就廢了刷五六道演演算法題的時間),終於把它發出去了。

瞭解到,抖音平臺對每一個視訊是有系統推薦的基礎流量的(這裡考慮到新使用者首個視訊的特殊性,這裡從第二個視訊開始分析)。

短視訊釋出後抖音一般會進行的一系列推薦流程。

如果從技術層面去分析的話,那是相當複雜的,涉及很多數學層面的知識,但我始終相信,一切知識都是簡潔的

所以我們何不以問題為導向,如果說你是某一鳴,可能的未來首富,你會如何去留住某音平臺的創作者與使用者們?

打分演演算法

在我把我的這個視訊發出去之後,就開始了焦急的等待,人嘛,嘴上說著我不在乎,其實心裡都希望獲得一種認同感的。

看到有人觀看點讚自己的作品,心裡不開心是假的,真正做到寵辱不驚,不以物喜不以己悲,那也是看得多了,習慣了而已。

很快,距離我釋出這個作品馬上到一個小時了,但觀看資料仍然是沒有什麼變化的,大約在1~2個小時之後,資料出現斷崖式的增長,這說明平臺開始給你引流了。

而這一套引流的機制,要看四個標準:點贊量、評論量、轉發量、完播率。

也就是在這個階段你作品的質量就會打上一個又一個的標籤,最後得到一個綜合得分,來決定該作品的曝光率,而且這種曝光是層層遞進的,上個階段的總分決定你下個階段的曝光率,當然如果你在第一個階段的效果就不行,那也就不需要第二階段了。

即播放量=A×完播率+B×點贊率+C×評論率+D×轉發率

看了我視訊的播放量,原來我連第一階段都算不上,這可太慘了。

這一兩百的播放,還是我冒著被圍觀社死的風險,分享到了我那些相親相愛的一家人的群裡,結果,果然被圍觀了。(不過,也讓我明白一個道理,這世界上能永遠無私對你好的只有你的父母,他們會在你的每一個作品下點贊,讚美天下父母)。

DOU+上播放量

如果說,要我說誰是這個世界上最大的大怨種,那這個人就是我(我自以為)。

來到這世上二十幾載歲月,從沒有讓任何一個平臺從我身上割下一把韭菜的我,被割了一把。

看到這個作品鶴立雞群的播放量沒,這是我花了30大洋送上去的。

結果投放質量不好,還被嘲諷了一波,也是屬實扎心了。

推薦系統

系統先識別出你想看的內容,讀懂我們的需求,然後在內容池裡匹配你想看的內容,最後展示出來,也就是千人千面,目前很多軟體都能做到千人千面。接下來進入正題,瞭解抖音的推薦系統,主要包括三部分:人物誌、內容畫像、使用者和內容之間的匹配。

1)人物誌,系統根據使用者基本屬性(比如:性別、年齡、學歷等)、興趣愛好(比如:科技、娛樂、體育、金融等)等資料集,然後給肪定義相關的標籤。

2)內容畫像,系統根據內容的層級分類、關鍵詞、實體詞等分析出特點,給各類內容打上相關的標籤。

3)使用者與內容匹配,有了使用者標籤和內容標籤之後,系統根據人物誌、內容畫像,在內容池裡面匹配出使用者喜歡的內容然後展示出來。

4)排序,系統要面對數億級的使用者和內容,同時還要考慮使用者的喜歡會不斷的發生改變,為了讓挑選的內容更加的貼近使用者想要的、更加符合使用者喜歡,系統需要對內容進行排序。

推薦演演算法

我們的日常生活現在已經被各種推薦演演算法包圍了,不只是某音,還有某條,某團,某了麼,甚至我們學校的一些APP都可以根據你常用的功能,推薦相應的資訊。

但是對於我們這些非專業人士,能從這些推薦演演算法中得到什麼呢?

百度百科:推薦演演算法是計算機專業中的一種演演算法,通過一些數學演演算法,推測出使用者可能喜歡的東西,應用推薦演演算法比較好的地方主要是網路。所謂推薦演演算法就是利用使用者的一些行為,通過一些數學演演算法,推測出使用者可能喜歡的東西

起源

如果說非要給推薦演演算法找一個老祖宗,那就不得不提上世紀九十年代,一群美國明尼蘇達大學的大學生,他們本意是想製作一個名為Movielens的電影推薦系統,從而實現對使用者進行電影的個性化推薦。

但令他們沒想到的是,這一舉動,讓這個網站的銷售額提高了35%。

有利益的地方就會有資本的進入,在資本的驅動下,這項還很年輕的技術開始了快速的發展,個性化推薦的應用也越來越廣泛。

五種常見推薦演演算法

基於內容的推薦、協同過濾推薦、基於關聯規則的推薦、基於知識的推薦、混合推薦。

1.基於內容的推薦

基於內容的推薦(Content-based Recommendation)是資訊過濾技術的延續與發展,它是建立在專案的內容資訊上做出推薦的,而不需要依據使用者對專案的評價意見,更多地需要用機器學習的方法從關於內容的特徵描述的事例中得到使用者的興趣資料。

也就是說這種演演算法是從供給側上分析,只管視訊內容,不管你使用者怎麼看怎麼評價。

2.協同過濾演演算法

基於協同過濾的推薦演演算法(Collaborative Filtering Recommendation)技術是推薦系統中應用最早和最為成功的技術之一。它一般採用最近鄰技術,利用使用者的歷史喜好資訊計算使用者之間的距離,然後利用目標使用者的最近鄰居使用者對商品評價的加權評價值來預測目標使用者對特定商品的喜好程度,從而根據這一喜好程度來對目標使用者進行推薦

該演演算法是誕生最早,並且較為著名的推薦演演算法,主要的功能是預測和推薦。

說白了,就是把人分成不同的興趣小組,把作品貼上相應的興趣標籤,在推給對應的小組。

3.基於關聯規則的推薦

基於關聯規則的推薦(Association Rule-based Recommendation)是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦物件。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的應用。

關聯規則就是在一個交易資料庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集y。

其直觀的意義就是使用者在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會購買麵包。

4.基於知識的推薦

基於知識的推薦(Knowledge-based Recommendation)在某種程度是可以看成是一種推理(Inference)技術,它不是建立在使用者需要和偏好基礎上推薦的。

比如說,你在平臺上的使用者資料就可以是任何能支援推理的知識結構,它可以是使用者已經規範化的查詢,也可以是一個更詳細的使用者需要的表示

5.混合推薦

混合推薦即將上面的4種演演算法組合應用,充分利用各個演演算法的優點解決現實的問題。

一個簡單的推薦演演算法範例

網上這種例子很多,這裡給大家找了一個。

python實現協同過濾推薦演演算法完整程式碼範例: https://www.jb51.net/article/130674.htm

#!/usr/bin/python3
# -*- coding: utf-8 -*-
from numpy import *
import time
from texttable import Texttable
class CF:
  def __init__(self, movies, ratings, k=5, n=10):
    self.movies = movies
    self.ratings = ratings
    # 鄰居個數
    self.k = k
    # 推薦個數
    self.n = n
    # 使用者對電影的評分
    # 資料格式{'UserID:使用者ID':[(MovieID:電影ID,Rating:使用者對電影的評星)]}
    self.userDict = {}
    # 對某電影評分的使用者
    # 資料格式:{'MovieID:電影ID',[UserID:使用者ID]}
    # {'1',[1,2,3..],...}
    self.ItemUser = {}
    # 鄰居的資訊
    self.neighbors = []
    # 推薦列表
    self.recommandList = []
    self.cost = 0.0
 
  # 基於使用者的推薦
  # 根據對電影的評分計算使用者之間的相似度
  def recommendByUser(self, userId):
    self.formatRate()
    # 推薦個數 等於 本身評分電影個數,使用者計算準確率
    self.n = len(self.userDict[userId])
    self.getNearestNeighbor(userId)
    self.getrecommandList(userId)
    self.getPrecision(userId)
 
  # 獲取推薦列表
  def getrecommandList(self, userId):
    self.recommandList = []
    # 建立推薦字典
    recommandDict = {}
    for neighbor in self.neighbors:
      movies = self.userDict[neighbor[1]]
      for movie in movies:
        if(movie[0] in recommandDict):
          recommandDict[movie[0]] += neighbor[0]
        else:
          recommandDict[movie[0]] = neighbor[0]
 
    # 建立推薦列表
    for key in recommandDict:
      self.recommandList.append([recommandDict[key], key])
    self.recommandList.sort(reverse=True)
    self.recommandList = self.recommandList[:self.n]
 
  # 將ratings轉換為userDict和ItemUser
  def formatRate(self):
    self.userDict = {}
    self.ItemUser = {}
    for i in self.ratings:
      # 評分最高為5 除以5 進行資料歸一化
      temp = (i[1], float(i[2]) / 5)
      # 計算userDict {'1':[(1,5),(2,5)...],'2':[...]...}
      if(i[0] in self.userDict):
        self.userDict[i[0]].append(temp)
      else:
        self.userDict[i[0]] = [temp]
      # 計算ItemUser {'1',[1,2,3..],...}
      if(i[1] in self.ItemUser):
        self.ItemUser[i[1]].append(i[0])
      else:
        self.ItemUser[i[1]] = [i[0]]
 
  # 找到某使用者的相鄰使用者
  def getNearestNeighbor(self, userId):
    neighbors = []
    self.neighbors = []
    # 獲取userId評分的電影都有那些使用者也評過分
    for i in self.userDict[userId]:
      for j in self.ItemUser[i[0]]:
        if(j != userId and j not in neighbors):
          neighbors.append(j)
    # 計算這些使用者與userId的相似度並排序
    for i in neighbors:
      dist = self.getCost(userId, i)
      self.neighbors.append([dist, i])
    # 排序預設是升序,reverse=True表示降序
    self.neighbors.sort(reverse=True)
    self.neighbors = self.neighbors[:self.k]
 
  # 格式化userDict資料
  def formatuserDict(self, userId, l):
    user = {}
    for i in self.userDict[userId]:
      user[i[0]] = [i[1], 0]
    for j in self.userDict[l]:
      if(j[0] not in user):
        user[j[0]] = [0, j[1]]
      else:
        user[j[0]][1] = j[1]
    return user
 
  # 計算餘弦距離
  def getCost(self, userId, l):
    # 獲取使用者userId和l評分電影的並集
    # {'電影ID':[userId的評分,l的評分]} 沒有評分為0
    user = self.formatuserDict(userId, l)
    x = 0.0
    y = 0.0
    z = 0.0
    for k, v in user.items():
      x += float(v[0]) * float(v[0])
      y += float(v[1]) * float(v[1])
      z += float(v[0]) * float(v[1])
    if(z == 0.0):
      return 0
    return z / sqrt(x * y)
 
  # 推薦的準確率
  def getPrecision(self, userId):
    user = [i[0] for i in self.userDict[userId]]
    recommand = [i[1] for i in self.recommandList]
    count = 0.0
    if(len(user) >= len(recommand)):
      for i in recommand:
        if(i in user):
          count += 1.0
      self.cost = count / len(recommand)
    else:
      for i in user:
        if(i in recommand):
          count += 1.0
      self.cost = count / len(user)
 
  # 顯示推薦列表
  def showTable(self):
    neighbors_id = [i[1] for i in self.neighbors]
    table = Texttable()
    table.set_deco(Texttable.HEADER)
    table.set_cols_dtype(["t", "t", "t", "t"])
    table.set_cols_align(["l", "l", "l", "l"])
    rows = []
    rows.append([u"movie ID", u"Name", u"release", u"from userID"])
    for item in self.recommandList:
      fromID = []
      for i in self.movies:
        if i[0] == item[1]:
          movie = i
          break
      for i in self.ItemUser[item[1]]:
        if i in neighbors_id:
          fromID.append(i)
      movie.append(fromID)
      rows.append(movie)
    table.add_rows(rows)
    print(table.draw())
# 獲取資料
def readFile(filename):
  files = open(filename, "r", encoding="utf-8")
  # 如果讀取不成功試一下
  # files = open(filename, "r", encoding="iso-8859-15")
  data = []
  for line in files.readlines():
    item = line.strip().split("::")
    data.append(item)
  return data
 
# -------------------------開始-------------------------------
start = time.clock()
movies = readFile("/home/hadoop/Python/CF/movies.dat")
ratings = readFile("/home/hadoop/Python/CF/ratings.dat")
demo = CF(movies, ratings, k=20)
demo.recommendByUser("100")
print("推薦列表為:")
demo.showTable()
print("處理的資料為%d條" % (len(demo.ratings)))
print("準確率: %.2f %%" % (demo.cost * 100))
end = time.clock()
print("耗費時間: %f s" % (end - start))

主要任務

1、初始化資料

獲取movies和ratings,轉換成資料userDict表示某個使用者的所有電影的評分集合,並對評分除以5進行歸一化,轉換成資料ItemUser表示某部電影參與評分的所有使用者集合

2、計算所有使用者與userId的相似度

找出所有觀看電影與userId有交集的使用者,對這些使用者迴圈計算與userId的相似度,獲取A使用者與userId的並集。格式為:{'電影ID',[A使用者的評分,userId的評分]},沒有評分記為0,計算A使用者與userId的餘弦距離,越大越相似

3、根據相似度生成推薦電影列表

4、輸出推薦列表和準確率

寫在最後

記得前段時間社會上曾出現過關於推薦系統究竟是服務了我們生活,還是限制了我們的生活的大討論。

2021年8月27日,國家網際網路資訊辦公室釋出了關於《網際網路資訊服務演演算法推薦管理規定(徵求意見稿)》公開徵求意見的通知。其中第十五條規定:

演演算法推薦服務提供者應當向用戶提供不針對其個人特徵的選項,或者向用戶提供便捷的關閉演演算法推薦服務的選項。使用者選擇關閉演演算法推薦服務的,演演算法推薦服務提供者應當立即停止提供相關服務。 演演算法推薦服務提供者應當向用戶提供選擇、修改或者刪除用於演演算法推薦服務的使用者標籤的功能。

更是引發了人們對推薦演演算法這一技術的關注。

就像哈佛大學教授桑斯坦(Cass R. Sunstein)在2006年出版的《資訊烏托邦》(Infotopia)一書中提出的資訊繭房(Information Cocoon)這一概念:

當個體只關注自我選擇的或能夠愉悅自身的內容,而減少對其他資訊的接觸,久而久之,便會像蠶一樣逐漸禁錮於自我編織的「繭房」之中。

我們知道這是陷阱,這是牢籠,但仍會跨入其中。很難去講這些對對錯錯,我們確實在享受它帶來的便利,又被它深深套牢。

但有一點是無可厚非的:技術本身是沒有對錯而言的,關鍵在用這項技術的人或團體,有力量的武器應該在更嚴格的監督制度中。

好了,以上便是這次的所有內容了。

遲來的端午祝福送給大家:

(不說了,剪視訊去了,趁著週六週日,把下週的要發的內容全剪完)

參考文獻:

漫畫來源 小林漫畫
http://t.csdn.cn/xxe7C
http://t.csdn.cn/XEG1j
http://t.csdn.cn/J4VR7
https://juejin.cn/post/7020246064955392013
https://www.zhihu.com/question/270224768/answer/1542280267
https://zhan-bin.github.io/2018/10/14/5種常用的推薦系統演演算法/
https://baike.baidu.com/item/推薦演演算法/6560536