Hết thời bộ điều khiển từ xa?

Tác giả: Thanh Nam

06/09/2013 08:49 (GMT + 7)

Apple, Samsung, LG và nhiều nhà sản xuất khác đang trong cuộc đua nước rút đưa điều khiển giọng nói vào TV và các thiết bị điện tử gia dụng.

Steve Jobs đã qua đời, nhưng những gì ông để lại vẫn còn là kim chỉ nam cho Apple hướng tới. Một trong những ý tưởng đó là ông muốn “cách mạng hoá” chiếc TV, cụ thể hơn là dùng giọng nói để tương tác với TV thay cho bộ điều khiển từ xa truyền thống. Theo Jobs, đó mới là cách tương tác đơn giản nhất. Không chỉ với TV, điều khiển bằng giọng nói sẽ thay thế cho mọi bộ điều khiển từ xa khác. Nghĩa là, bạn có thể ra lệnh bằng giọng nói để bật/tắt đèn, điều chỉnh thiết bị nghe nhìn…

Theo Walter Isaacsion, người viết cuốn hồi ký cho Steve Jobs, sau nhiều năm nghiên cứu, cuối cùng Jobs cũng đạt được điều ông mong muốn là điều khiển Apple TV theo cách trực quan nhất – bằng giọng nói.
Trước khi Jobs mất một ngày, chiếc iPhone 4S xuất hiện. Theo giới công nghệ, “trái tim” của iPhone 4S không gì khác ngoài Siri, là phần mềm nhận diện giọng nói, trả lời câu hỏi cho người dùng và những gì Siri làm được cho đến nay đã chứng tỏ cho thế giới thấy nó có ích ra sao. Vẫn có những nghi vấn về thời gian Apple sẽ tung ra một chiếc TV, có thể là năm 2013, nhưng với sự xuất hiện của TV có khả năng nhận diện giọng nói như Siri trên iPhone 4S, rõ ràng “số phận” của bộ điều khiển từ xa sẽ bị đe dọa nghiêm trọng.

Còn các công ty khác thì sao? Microsoft đã có Kinect dành cho XBox 360; và Comcast, Samsung Electronics, LG, Sharp cũng đang phát triển tính năng nhận diện giọng nói cho TV, set-top box và các sản phẩm tương tự khác. Theo ông MikeThompson, phó chủ tịch Nuance Communications, là nhà cung cấp công nghệ nhận diện giọng nói hàng đầu thế giới hiện nay, một “làn sóng” thiết bị được điều khiển bằng giọng nói sẽ xuất hiện trong năm nay.

Lợi thế của điều khiển bằng giọng nói là quá rõ ràng. Bạn chỉ việc ngồi một chỗ và ra lệnh; và khi ngày càng nhiều TV có khả năng kết nối Internet thì việc điều khiển bằng thiết bị rời trở nên không còn thích hợp nữa, đi ngược lại với xu hướng “thân thiện với người dùng”.

Microsoft có vẻ như sớm bắt nhịp với xu hướng này với Kinect khi cho người dùng có thể chơi game mà không cần dùng đến bất kỳ thiết bị điều khiển nào. Kinect tích hợp micro khá nhạy, bạn chỉ việc gọi “XBOX” là máy chơi game này khởi động ngay, và dịch vụ XBox Live cho bạn tìm kiếm nội dung số giải trí như phim, game… bằng giọng nói qua cơ cấu tìm kiếm Bing.

Hầu hết người dùng tiếp xúc với khả năng nhận biết giọng nói đầu tiên qua điện thoại, máy tính bảng như quay số bằng giọng nói, hay ứng dụng giọng nói nào đó trên 2 thiết bị này. Người dùng Comcast (có hơn 3 triệu người đăng ký) hiện có thể tải về một ứng dụng để biến điện thoại thành bộ điều khiển từ xa cho dịch vụ băng rộng Xfinity. Comcast đang tìm cách thêm các tính năng điều khiển giọng nói vào ứng dụng đó. Samsung cũng đã phát triển ứng dụng tương tự để tích hợp vào các sản phẩm của họ. Tương tự như vậy là Sharp. Một nhà quản lý tại Apple từng tiết lộ rằng Jobs thấy có rất ít lý do chính đáng nào để một bộ điều khiển từ xa tồn tại độc lập khi mà iPhone và iPad cũng có thể làm tốt khả năng điều khiển.

Còn những công ty khác lại nhìn theo hướng “mở” hơn khi muốn nâng cấp bộ điều khiển từ xa thay vì loại bỏ nó. Nuance cho rằng các nhà sản xuất TV, DVD và set-top box đều đang nghiên cứu đưa ra những mẫu sản phẩm trông giống iPhone với nhiều điều khiển chạm hơn và hạn chế tối đa những nút bấm không cần thiết. Có vài mẫu sản phẩm được thiết kế chỉ có 1 nút duy nhất chỉ để kích hoạt micro. Chi phí phần cứng cũng là một thách thức, vì một thiết bị như vậy cần thêm micro, an-ten Wi-fi thay vì cảm biến hồng ngoại mà nhiều thiết bị hiện dùng cho bộ điều khiển từ xa. Đồng thời, về mặt kỹ thuật, trong cùng một phạm vi bắt sóng có nhiều thiết bị thì các nhà sản xuất còn phải thống nhất các chuẩn tần số khác nhau để tránh nhiễu, trùng và nhiều vấn đề phát sinh khác.

Tuy vậy, những khả năng cài ứng dụng lên thiết bị khác như điện thoại, máy tính bảng để điều khiển TV chỉ như là bước đệm mà thôi. Cách tốt nhất là loại bỏ luôn điều khiển từ xa. Nuance đang tìm cách nhúng micro xung quanh phòng khách, giống như thiết lập hệ thống loa vòm trong phòng nghe nhìn, để thu được “lệnh” chuẩn nhất. Còn các nhà sản xuất TV cũng tìm cách tích hợp micro vào TV. Với Apple, có thể đến năm 2013 họ mới tung ra TV nhận biết giọng nói nhưng với các nhà sản xuất khác thì có thể sẽ sớm hơn. Theo dự đoán của Nuance thì khoảng 5% TV có khả năng nhận biết giọng nói sẽ xuất hiện trên thị trường vào cuối năm 2012.

Còn về mặt phần mềm, công ty Vlingo chuyên về phần mềm nhận diện giọng nói, cho rằng sẽ có nhiều công nghệ nhận biết ra đời trong thời gian tới. Công ty mong muốn trong thời gian tới sẽ đưa ra phần mềm có thể ra lệnh điều khiển TV. Hoặc người dùng có thể dùng cử chỉ như Kinect để lật tới, lui bộ thư viện nghe nhìn ngay trên TV. Nhờ vào phần mềm theo dõi ánh mắt tích hợp trong TV hoặc trong set-top box, người dùng có thể chỉ việc nhìn vào bộ phim mình muốn xem và ra lệnh “Xem”. Đó là khả năng kết hợp giữa nhận biết giọng nói, cử chỉ và cả ánh mắt. Vlingo công bố sản phẩm nhận biết giọng nói đầu tiên của họ tại triển lãm CES 2012 diễn ra vào 10/1 tại Mỹ.

Còn với quan điểm của ông Dag Kittlaus, người đồng sáng lập công ty khởi nghiệp Siri (sau đó Apple mua lại Siri hồi năm 2010), ông cho rằng các sản phẩm nhận diện giọng nói trong phòng khách cần nhất là phân biệt được đâu là lệnh và đâu là nói chuyện thông thường, tiếng trẻ con và cả những tiếng động từ TV, radio. Hơn nữa, hầu hết TV đều không hoạt động cùng một hệ điều hành như Windows để các nhà phát triển có thể viết ứng dụng tương thích cho tốt.

Và thách thức lớn nhất về phần mềm là làm sao cho chúng thông minh hơn. Người dùng Kinect chỉ điều khiển được khi làm đúng một số thao tác nhất định, rất giới hạn. Nhiều người dùng Siri cũng đã mệt mỏi khi nghe Siri nói hoài câu “I don’t understand” (Tôi không hiểu). Điều này có nghĩa là các nhà phát triển cần phải làm việc nhiều hơn nữa, lâu hơn nữa về trí tuệ nhân tạo. Phòng nghiên cứu trí tuệ nhân tạo SRI International cho rằng phần mềm Siri mới chỉ ở bắt đầu “câu chuyện” nhận diện giọng nói hoặc mới chỉ gần ở đoạn đầu mà thôi.

Link gốc